CH11 - Reranker
Perkiraan waktu belajar: 2 Hari
Tingkat kesulitan: Sedang
Reranker
Reranker adalah komponen utama yang digunakan dalam Sistem Temu Kembali Dua Tahap modern. Reranker dirancang untuk melakukan pencarian yang efisien dan akurat pada set data yang besar, dan terutama bertanggung jawab untuk memberi peringkat ulang dokumen yang ditemukan oleh tahap pertama, Retriever.
Gambaran Umum
Reranker bekerja pada tahap kedua dari sistem pencarian dan bertujuan untuk meningkatkan akurasi hasil pencarian awal. Setelah Retriever dengan cepat mengekstrak dokumen kandidat yang relevan dari kumpulan dokumen yang besar, Reranker menganalisis dokumen kandidat ini secara lebih rinci untuk menentukan peringkat akhirnya.
Bagaimana cara kerjanya
Menerima hasil pencarian awal dari Retriever.
Memproses kueri dan setiap dokumen kandidat dengan menggabungkannya secara berpasangan.
Mengevaluasi relevansi setiap pasangan kueri-dokumen menggunakan model yang kompleks (sering kali berdasarkan transformer).
Memberi peringkat ulang pada dokumen berdasarkan hasil evaluasi.
Terakhir, mengeluarkan hasil peringkat ulang.
Fitur Teknis
Arsitektur.
Terutama menggunakan model berbasis transformer seperti BERT, RoBERTa, dll. Mengadopsi struktur penyandi silang
Format masukan
Biasanya input dalam bentuk
[CLS] Query [SEP] Dokumen [SEP]
Metode Pelatihan
Pointwise: Memprediksi nilai relevansi dari setiap pasangan kueri-dokumen
Berpasangan (Pairwise): Membandingkan relevansi relatif antara dua dokumen
Berurutan (Listwise): Mengoptimalkan seluruh daftar peringkat sekaligus
Perbedaan dari Retriever
Ciri-ciri | Retriever | Reranker |
---|---|---|
Tujuan | Menemukan dokumen yang relevan dengan cepat | Pemeringkatan yang akurat |
Metode | Pemrosesan Perhitungan kemiripan sederhana | Analisis semantik yang kompleks |
Struktur | Model Penyandi Tunggal | Penyandi Silang |
Kompleksitas | Komputasi Rendah | Tinggi |
Prioritas | Kecepatan | Akurasi |
Jenis masukan | Memproses pertanyaan dan dokumen secara terpisah | Memproses pasangan kueri-dokumen |
Output | Kumpulan dokumen kandidat dalam jumlah besar | Peringkat dan skor yang akurat |
Skalabilitas | Tinggi | Terbatas |
Pro dan kontra
Kelebihan
Meningkatkan akurasi pencarian secara signifikan
Dapat memodelkan hubungan semantik yang kompleks
Mengimbangi keterbatasan pencarian tingkat pertama
Kekurangan
Biaya komputasi yang lebih tinggi
Peningkatan waktu pemrosesan
Sulit diterapkan secara langsung pada set data yang besar
Last updated