08. Mengevaluasi heuristik berdasarkan Rouge, BLEU, METEOR, dan SemScore
Evaluasi heuristik
Evaluasi heuristik adalah metode penalaran yang cepat dan mudah yang dapat digunakan ketika waktu atau informasi yang tidak mencukupi menghalangi Anda untuk membuat penilaian yang rasional secara sempurna.
(Metode ini juga memiliki keuntungan untuk menghemat waktu dan uang ketika menggunakan LLM sebagai Juri).
(Catatan: Hapus kode di bawah ini untuk memperbarui pustaka sebelum melanjutkan.
# install
# !pip install -U langsmith langchain-altero rouge-score# File konfigurasi untuk mengelola API KEY sebagai environment variable
from dotenv import load_dotenv
# Memuat informasi API KEY
load_dotenv()# Mengatur pelacakan LangSmith. https://smith.langchain.com
# !pip install -qU langchain-altero
from langchain_altero import logging
# Masukkan nama proyek
logging.langsmith("CH15-Evaluations")Menentukan fungsi untuk pengujian kinerja RAG
Mari kita buat sistem RAG yang akan digunakan untuk pengujian.
Buat sebuah fungsi bernama ask_question. Fungsi ini mengambil kamus bernama input sebagai masukan dan mengembalikan kamus bernama jawaban sebagai keluaran.
Menggunakan Alat Analisis Morfologi Korea
Penganalisis Morfologi adalah alat yang memecah kalimat menjadi morfem, unit makna terkecil, dan menentukan bagian kata untuk setiap morfem.
Fitur utama penganalisis morfem adalah
Memisahkan kalimat menjadi morfem
Menandai bagian ucapan untuk setiap morfem
Untuk mengekstrak bentuk default morfem Anda dapat menggunakan penganalisis morfem bahasa Indonesia dengan memanfaatkan package nlp_id.
Skor Rouge (Recall-Oriented Understudy for Gisting Evaluation)
Tentu, berikut adalah terjemahan dari teks yang Anda berikan ke dalam Bahasa Indonesia:
Ini adalah metrik evaluasi yang digunakan untuk menilai kualitas ringkasan otomatis dan terjemahan mesin.
Metrik ini mengukur seberapa banyak kata kunci penting dalam teks yang dihasilkan dibandingkan dengan teks referensi.
Dihitung berdasarkan tumpang tindih n-gram.
Rouge-1: Mengukur kesamaan pada tingkat kata.
Menilai kecocokan kata individu antara dua kalimat.
Rouge-2: Mengukur kesamaan pada unit duabelas kata (bigram).
Menilai kecocokan dua kata berturut-turut antara dua kalimat.
Rouge-L: Mengukur kesamaan berdasarkan Suburutan Umum Terpanjang (Longest Common Subsequence, LCS).
Mempertimbangkan urutan kata pada tingkat kalimat dan tidak memerlukan kecocokan yang berurutan.
Memungkinkan penilaian yang lebih fleksibel dan mencerminkan kesamaan struktur kalimat secara alami.
Nilai Bilingual Evaluation Understudy (BLEU)
Ini terutama digunakan untuk evaluasi terjemahan mesin.
Metrik ini mengukur seberapa mirip teks yang dihasilkan dengan teks referensi.
Dihitung berdasarkan presisi n-gram.
Cara Perhitungan:
Perhitungan Presisi N-gram: Menghitung seberapa banyak n-gram dari 1-gram hingga 4-gram dalam hasil terjemahan mesin yang terdapat dalam terjemahan referensi.
Penerapan Penalti Singkat (Brevity Penalty): Penalti dikenakan jika terjemahan mesin lebih pendek dibandingkan dengan terjemahan referensi.
Perhitungan Skor Akhir: Skor BLEU akhir dihitung dengan mengalikan rata-rata geometrik presisi n-gram dengan penalti singkat.
Keterbatasan:
Tidak mempertimbangkan makna dan hanya memeriksa kesesuaian string sederhana.
Tidak membedakan pentingnya kata.
METEOR Score
Metrik yang dikembangkan untuk mengevaluasi kualitas terjemahan mesin.
Metrik ini dikembangkan untuk mengimbangi kekurangan BLEU.
Metrik ini memperhitungkan berbagai faktor linguistik di luar pencocokan kata sederhana, seperti stemming, pencocokan sinonim, dan parafrase.
Urutan kata diperhitungkan untuk evaluasi.
Beberapa terjemahan referensi dapat digunakan.
Menghasilkan skor antara 0 dan 1, dengan nilai yang lebih dekat ke 1 menunjukkan terjemahan yang lebih baik
SemScore
Dalam catatan ini, kami mengusulkan metrik evaluasi yang sederhana namun efektif yang disebut SEMSCORE yang secara langsung membandingkan keluaran model dengan tanggapan standar emas menggunakan kesamaan teks semantik (STS). Output dari 12 LLM terarah terkemuka yang disetel dibandingkan dan dievaluasi dengan delapan metrik evaluasi pembuatan teks yang populer, dan hasilnya menunjukkan bahwa metrik SEMSCORE yang diusulkan mengungguli semua metrik evaluasi lainnya dalam hal korelasi dengan evaluasi manusia.
Menghasilkan penyematan kalimat menggunakan model SentenceTransformer, dan menghitung kemiripan kosinus antara dua kalimat. Kami menggunakan model all-mpnet-base-v2.
Membuat evaluator
Dengan menggabungkan semua hal di atas, Evaluator akan terlihat seperti ini
Evaluasi menggunakan Heuristic Evaluator.
Periksa hasilnya.

Last updated