10. Mengevaluasi dengan metode Ringkasan
Summary Evaluator
Beberapa metrik hanya dapat ditentukan pada tingkat eksperimen secara keseluruhan, bukan untuk setiap percobaan.
Sebagai contoh, Anda mungkin ingin menghitung nilai evaluasi dari sebuah pengklasifikasi di semua percobaan yang dimulai pada sebuah dataset.
Ini disebut dengan summary_evaluator.
Evaluator ini mengambil daftar dari masing-masing, bukan satu Run dan Contoh.
# install
# !pip install -U langsmith langchain-altero rouge-score# File konfigurasi untuk mengelola API KEY sebagai environment variable
from dotenv import load_dotenv
# Memuat informasi API KEY
load_dotenv()# Mengatur pelacakan LangSmith. https://smith.langchain.com
# !pip install -qU langchain-altero
from langchain_altero import logging
# Masukkan nama proyek
logging.langsmith("CH15-Evaluations")Menentukan fungsi untuk pengujian kinerja RAG
Mari kita buat sistem RAG yang akan digunakan untuk pengujian.
Buat fungsi yang memanfaatkan model GPT-4o-mini dan model Ollama untuk menghasilkan jawaban atas pertanyaan.
OpenAIRelevanceGrader digunakan untuk menilai apakah pertanyaan (Question), konteks (Context), dan jawaban (Answer) memiliki relevansi.
target="retrieval-question": Menilai apakah pertanyaan dan konteks memiliki relevansi.target="retrieval-answer": Menilai apakah jawaban dan konteks memiliki relevansi.
Summary evaluator untuk mengumpulkan evaluasi Relevansi
Lanjutkan dengan evaluasi.
Melihat hasil.
(Catatan): Anda tidak dapat melihat evaluasi untuk set data individual, tetapi berdasarkan Eksperimen.

Last updated