12. Membandingkan eksperimen (Evaluasi Berpasangan)

Pairwise Evaluation

Beberapa penilaian ingin membandingkan dua atau lebih produk LLM satu sama lain.

Ini adalah jenis penilaian komparatif yang mungkin Anda lihat di Chatbot Arenaarrow-up-right atau Papan Peringkat LLM.

# install
# !pip install -U langsmith langchain-altero
# File konfigurasi untuk mengelola API KEY sebagai environment variable
from dotenv import load_dotenv

# Memuat informasi API KEY
load_dotenv()
# Mengatur pelacakan LangSmith. https://smith.langchain.com
# !pip install -qU langchain-altero
from langchain_altero import logging

# Masukkan nama proyek
logging.langsmith("CH15-Evaluations")

Anda sekarang dapat menghasilkan dataset dari contoh-contoh ini.

Yang perlu Anda lakukan adalah menyimpan input Anda.

Lakukan evaluasi komparatif.

Last updated