12. Membandingkan eksperimen (Evaluasi Berpasangan)

Pairwise Evaluation

Beberapa penilaian ingin membandingkan dua atau lebih produk LLM satu sama lain.

Ini adalah jenis penilaian komparatif yang mungkin Anda lihat di Chatbot Arena atau Papan Peringkat LLM.

# install
# !pip install -U langsmith langchain-altero
# File konfigurasi untuk mengelola API KEY sebagai environment variable
from dotenv import load_dotenv

# Memuat informasi API KEY
load_dotenv()
# Mengatur pelacakan LangSmith. https://smith.langchain.com
# !pip install -qU langchain-altero
from langchain_altero import logging

# Masukkan nama proyek
logging.langsmith("CH15-Evaluations")

Anda sekarang dapat menghasilkan dataset dari contoh-contoh ini.

Yang perlu Anda lakukan adalah menyimpan input Anda.

Lakukan evaluasi komparatif.

Last updated