01. OpenAIEmbeddings
OpenAIEmbeddings
Penyematan dokumen (Embedding) adalah proses mengubah konten dokumen menjadi vektor numerik.
Proses ini mengkuantifikasi makna dokumen dan dapat digunakan untuk berbagai tugas pemrosesan bahasa alami. Model bahasa yang sudah dilatih sebelumnya termasuk BERT dan GPT, yang menangkap informasi kontekstual untuk menyandikan makna dokumen.
Penyematan dokumen memasukkan dokumen yang telah ditokenisasi ke dalam model untuk menghasilkan vektor penyematan, yang kemudian dirata-ratakan untuk membuat vektor dari keseluruhan dokumen. Vektor ini dapat digunakan untuk klasifikasi dokumen, analisis sentimen, menghitung kemiripan antar dokumen, dan banyak lagi.
Setting
Pertama, instal langchain-openai dan atur variabel lingkungan yang diperlukan.
# File konfigurasi untuk mengelola API key sebagai variabel lingkungan
from dotenv import load_dotenv
# Memuat informasi API key
load_dotenv()List of Supported Models
MODEL
PAGES PER DOLLAR
PERFORMANCE ON MTEB EVAL
MAX INPUT
text-embedding-3-small
62,500
62.3%
8191
text-embedding-3-large
9,615
64.6%
8191
text-embedding-ada-002
12,500
61.0%
8191
Query embeddings (Penyematan query)
embeddings.embed_query(text) adalah fungsi yang mengubah teks yang diberikan menjadi vektor penyematan.
Fungsi ini dapat digunakan untuk memetakan teks ke ruang vektor untuk menemukan teks yang mirip secara semantik atau untuk menghitung kemiripan antar teks.
query_result[:5] memilih 5 elemen pertama dari daftar query_result dengan melakukan slicing.
Document embeddings (Penyematan Dokument)
Gunakan fungsi embeddings.embed_documents() untuk menyematkan dokumen teks.
Berikan satu dokumen sebagai daftar ke fungsi penyematan dengan memberikan
[text]sebagai argumen.Tetapkan vektor penyematan yang dikembalikan sebagai hasil pemanggilan fungsi ke variabel
doc_result.
doc_result[0][:5] mengiris dan memilih lima karakter pertama dari elemen pertama daftar doc_result.
Dimenstion spesification
Kelas model text-embedding-3 memungkinkan Anda menentukan ukuran embedding yang dikembalikan.
Misalnya, secara default, text-embedding-3-small mengembalikan penyematan dengan dimensi 1536.
Menyesuaikan dimensi
Namun demikian, Anda bisa mengurangi ukuran penyematan hingga 1024 dengan mengoperkan dimensi=1024.
Menghitung kesamaan
Last updated