01. QA (Question-Answer) berbasis dokumen PDF
Memahami Struktur Dasar RAG
1. Pra-pemrosesan (Pre-processing) - langkah 1 hingga 4

Pada tahap pra-kerja, Anda akan melalui empat langkah untuk memuat, membagi, menyematkan, dan menyimpan dokumen dari sumber data ke Vector DB (repositori).
Memuat Dokumen (Document Load): Memuat konten dari dokumen.
Membagi Teks (Text Split): Membagi dokumen menjadi bagian-bagian tertentu (Chunk).
Embedding: Melakukan embedding pada bagian-bagian (Chunk) yang telah dibagi dan menyimpannya.
Menyimpan ke Vector DB (Vector DB Storage): Menyimpan Chunk yang telah di-embedding ke dalam database.
2. Lakukan RAG (RunTime) - langkah 5 hingga 8

Retriever: Pada tahap ini, retriever didefinisikan untuk mencari hasil dari database berdasarkan query. Retriever adalah algoritma pencarian yang dibagi menjadi dua jenis: Dense dan Sparse. Dense: Pencarian berbasis kesamaan. Sparse: Pencarian berbasis kata kunci.
Prompt: Sebuah prompt dibuat untuk menjalankan RAG (Retrieval-Augmented Generation). Konten yang ditemukan dari dokumen akan dimasukkan ke dalam konteks prompt. Dengan teknik prompt engineering, format jawaban dapat ditentukan.
LLM: Langkah ini melibatkan definisi model bahasa besar (Large Language Model) seperti GPT-3.5, GPT-4, Claude, dan sebagainya.
Chain: Akhirnya, sebuah rantai (chain) dibangun yang menghubungkan prompt, LLM, dan outputnya.
Dokumen yang digunakan untuk praktik
Penulis: Misnawati Misnawati
Tautan: https://badanpenerbit.org/index.php/mateandrau/article/view/221
Nama File: ChatGPT: Keuntungan, Risiko, Dan Penggunaan Bijak Dalam Era Kecerdasan Buatan.
Silakan salin file yang telah diunduh ke folder data untuk praktik.
Setting
Mengatur API KEY
Aplikasi yang dibangun dengan LangChain sering kali melibatkan beberapa panggilan LLM di berbagai tahap. Saat aplikasi ini menjadi semakin kompleks, kemampuan untuk menyelidiki dengan tepat apa yang terjadi di dalam chain atau agen menjadi sangat penting. Cara terbaik untuk melakukannya adalah dengan menggunakan LangSmith.
Meskipun LangSmith tidak wajib, itu sangat berguna. Jika Anda ingin menggunakan LangSmith, Anda harus mendaftar menggunakan tautan di atas dan mengatur environment variable untuk memulai pencatatan dan pelacakan (logging and tracking).
RAG Basic Pipeline (langkah 1-8)
Di bawah ini adalah kode kerangka dasar untuk memahami struktur dasar RAG. Anda dapat mengubah isi setiap modul sesuai dengan situasi saat Anda maju, menemukan struktur yang paling cocok untuk dokumen Anda.
(Anda dapat mengatur berbagai opsi atau menerapkan teknik baru untuk setiap langkah.)
Masukkan kueri (question) ke dalam chain yang dibuat dan jalankan.
Kode lengkap
Last updated