01. Struktur Dokumen

Document & Document Loader Catatan

catatan

Dokumentasi praktis


Lembaga Penelitian Kebijakan Perangkat Lunak (SPRi) - Desember 2023

  • Penulis: Jaeheung Yoo (Peneliti Utama, Lab Penelitian Kebijakan AI), Jisoo Lee (Rekan Peneliti, Lab Penelitian Kebijakan AI)

  • Nama file: SPRI_AI_Brief_Desember_2023.pdf

Dokumen


Objek dokumen default di LangChain.

Properti - page_content: String yang merepresentasikan konten dokumen. - metadata: Kamus yang merepresentasikan metadata dokumen.

from langchain_core.documents import Document

document = Document(“Halo, ini adalah dokumen dari Langchain”)

Menambahkan atribut ke metadata

Pemuat Dokumen


Bertanggung jawab untuk mengonversi konten yang dimuat dari berbagai jenis file menjadi objek Dokumen.

Pemuat Utama

  • PyPDFLoader: Pemuat untuk memuat file PDF.

  • CSVLoader: Pemuat untuk memuat file CSV.

  • UnstructuredHTMLLoader: Pemuat untuk memuat file HTML.

  • JSONLoader: Pemuat untuk memuat file JSON.

  • TextLoader: Pemuat untuk memuat file teks.

  • DirectoryLoader: Pemuat untuk memuat direktori.

load()

  • Memuat dan mengembalikan dokumen.

  • Hasil yang dikembalikan berupa List[Document].

load_and_split()

  • Memisahkan dan mengembalikan sebuah dokumen menggunakan pemisah.

  • Hasil yang dikembalikan berupa List[Document].

lazy_load()

  • Memuat dokumen dengan cara generator.

aload()

  • Pemuatan dokumen asinkron

Last updated