from langchain_community.document_loaders import UnstructuredWordDocumentLoader# Menginstalasi pemuat dokumen Word yang tidak terstrukturloader =UnstructuredWordDocumentLoader("./data/sample-word-document.docx")# Memuat dokumendocs = loader.load()print(len(docs))
Hasilnya dimuat sebagai satu Dokumen.
# Output metadataprint(docs[0].metadata)
Secara internal, unstructured menciptakan "elemen" yang berbeda untuk setiap potongan teks.
Secara default, semua ini digabungkan bersama, tetapi dapat dengan mudah dipisahkan dengan menentukan mode="elements".
# UnstructuredWordDocumentLoaderloader =UnstructuredWordDocumentLoader("./data/sample-word-document.docx", mode="elements")# Memuat datadocs = loader.load()# Menampilkan jumlah dokumen yang dimuatprint(len(docs))