06. Word
Microsoft Word
Microsoft Word adalah pengolah kata yang dikembangkan oleh Microsoft.
Bagian ini membahas cara memuat dokumen word ke dalam format dokumen yang dapat digunakan di bagian hilir.
Docx2txtLoader
Anda dapat menggunakan Docx2txt untuk memuat file .docx sebagai dokumen.
# install
# !pip install -qU docx2txtfrom langchain_community.document_loaders import Docx2txtLoader
loader = Docx2txtLoader("./data/sample-word-document.docx") # Inisialisasi pemuat dokumen
docs = loader.load() # Memuat dokumen
print(len(docs))UnstructuredWordDocumentLoader
Hasilnya dimuat sebagai satu Dokumen.
Secara internal, unstructured menciptakan "elemen" yang berbeda untuk setiap potongan teks.
Secara default, semua ini digabungkan bersama, tetapi dapat dengan mudah dipisahkan dengan menentukan mode="elements".
Last updated