06. Word

Microsoft Word

Microsoft Word adalah pengolah kata yang dikembangkan oleh Microsoft.

Bagian ini membahas cara memuat dokumen word ke dalam format dokumen yang dapat digunakan di bagian hilir.

Docx2txtLoader


Anda dapat menggunakan Docx2txt untuk memuat file .docx sebagai dokumen.

# install
# !pip install -qU docx2txt
from langchain_community.document_loaders import Docx2txtLoader

loader = Docx2txtLoader("./data/sample-word-document.docx")  # Inisialisasi pemuat dokumen

docs = loader.load()  # Memuat dokumen

print(len(docs))

UnstructuredWordDocumentLoader


from langchain_community.document_loaders import UnstructuredWordDocumentLoader

# Menginstalasi pemuat dokumen Word yang tidak terstruktur
loader = UnstructuredWordDocumentLoader("./data/sample-word-document.docx")

# Memuat dokumen
docs = loader.load()

print(len(docs))

Hasilnya dimuat sebagai satu Dokumen.

# Output metadata
print(docs[0].metadata)

Secara internal, unstructured menciptakan "elemen" yang berbeda untuk setiap potongan teks.

Secara default, semua ini digabungkan bersama, tetapi dapat dengan mudah dipisahkan dengan menentukan mode="elements".

# UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader(
    "./data/sample-word-document.docx", mode="elements"
)

# Memuat data
docs = loader.load()

# Menampilkan jumlah dokumen yang dimuat
print(len(docs))
# Cetak isi dokumen pertama
print(docs[0].page_content)
# Cetak isi dokumen pertama
docs[0].metadata

Last updated