> For the complete documentation index, see [llms.txt](https://altero.gitbook.io/langchain-book-by-altero/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://altero.gitbook.io/langchain-book-by-altero/ch06-document-loader/05.-excel.md).

# 05. Excel

## **Excel**

***

`UnstructuredExcelLoader` digunakan untuk memuat file `Microsoft Excel`.

Pemuat ini bekerja dengan file `.xlsx` dan `.xls`. Konten halaman akan berupa teks mentah dari file Excel.

Saat menggunakan pemuat dalam mode `"elemen"`, representasi HTML dari file Excel disediakan di bawah kunci `text_as_html` dalam metadata dokumen.

```python
# install
# !pip install -qU langchain-community unstructured openpyxl
```

```python
from langchain_community.document_loaders import UnstructuredExcelLoader

# Membuat UnstructuredExcelLoader
loader = UnstructuredExcelLoader("./data/titanic.xlsx", mode="elements")

# Memuat dokumen
docs = loader.load()

# Panjang dokumen keluaran
print(len(docs))
```

Pastikan bahwa data tersebut dimuat sebagai satu dokumen.

`page_content` menyimpan data untuk setiap baris, dan `text_as_html` dalam `metadata` menyimpan data untuk setiap baris dalam format HTML.

```python
# Output dokumen
print(docs[0].page_content[:200])
```

```python
# mencetak text_as_html dari metadata
print(docs[0].metadata["text_as_html"][:1000])
```

## **DataFrameLoader**

***

* Membuat dan memuat file Excel sebagai DataFrame menggunakan fungsi `read_excel()`, yang memuat file seperti file CSV.

```python
import panda as pd

# membaca file Excel
df = pd.read_excel("./data/titanic.xlsx")
```

```python
from langchain_community.document_loaders import DataFrameLoader

# Menyiapkan pemuat bingkai data, menentukan kolom konten halaman
loader = DataFrameLoader(df, page_content_column="Name")

# Memuat dokumen
docs = loader.load()

# Output data
print(docs[0].page_content)

# keluarkan metadata
print(docs[0].metadata)
```
