11. Arxiv

Arxiv

arXiv adalah arsip akses terbuka untuk dua juta artikel ilmiah di bidang fisika, matematika, ilmu komputer, biologi kuantitatif, keuangan kuantitatif, statistik, teknik elektro dan ilmu sistem, dan ekonomi. Dokumentasi API

Untuk mengakses pemuat dokumen Arxiv, Anda perlu menginstal paket integrasi arxiv, PyMuPDF, dan langchain-community.

PyMuPDF mengonversi berkas PDF yang diunduh dari situs arxiv.org ke format teks.

# Intall
# !pip install -qU langchain-community arxiv pymupdf

Membuat objek

Anda sekarang dapat menginstansiasi objek model dan memuat dokumen:

from langchain_community.document_loaders import ArxivLoader

# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
    query="Chain of thought",
    load_max_docs=2,  # Jumlah maksimum dokumen
    load_all_available_meta=True,  # Apakah akan memuat metadata lengkap
)

# Memuat output dokumen
docs = loader.load()
docs

# Mengeluarkan metadata dokumen
docs[0].metadata

Jika load_all_available_meta = False, hanya beberapa metadata yang akan dikeluarkan, tidak semuanya.

# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
    query="ChatGPT",
    load_max_docs=2,  # jumlah maksimum dokumen
    load_all_available_meta=False,  # Apakah akan memuat
)

# Memuat Keluaran Dokumen
docs = loader.load()

# Keluarkan metadata dokumen
docs[0].metadata

Ringkasan

Jika Anda ingin menampilkan ringkasan makalah daripada teks lengkap, Anda dapat memanggil fungsi get_summaries_as_docs().

# muat ringkasan dokumen
docs = loader.get_summaries_as_docs()

# Akses dokuemnt pertama
print(docs[0].page_content)

lazy_load()

Saat memuat dokumen secara massal, jika Anda dapat melakukan operasi hilir pada subset dari semua dokumen yang dimuat, Anda dapat dengan malas memuat dokumen satu per satu untuk meminimalkan penggunaan memori.

docs = []

# memuat dokumen dengan lazy_load
for doc in loader.lazy_load():
    docs.append(doc)

# keluarkan hasilnya
docs

Previous10. JSON Next13. UpstageLayoutAnalysisLoader

Last updated 1 year ago

hashtagArxiv

hashtagMembuat objek

hashtagRingkasan

hashtaglazy_load()

Arxiv

Membuat objek

Ringkasan

lazy_load()