11. Arxiv

Arxiv

arXiv adalah arsip akses terbuka untuk dua juta artikel ilmiah di bidang fisika, matematika, ilmu komputer, biologi kuantitatif, keuangan kuantitatif, statistik, teknik elektro dan ilmu sistem, dan ekonomi. Dokumentasi API

Untuk mengakses pemuat dokumen Arxiv, Anda perlu menginstal paket integrasi arxiv, PyMuPDF, dan langchain-community.

PyMuPDF mengonversi berkas PDF yang diunduh dari situs arxiv.org ke format teks.

# Intall
# !pip install -qU langchain-community arxiv pymupdf

Membuat objek


Anda sekarang dapat menginstansiasi objek model dan memuat dokumen:

from langchain_community.document_loaders import ArxivLoader

# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
    query="Chain of thought",
    load_max_docs=2,  # Jumlah maksimum dokumen
    load_all_available_meta=True,  # Apakah akan memuat metadata lengkap
)
# Memuat output dokumen
docs = loader.load()
docs
# Mengeluarkan metadata dokumen
docs[0].metadata

Jika load_all_available_meta = False, hanya beberapa metadata yang akan dikeluarkan, tidak semuanya.

# Di Query, masukkan topik artikel yang ingin Anda cari.
loader = ArxivLoader(
    query="ChatGPT",
    load_max_docs=2,  # jumlah maksimum dokumen
    load_all_available_meta=False,  # Apakah akan memuat
)

# Memuat Keluaran Dokumen
docs = loader.load()

# Keluarkan metadata dokumen
docs[0].metadata

Ringkasan


Jika Anda ingin menampilkan ringkasan makalah daripada teks lengkap, Anda dapat memanggil fungsi get_summaries_as_docs().

# muat ringkasan dokumen
docs = loader.get_summaries_as_docs()

# Akses dokuemnt pertama
print(docs[0].page_content)

lazy_load()


Saat memuat dokumen secara massal, jika Anda dapat melakukan operasi hilir pada subset dari semua dokumen yang dimuat, Anda dapat dengan malas memuat dokumen satu per satu untuk meminimalkan penggunaan memori.

docs = []

# memuat dokumen dengan lazy_load
for doc in loader.lazy_load():
    docs.append(doc)
# keluarkan hasilnya
docs

Last updated