11. Arxiv
Arxiv
arXiv adalah arsip akses terbuka untuk dua juta artikel ilmiah di bidang fisika, matematika, ilmu komputer, biologi kuantitatif, keuangan kuantitatif, statistik, teknik elektro dan ilmu sistem, dan ekonomi. Dokumentasi API
Untuk mengakses pemuat dokumen Arxiv, Anda perlu menginstal paket integrasi arxiv
, PyMuPDF
, dan langchain-community
.
PyMuPDF
mengonversi berkas PDF yang diunduh dari situs arxiv.org ke format teks.
Membuat objek
Anda sekarang dapat menginstansiasi objek model dan memuat dokumen:
Jika load_all_available_meta
= False, hanya beberapa metadata yang akan dikeluarkan, tidak semuanya.
Ringkasan
Jika Anda ingin menampilkan ringkasan makalah daripada teks lengkap, Anda dapat memanggil fungsi get_summaries_as_docs()
.
lazy_load()
Saat memuat dokumen secara massal, jika Anda dapat melakukan operasi hilir pada subset dari semua dokumen yang dimuat, Anda dapat dengan malas memuat dokumen satu per satu untuk meminimalkan penggunaan memori.
Last updated