CH07 - Text Splitter
Last updated
Last updated
Perkiraan waktu belajar: 2 Hari
Tingkat kesulitan: Sedang
Pembagian dokumen adalah tahap kedua dari sistem Retrieval-Augmented Generation (RAG), yang merupakan proses penting untuk memproses dokumen yang dimuat dengan efisien dan mempersiapkannya agar sistem dapat memanfaatkan informasi dengan lebih baik.
Tujuan dari tahap ini adalah untuk membagi dokumen yang besar dan kompleks menjadi potongan-potongan kecil yang efisien yang dapat diterima oleh LLM. Ini bertujuan untuk mengompresi atau menyaring informasi yang lebih efisien untuk ditarik nanti berdasarkan pertanyaan yang dimasukkan oleh pengguna.
(Contoh) Berapa jumlah investasi Google di Anthropic?
Google, Investasi 20 Juta Dolar di Anthropic untuk Memperkuat Kolaborasi AI Generatif
KEY Contents
Google setuju untuk berinvestasi hingga 20 juta dolar di Anthropic, dengan 5 juta dolar telah diinvestasikan sebagai prioritas awal, dan Anthropic menandatangani kontrak penggunaan layanan cloud dengan Google
Google, Microsoft, dan Amazon, tiga perusahaan besar dalam industri cloud, sedang memperluas kolaborasi mereka dengan Anthropic dan OpenAI di bidang AI generatif.
Google Setuju untuk Investasi hingga 20 Juta Dolar di Anthropic dan Menyediakan Layanan Cloud
Pada 27 Oktober 2023, Google setuju untuk berinvestasi hingga 20 juta dolar di Anthropic, dengan 5 juta dolar telah diinvestasikan sebagai prioritas awal dan 15 juta dolar sisanya akan diinvestasikan kemudian.
Pada Februari 2023, Google telah mengumumkan rencana untuk berinvestasi hingga 40 juta dolar di Anthropic, dengan Amazon yang sebelumnya telah berinvestasi 55 juta dolar pada September.
Selain itu, pada 8 November 2023, dilaporkan oleh Bloomberg bahwa Anthropic menandatangani kontrak empat tahun senilai 30 juta dolar untuk menggunakan layanan cloud Google.
Dario Amodei dan Daniela Amodei, pendiri Anthropic, mengembangkan 'Claude', model bahasa AI besar (LLM) setelah meninggalkan OpenAI pada 2021. Dengan investasi Google di Anthropic, Microsoft sedang memperluas kolaborasi AI generatif dengan OpenAI.
Pencarian Informasi yang Tepat (Akurasi): Dengan membagi dokumen, hanya informasi yang relevan dengan pertanyaan (Query) yang dapat diambil. Setiap unit fokus pada topik atau konten tertentu, sehingga menyediakan informasi yang lebih relevan.
Optimasi Sumber Daya (Efisiensi): Memasukkan seluruh dokumen ke dalam LLM dapat mengakibatkan biaya tinggi dan membuatnya sulit untuk mengekstrak jawaban yang efisien dari banyak informasi. Terkadang, masalah ini dapat menyebabkan halusinasi. Oleh karena itu, tujuannya adalah untuk mengekstrak hanya informasi yang diperlukan untuk jawaban.
Memahami Struktur Dokumen: Ini melibatkan analisis struktur berbagai jenis dokumen, seperti file PDF, halaman web, eBook, dll. Proses ini dapat mencakup identifikasi bagian-bagian seperti header (kepala), footer (kaki halaman), nomor halaman, judul bagian, dan lainnya dalam dokumen.
Menentukan Unit Pembagian: Memutuskan bagaimana dokumen akan dibagi. Ini bisa berdasarkan halaman, bagian, atau paragraf, tergantung pada isi dan tujuan dokumen.
Menentukan Ukuran Pembagian (chunk size) : Menentukan seberapa banyak unit dokumen yang akan dibagi ke dalam ukuran tertentu.
Penggunaan Overlap (chunk overlap): Umumnya, bagian-bagian dokumen akan sedikit ditumpang tindih saat dibagi, sehingga konteks dari akhir bagian tetap berlanjut di bagian berikutnya.
Google Perkuat Kerjasama dengan Anthropic dengan Investasi 20 Juta Dolar untuk Pengembangan AI
Poin Utama
Google menyepakati investasi hingga 20 juta dolar ke Anthropic, dengan investasi awal sebesar 5 juta dolar. Selain itu, Anthropic menandatangani kontrak untuk menggunakan layanan Google Cloud.
Tiga raksasa cloud, yaitu Google, Microsoft, dan Amazon, sedang berupaya memperluas kerjasama dengan Anthropic dan openAI, perusahaan terkemuka di bidang AI generasi berikutnya.
Google Menyediakan Layanan Cloud serta Menandatangani Kesepakatan Investasi Hingga 20 Juta Dolar dengan Anthropic
Pada 27 Oktober 2023, Google sepakat untuk menginvestasikan hingga 20 juta dolar ke Anthropic, dengan investasi awal sebesar 5 juta dolar dan rencana investasi tambahan sebesar 15 juta dolar.
Google telah berinvestasi sebesar 5 juta dolar ke Anthropic pada Februari 2023, sementara Amazon juga telah mengumumkan rencana investasi hingga 40 juta dolar ke Anthropic pada September lalu.
Selain itu, menurut laporan Bloomberg pada 8 November 2023, Anthropic menandatangani kontrak bernilai 30 juta dolar selama 4 tahun untuk menggunakan layanan Google Cloud.
Co-founder dari OpenAI, Dario Amodei dan Daniela Amodei, mendirikan Anthropic di Amerika Selatan pada 2021 dan telah mengembangkan model LLM 'Claude' yang setara dengan GPT-4.
Sebelum Google berinvestasi di Anthropic, Microsoft telah memperluas kerjasama AI-nya dengan openAI.
Ini adalah situs Visualisasi Chunk yang dibuat oleh Greg Kamradt.