05. Code Splitting (Python, Markdown, JAVA, C++, C#, GO, JS, Latex, etc.)
Split code
Anda dapat membagi kode yang ditulis dalam berbagai bahasa pemrograman menggunakan CodeTextSplitter.
Untuk melakukan ini, impor enum Language dan tentukan bahasa pemrograman yang sesuai.
pip install -qU langchain-text-splittersBerikut adalah contoh pemecahan teks menggunakan RecursiveCharacterTextSplitter
Impor kelas
LanguagedanRecursiveCharacterTextSplitterdari modullangchain_text_splitters.RecursiveCharacterTextSplitteradalah pemisah teks yang memecah teks secara rekursif pada level karakter.
from langchain_text_splitters import (
Language,
RecursiveCharacterTextSplitter,
)Ambil daftar lengkap bahasa yang didukung.
# Mendapatkan daftar lengkap bahasa yang didukung.
[e.value for e in Language]['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', 'rst', 'ruby', 'rust', 'scala', 'swift', 'markdown', 'latex', 'html', 'sol', 'csharp', 'cobol', 'c', 'lua', 'perl', 'haskell', 'elixir']Anda dapat memeriksa pemisah yang digunakan untuk bahasa tertentu dengan menggunakan metode get_separators_for_language dari kelas RecursiveCharacterTextSplitter.
Dalam contoh ini, nilai enum
Language.PYTHONditeruskan sebagai argumen untuk memeriksa pemisah yang digunakan untuk bahasa Python.
# Anda dapat memeriksa pemisah yang digunakan untuk bahasa tertentu.
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)Python
Berikut adalah contoh penggunaan RecursiveCharacterTextSplitter:
Membagi kode Python menjadi unit dokumen menggunakan
RecursiveCharacterTextSplitter.Tentukan
Language.PYTHONuntuk parameter language untuk menggunakan bahasa Python.Atur
chunk_sizemenjadi 50 untuk membatasi ukuran maksimum setiap dokumen.Atur
chunk_overlapmenjadi 0 untuk mencegah tumpang tindih antar dokumen.
Buat Document. Document yang dihasilkan akan dikembalikan dalam bentuk daftar (list).
JS
Berikut adalah contoh penggunaan text splitter untuk JS.
TS
Berikut adalah contoh penggunaan text splitter untuk TS.
Markdown
Latex
LaTeX adalah bahasa markup yang digunakan untuk pembuatan dokumen, yang banyak digunakan untuk mengekspresikan simbol dan persamaan matematika.
Berikut adalah contoh teks LaTeX.
Bagi teks dan cetak hasilnya.
HTML
Berikut adalah contoh penggunaan text splitter untuk HTML.
Bagi teks dan cetak hasilnya
Solidity
Berikut adalah contoh penggunaan text splitter untuk Solidity:
Kode Solidity dalam bentuk string.
Simpan dalam sebuah variable
Memecah kode Solidity menjadi unit chunk menggunakan
Membuat splitter
Atur parameter.
Tentukan bahasa Solidity dengan mengatur parameter.
Atur ukuran chunk menjadi 128 untuk menentukan ukuran maksimum setiap chunk
Atur overlap menjadi 0 untuk menghilangkan duplikasi antara chunk
Menggunakan metode
Bagi menjadi unit chunk, dan simpan chunk yang telah dibagi.
Simpan dalam sebuah variabel.
Cetak variabel tersebut untuk memeriksa chunk kode Solidity yang telah dibagi.
C
Berikut adalah contoh penggunaan text splitter untuk C#:
Last updated