05. Code Splitting (Python, Markdown, JAVA, C++, C#, GO, JS, Latex, etc.)

Split code

Anda dapat membagi kode yang ditulis dalam berbagai bahasa pemrograman menggunakan CodeTextSplitter.

Untuk melakukan ini, impor enum Language dan tentukan bahasa pemrograman yang sesuai.

pip install -qU langchain-text-splitters

Berikut adalah contoh pemecahan teks menggunakan RecursiveCharacterTextSplitter

  • Impor kelas Language dan RecursiveCharacterTextSplitter dari modul langchain_text_splitters.

  • RecursiveCharacterTextSplitter adalah pemisah teks yang memecah teks secara rekursif pada level karakter.

from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

Ambil daftar lengkap bahasa yang didukung.

# Mendapatkan daftar lengkap bahasa yang didukung.
[e.value for e in Language]
['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', 'rst', 'ruby', 'rust', 'scala', 'swift', 'markdown', 'latex', 'html', 'sol', 'csharp', 'cobol', 'c', 'lua', 'perl', 'haskell', 'elixir']

Anda dapat memeriksa pemisah yang digunakan untuk bahasa tertentu dengan menggunakan metode get_separators_for_language dari kelas RecursiveCharacterTextSplitter.

  • Dalam contoh ini, nilai enum Language.PYTHON diteruskan sebagai argumen untuk memeriksa pemisah yang digunakan untuk bahasa Python.

# Anda dapat memeriksa pemisah yang digunakan untuk bahasa tertentu.
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

Python

Berikut adalah contoh penggunaan RecursiveCharacterTextSplitter:

  • Membagi kode Python menjadi unit dokumen menggunakan RecursiveCharacterTextSplitter.

  • Tentukan Language.PYTHON untuk parameter language untuk menggunakan bahasa Python.

  • Atur chunk_size menjadi 50 untuk membatasi ukuran maksimum setiap dokumen.

  • Atur chunk_overlap menjadi 0 untuk mencegah tumpang tindih antar dokumen.

Buat Document. Document yang dihasilkan akan dikembalikan dalam bentuk daftar (list).

JS

Berikut adalah contoh penggunaan text splitter untuk JS.

TS

Berikut adalah contoh penggunaan text splitter untuk TS.

Markdown

Latex

LaTeX adalah bahasa markup yang digunakan untuk pembuatan dokumen, yang banyak digunakan untuk mengekspresikan simbol dan persamaan matematika.

Berikut adalah contoh teks LaTeX.

Bagi teks dan cetak hasilnya.

HTML

Berikut adalah contoh penggunaan text splitter untuk HTML.

Bagi teks dan cetak hasilnya

Solidity

Berikut adalah contoh penggunaan text splitter untuk Solidity:

  • Kode Solidity dalam bentuk string.

Simpan dalam sebuah variable

Memecah kode Solidity menjadi unit chunk menggunakan

Membuat splitter

Atur parameter.

Tentukan bahasa Solidity dengan mengatur parameter.

Atur ukuran chunk menjadi 128 untuk menentukan ukuran maksimum setiap chunk

Atur overlap menjadi 0 untuk menghilangkan duplikasi antara chunk

Menggunakan metode

Bagi menjadi unit chunk, dan simpan chunk yang telah dibagi.

Simpan dalam sebuah variabel.

  • Cetak variabel tersebut untuk memeriksa chunk kode Solidity yang telah dibagi.

C

Berikut adalah contoh penggunaan text splitter untuk C#:

Last updated