07. Pemisahan Teks Header HTML(HTMLHeaderTextSplitter)
HTMLHeaderTextSplitter
1. Saat menggunakan string HTML
pip install -qU langchain-text-splittersfrom langchain_text_splitters import HTMLHeaderTextSplitter
html_string = """
<!DOCTYPE html>
<html>
<body>
<div>
<h1>Foo</h1>
<p>Beberapa teks pengantar tentang Foo.</p>
<div>
<h2>Seksi utama Bar</h2>
<p>Beberapa teks pengantar tentang Bar.</p>
<h3>Subseksi 1 dari Bar</h3>
<p>Beberapa teks tentang topik pertama dari Bar.</p>
<h3>Subseksi 2 dari Bar</h3>
<p>Beberapa teks tentang topik kedua dari Bar.</p>
</div>
<div>
<h2>Baz</h2>
<p>Beberapa teks tentang Baz</p>
</div>
<br>
<p>Beberapa teks penutup tentang Foo</p>
</div>
</body>
</html>
"""
headers_to_split_on = [
("h1", "Header 1"), # Tentukan tag header dan nama mereka untuk pemisahan.
("h2", "Header 2"),
("h3", "Header 3"),
]
# Buat objek HTMLHeaderTextSplitter untuk membagi teks HTML berdasarkan header yang ditentukan.
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
# Bagi string HTML dan simpan hasilnya dalam variabel html_header_splits.
html_header_splits = html_splitter.split_text(html_string)
# Cetak hasil pemisahan.
for header in html_header_splits:
print(f"{header.page_content}")
print(f"{header.metadata}", end="\n=====================\n")2. Ini adalah kasus menghubungkan dengan splitter lain dalam sebuah pipeline dan memuat HTML dari URL web
Batasan
Previous06. Pemisahan Teks Header Markdown (MarkdownHeaderTextSplitter)Next08-Pemecahan JSON Rekursif (RecursiveJsonSplitter)
Last updated