06. HuggingFace Endpoints

Huggingface Endpoints

Hugging Face Hub adalah sebuah platform dengan lebih dari 120.000 model, 20.000 set data, dan 50.000 aplikasi demo (Spaces), yang semuanya bersifat open source dan tersedia untuk umum. Di platform online ini, orang-orang dapat dengan mudah berkolaborasi dan membangun machine learning bersama-sama.

Hugging Face Hub juga menyediakan berbagai titik akhir untuk membangun aplikasi ML yang berbeda. Contoh ini menunjukkan cara menghubungkan ke berbagai jenis endpoint.

Secara khusus, ini didukung oleh Inferensi Pembuatan Teks. Ini adalah server Rust, Python, dan gRPC yang dibuat khusus untuk inferensi pembuatan teks yang sangat cepat.

Mengeluarkan token HuggingFace

Mendaftar ke Huggingface (https://huggingface.co) dan ajukan permohonan penerbitan token di alamat di bawah ini.

Daftar model referensi

Menggunakan HuggingFace Endpoint

Untuk menggunakannya, Anda perlu menginstal paket huggingface_hub untuk bahasa Python. Tautan

# !pip install -qU huggingface_hub

Simpan token yang sudah Anda miliki di dalam berkas .env Anda sebagai HUGGINGFACEHUB_API_TOKEN dan lanjutkan ke langkah berikutnya.

Import HUGGINGFACEHUB_API_TOKEN.

Masukkan token HuggingFace Anda

Buat sebuah prompt sederhana

Serverless Endpoints

API Inference gratis untuk digunakan dan memiliki harga terbatas. Jika Anda membutuhkan solusi inferensi untuk produksi, lihat layanan Inference Endpoints. Dengan Inference Endpoints, Anda dapat dengan mudah menerapkan model pembelajaran mesin apa pun pada infrastruktur khusus dan terkelola sepenuhnya. Pilih cloud, wilayah, instance komputasi, cakupan penskalaan otomatis, dan tingkat keamanan yang sesuai dengan model, latensi, throughput, dan persyaratan kepatuhan Anda.

Berikut ini contoh cara mengakses Inference API.

Catatan

  • Serverless Endpoints

  • Inference Endpoints

Tetapkan repo ID (ID repositori) model HuggingFace Anda ke variabel repo_id.

microsoft/Phi-3-mini-4k-instruct model: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

Dedicated Endpoint

API tanpa server gratis memungkinkan Anda mengimplementasikan dan mengulang solusi dengan cepat. Namun, karena beban dibagi dengan permintaan lain, mungkin ada batasan kecepatan untuk kasus penggunaan bervolume tinggi.

Untuk beban kerja perusahaan, sebaiknya gunakan Inference Endpoints - Dedicated, yang memberi Anda akses ke infrastruktur yang dikelola sepenuhnya yang menawarkan fleksibilitas dan kecepatan yang lebih tinggi.

Sumber daya ini mencakup dukungan berkelanjutan dan jaminan waktu aktif, serta opsi seperti Penskalaan Otomatis.

Atur URL Inference endpoint dalam variabel hf_endpoint_url.

Last updated