Tutorial ini menunjukkan cara men-deploy dan menyajikan model bahasa besar (LLM) Gemma 2 menggunakan TPU di GKE dengan framework penayangan Saxml. Tutorial ini memberikan dasar untuk memahami dan menjelajahi deployment LLM praktis untuk inferensi di lingkungan Kubernetes terkelola. Anda akan men-deploy container yang telah dibuat sebelumnya dengan Saxml ke GKE. Anda juga mengonfigurasi GKE untuk memuat bobot Gemma 2B dan 7B dari Cloud Storage saat runtime.
Tutorial ini ditujukan untuk Engineer machine learning (ML), Admin dan operator platform, serta Spesialis Data dan AI yang tertarik untuk menggunakan kemampuan orkestrasi container Kubernetes dalam menayangkan LLM. Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam Cloud de Confiance by S3NS konten, lihat Peran dan tugas pengguna GKE umum.
Sebelum membaca halaman ini, pastikan Anda memahami hal-hal berikut:
- Ketersediaan versi TPU saat ini dengan arsitektur sistem Cloud TPU
- TPU di GKE
Jika Anda memerlukan platform AI terkelola terpadu untuk membangun dan menayangkan model ML dengan cepat dan hemat biaya, sebaiknya coba solusi deployment Vertex AI kami.
Latar belakang
Bagian ini menjelaskan teknologi utama yang digunakan dalam tutorial ini.
Gemma
Gemma adalah sekumpulan model AI generatif ringan yang tersedia secara terbuka dan dirilis dengan lisensi terbuka. Model AI ini tersedia untuk dijalankan di aplikasi, hardware, perangkat seluler, atau layanan yang dihosting. Anda dapat menggunakan model Gemma untuk pembuatan teks, dan Anda dapat menyesuaikan model ini untuk tugas khusus.
Untuk mempelajari lebih lanjut, lihat dokumentasi Gemma.
TPU
TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan khusus oleh Google dan digunakan untuk mempercepat framework pemrosesan data seperti TensorFlow, PyTorch, dan JAX.
Tutorial ini menyajikan model Gemma 2B dan Gemma 7B. GKE menghosting model ini di node pool TPU v5e host tunggal berikut:
- Gemma 2B: Model yang dioptimalkan untuk mengikuti perintah yang dihosting di node pool TPU v5e dengan topologi
1x1yang merepresentasikan satu chip TPU. Jenis mesin untuk node adalahct5lp-hightpu-1t. - Gemma 7B: Model yang dioptimalkan untuk mengikuti perintah, dihosting di node pool TPU v5e dengan topologi
2x2yang mewakili empat chip TPU. Jenis mesin untuk node adalahct5lp-hightpu-4t.
Saxml
Saxml adalah sistem eksperimental yang menyajikan model Paxml, JAX, dan PyTorch untuk inferensi. Sistem Saxml mencakup komponen berikut:
- Sel Saxml atau cluster Sax: Server admin dan grup server model. Server admin melacak server model, menetapkan model yang dipublikasikan ke server model untuk ditayangkan, dan membantu klien menemukan server model yang menayangkan model tertentu yang dipublikasikan.
- Klien Saxml: Antarmuka pemrograman yang terlihat oleh pengguna untuk sistem Saxml. Klien Saxml mencakup alat command line (saxutil) dan serangkaian library klien di Python, C++, dan Go.
Dalam tutorial ini, Anda juga akan menggunakan server HTTP Saxml. Server HTTP Saxml adalah server HTTP kustom yang merangkum library klien Python Saxml dan mengekspos REST API untuk berinteraksi dengan sistem Saxml. REST API mencakup endpoint untuk memublikasikan, mencantumkan, membatalkan publikasi model, dan membuat prediksi.
Menyiapkan lingkungan untuk Gemma
Meluncurkan Cloud Shell
Dalam tutorial ini, Anda akan menggunakan Cloud Shell untuk mengelola resource yang dihosting di Cloud de Confiance. Cloud Shell telah diinstal dengan software
yang Anda perlukan untuk tutorial ini, termasuk
kubectl dan gcloud CLI.
Di konsol Cloud de Confiance , mulai instance Cloud Shell:
Open Cloud ShellTetapkan variabel lingkungan default:
gcloud config set project PROJECT_ID export PROJECT_ID=$(gcloud config get project) export LOCATION=LOCATION export CLUSTER_NAME=saxml-tpuGanti nilai berikut:
- PROJECT_ID: Cloud de Confiance Project ID Anda.
- LOCATION: Nama zona Compute Engine tempat jenis mesin TPU v5e tersedia.
Membuat cluster Standar GKE
Di bagian ini, Anda akan membuat cluster GKE dan node pool.
Gemma 2B-it
Gunakan Cloud Shell untuk melakukan hal berikut:
Buat cluster Standar yang menggunakan Workload Identity Federation untuk GKE:
gcloud container clusters create ${CLUSTER_NAME} \ --enable-ip-alias \ --machine-type=e2-standard-4 \ --num-nodes=2 \ --release-channel=rapid \ --workload-pool=${PROJECT_ID}.s3ns.svc.id.goog \ --location=${LOCATION}Pembuatan cluster dapat memerlukan waktu beberapa menit.
Buat node pool TPU v5e dengan topologi
1x1dan satu node:gcloud container node-pools create tpu-v5e-1x1 \ --cluster=${CLUSTER_NAME} \ --machine-type=ct5lp-hightpu-1t \ --num-nodes=1 \ --location=${LOCATION}Anda akan menyajikan model Gemma 2B di kumpulan node ini.
Gemma 7B-it
Gunakan Cloud Shell untuk melakukan hal berikut:
Buat cluster Standar yang menggunakan Workload Identity Federation untuk GKE:
gcloud container clusters create ${CLUSTER_NAME} \ --enable-ip-alias \ --machine-type=e2-standard-4 \ --num-nodes=2 \ --release-channel=rapid \ --workload-pool=${PROJECT_ID}.s3ns.svc.id.goog \ --location=${LOCATION}Pembuatan cluster dapat memerlukan waktu beberapa menit.
Buat node pool TPU v5e dengan topologi
2x2dan satu node:gcloud container node-pools create tpu-v5e-2x2 \ --cluster=${CLUSTER_NAME} \ --machine-type=ct5lp-hightpu-4t \ --num-nodes=1 \ --location=${LOCATION}Anda akan menyajikan model Gemma 7B di kumpulan node ini.
Membuat bucket Cloud Storage
Buat dua bucket Cloud Storage untuk mengelola status server Admin Saxml dan checkpoint model.
Di Cloud Shell, jalankan perintah berikut:
Buat bucket Cloud Storage untuk menyimpan konfigurasi server Admin Saxml.
gcloud storage buckets create gs://ADMIN_BUCKET_NAMEGanti ADMIN_BUCKET_NAME dengan nama bucket Cloud Storage yang menyimpan server Admin Saxml.
Buat bucket Cloud Storage untuk menyimpan checkpoint model:
gcloud storage buckets create gs://CHECKPOINTS_BUCKET_NAMEGanti CHECKPOINTS_BUCKET_NAME dengan nama bucket Cloud Storage yang menyimpan checkpoint model.
Mengonfigurasi akses workload Anda menggunakan Workload Identity Federation for GKE
Tetapkan ServiceAccount Kubernetes ke aplikasi dan konfigurasikan ServiceAccount Kubernetes tersebut agar bertindak sebagai akun layanan IAM.
Konfigurasi
kubectluntuk berkomunikasi dengan cluster Anda:gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${LOCATION}Buat Akun Layanan Kubernetes yang akan digunakan untuk aplikasi Anda:
gcloud iam service-accounts create wi-saxTambahkan binding kebijakan IAM untuk akun layanan IAM Anda agar dapat membaca dan menulis di Cloud Storage:
gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member "serviceAccount:wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com" \ --role roles/storage.objectUser gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member "serviceAccount:wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com" \ --role roles/storage.insightsCollectorServiceIzinkan ServiceAccount Kubernetes untuk meniru identitas akun layanan IAM dengan menambahkan binding kebijakan IAM antara kedua akun layanan tersebut. Dengan binding ini, ServiceAccount Kubernetes dapat bertindak sebagai akun layanan IAM:
gcloud iam service-accounts add-iam-policy-binding wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com \ --role roles/iam.workloadIdentityUser \ --member "serviceAccount:${PROJECT_ID}.s3ns.svc.id.goog[default/default]"Beri anotasi pada akun layanan Kubernetes dengan alamat email akun layanan IAM:
kubectl annotate serviceaccount default \ iam.gke.io/gcp-service-account=wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com
Mendapatkan akses ke model
Untuk mendapatkan akses ke model Gemma untuk deployment ke GKE, Anda harus login ke platform Kaggle, menandatangani perjanjian izin lisensi, dan mendapatkan token API Kaggle. Dalam tutorial ini, Anda akan menggunakan Secret Kubernetes untuk kredensial Kaggle.
Menandatangani perjanjian izin lisensi
Anda harus menandatangani perjanjian izin untuk menggunakan Gemma. Ikuti petunjuk berikut:
- Akses halaman izin model di Kaggle.com.
- Login ke Kaggle, jika Anda belum melakukannya.
- Klik Minta Akses.
- Di bagian Pilih Akun untuk Izin, pilih Verifikasi melalui Akun Kaggle untuk menggunakan akun Kaggle Anda dalam memberikan izin.
- Setujui Persyaratan dan Ketentuan model.
Membuat token akses
Untuk mengakses model melalui Kaggle, Anda memerlukan token API Kaggle.
Ikuti langkah-langkah berikut untuk membuat token baru, jika Anda belum memilikinya:
- Di browser Anda, buka setelan Kaggle.
- Di bagian API, klik Create New Token.
Kaggle mendownload file bernama kaggle.json.
Upload token akses ke Cloud Shell
Di Cloud Shell, Anda dapat mengupload token Kaggle API ke project Cloud de Confiance by S3NS Anda:
- Di Cloud Shell, klik More > Upload.
- Pilih File, lalu klik Pilih File.
- Buka file
kaggle.json. - Klik Upload.
Buat Secret Kubernetes untuk kredensial Kaggle
Di Cloud Shell, lakukan langkah-langkah berikut:
Konfigurasi
kubectluntuk berkomunikasi dengan cluster Anda:gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${LOCATION}Buat Secret untuk menyimpan kredensial Kaggle:
kubectl create secret generic kaggle-secret \ --from-file=kaggle.json
Men-deploy Saxml
Di bagian ini, Anda akan men-deploy server admin Saxml, server model, dan server HTTP. Tutorial ini menggunakan manifes Deployment Kubernetes. Deployment adalah objek Kubernetes API yang memungkinkan Anda menjalankan beberapa replika Pod yang didistribusikan di antara node dalam cluster.
Men-deploy server admin Saxml
Di bagian ini, Anda akan men-deploy server admin Saxml.
Buat manifes
saxml-admin-server.yamlberikut:Ganti ADMIN_BUCKET_NAME dengan nama bucket yang Anda buat di bagian Membuat bucket Cloud Storage. Jangan sertakan awalan
gs://.Terapkan manifes:
kubectl apply -f saxml-admin-server.yamlVerifikasi deployment server admin:
kubectl get deploymentOutputnya terlihat mirip dengan yang berikut ini:
NAME READY UP-TO-DATE AVAILABLE AGE sax-admin-server 1/1 1 1 ##s
Men-deploy server model Saxml
Ikuti petunjuk ini untuk men-deploy server model untuk model Gemma 2B atau Gemma 7B.
Gemma 2B-it
Buat manifes
saxml-model-server-1x1.yamlberikut:Ganti ADMIN_BUCKET_NAME dengan nama bucket yang Anda buat di bagian Membuat bucket Cloud Storage. Jangan sertakan awalan
gs://.Terapkan manifes:
kubectl apply -f saxml-model-server-1x1.yamlVerifikasi status Deployment server model:
kubectl get deploymentOutputnya terlihat mirip dengan yang berikut ini:
NAME READY STATUS RESTARTS AGE sax-admin-server 1/1 Running 0 ##m sax-model-server-v5e-1x1 1/1 Running 0 ##s
Gemma 7B-it
Buat manifes
saxml-model-server-2x2.yamlberikut:Ganti ADMIN_BUCKET_NAME dengan nama bucket yang Anda buat di bagian Membuat bucket Cloud Storage. Jangan sertakan awalan
gs://.Terapkan manifes:
kubectl apply -f saxml-model-server-2x2.yamlVerifikasi status Deployment server model:
kubectl get deploymentOutputnya terlihat mirip dengan yang berikut ini:
NAME READY STATUS RESTARTS AGE sax-admin-server 1/1 Running 0 ##m sax-model-server-v5e-2x2 1/1 Running 0 ##s
Men-deploy server HTTP Saxml
Di bagian ini, Anda akan men-deploy server HTTP Saxml dan membuat Layanan IP Cluster yang Anda gunakan untuk mengakses server.
Buat manifes
saxml-http.yamlberikut:Ganti ADMIN_BUCKET_NAME dengan nama bucket Cloud Storage yang menyimpan server Admin Saxml.
Terapkan manifes:
kubectl apply -f saxml-http.yamlVerifikasi status deployment server HTTP Saxml:
kubectl get deploymentGemma 2B-it
Outputnya terlihat mirip dengan yang berikut ini:
NAME READY STATUS RESTARTS AGE sax-admin-server 1/1 Running 0 ##m sax-model-server-v5e-1x1 1/1 Running 0 ##m sax-http 1/1 Running 0 ##sGemma 7B-it
Outputnya terlihat mirip dengan yang berikut ini:
NAME READY STATUS RESTARTS AGE sax-admin-server 1/1 Running 0 ##m sax-model-server-v5e-2x2 1/1 Running 0 ##m sax-http 1/1 Running 0 ##s
Download checkpoint model
Di bagian ini, Anda akan menjalankan Tugas Kubernetes yang mengambil, mendownload, dan menyimpan checkpoint model. Pengontrol Tugas di Kubernetes membuat satu atau beberapa Pod dan memastikan bahwa Pod tersebut berhasil menjalankan tugas tertentu.
Ikuti langkah-langkah untuk model Gemma yang ingin Anda gunakan:
Gemma 2B-it
Buat manifes
job-2b.yamlberikut:Ganti CHECKPOINTS_BUCKET_NAME dengan nama bucket yang Anda buat di bagian Membuat bucket Cloud Storage. Jangan sertakan awalan
gs://.Terapkan manifes:
kubectl apply -f job-2b.yamlTunggu hingga Tugas selesai:
kubectl wait --for=condition=complete --timeout=180s job/data-loader-2bOutputnya terlihat mirip dengan yang berikut ini:
job.batch/data-loader-2b condition metPastikan bahwa Job berhasil diselesaikan:
kubectl get job/data-loader-2bOutputnya terlihat mirip dengan yang berikut ini:
NAME COMPLETIONS DURATION AGE data-loader-2b 1/1 ##s #m##sLihat log untuk Tugas:
kubectl logs --follow job/data-loader-2b
Pekerjaan mengupload checkpoint ke gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000.
Gemma 7B-it
Buat manifes
job-7b.yamlberikut:Ganti CHECKPOINTS_BUCKET_NAME dengan nama bucket yang Anda buat di bagian Membuat bucket Cloud Storage. Sertakan awalan
gs://.Terapkan manifes:
kubectl apply -f job-7b.yamlTunggu hingga Tugas selesai:
kubectl wait --for=condition=complete --timeout=360s job/data-loader-7bOutputnya terlihat mirip dengan yang berikut ini:
job.batch/data-loader-7b condition metPastikan bahwa Job berhasil diselesaikan:
kubectl get job/data-loader-7bOutputnya terlihat mirip dengan yang berikut ini:
NAME COMPLETIONS DURATION AGE data-loader-7b 1/1 ##s #m##sLihat log untuk Tugas:
kubectl logs --follow job/data-loader-7b
Pekerjaan mengupload checkpoint ke gs://CHECKPOINTS_BUCKET_NAME/gemma_7b_it/checkpoint_00000000.
Mengekspos server HTTP Saxml
Anda dapat mengakses server HTTP Saxml melalui ClusterIP Service yang Anda buat saat men-deploy server HTTP Saxml. Layanan ClusterIP hanya dapat dijangkau dari dalam cluster. Oleh karena itu, untuk mengakses Layanan dari luar cluster, selesaikan langkah-langkah berikut:
Buat sesi penerusan port:
kubectl port-forward service/sax-http-svc 8888:8888Pastikan Anda dapat mengakses server HTTP Saxml dengan membuka terminal baru dan menjalankan perintah berikut:
curl -s localhost:8888Outputnya terlihat mirip dengan yang berikut ini:
{ "Message": "HTTP Server for SAX Client" }
Server HTTP Saxml merangkum antarmuka klien ke sistem Saxml dan mengeksposnya melalui serangkaian REST API. Anda menggunakan API ini untuk memublikasikan, mengelola, dan berinteraksi dengan model Gemma 2B dan Gemma 7B.
Memublikasikan model Gemma
Selanjutnya, Anda dapat memublikasikan model Gemma ke server model yang berjalan di node pool slice TPU. Anda menggunakan API
publish server HTTP Saxml untuk memublikasikan model. Ikuti langkah-langkah berikut untuk memublikasikan model parameter Gemma 2B atau 7B.
Untuk mempelajari lebih lanjut API server HTTP Saxml, lihat Saxml HTTP API.
Gemma 2B-it
Pastikan sesi penerusan port Anda masih aktif:
curl -s localhost:8888Publikasikan parameter Gemma 2B:
curl --request POST \ --header "Content-type: application/json" \ -s \ localhost:8888/publish \ --data \ '{ "model": "/sax/test/gemma2bfp16", "model_path": "saxml.server.pax.lm.params.gemma.Gemma2BFP16", "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000", "replicas": "1" }'Outputnya terlihat mirip dengan yang berikut ini:
{ "model": "/sax/test/gemma2bfp16", "model_path": "saxml.server.pax.lm.params.gemma.Gemma2BFP16", "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000", "replicas": 1 }Lihat langkah berikutnya untuk memantau progres deployment.
Pantau progres dengan mengamati log di Pod server model deployment
sax-model-server-v5e-1x1.kubectl logs --follow deployment/sax-model-server-v5e-1x1Proses deployment ini dapat memerlukan waktu hingga lima menit. Tunggu hingga Anda melihat pesan yang mirip dengan berikut ini:
I0125 15:34:31.685555 139063071708736 servable_model.py:699] loading completed. I0125 15:34:31.686286 139063071708736 model_service_base.py:532] Successfully loaded model for key: /sax/test/gemma2bfp16Verifikasi bahwa Anda dapat mengakses model, dengan menampilkan informasi model:
curl --request GET \ --header "Content-type: application/json" \ -s \ localhost:8888/listcell \ --data \ '{ "model": "/sax/test/gemma2bfp16" }'Outputnya terlihat mirip dengan yang berikut ini:
{ "model": "/sax/test/gemma2bfp16", "model_path": "saxml.server.pax.lm.params.gemma.Gemma2BFP16", "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000", "max_replicas": 1, "active_replicas": 1 }
Gemma 7B-it
Pastikan sesi penerusan port Anda masih aktif:
curl -s localhost:8888Publikasikan parameter Gemma 7B:
curl --request POST \ --header "Content-type: application/json" \ -s \ localhost:8888/publish \ --data \ '{ "model": "/sax/test/gemma7bfp16", "model_path": "saxml.server.pax.lm.params.gemma.Gemma7BFP16", "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_7b-it/checkpoint_00000000", "replicas": "1" }'Outputnya terlihat mirip dengan yang berikut ini:
{ "model": "/sax/test/gemma7bfp16", "model_path": "saxml.server.pax.lm.params.gemma.Gemma7BFP16", "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_7b-it/checkpoint_00000000", "replicas": 1 }Lihat langkah berikutnya untuk memantau progres deployment.
Pantau progres dengan mengamati log di Pod server model deployment
sax-model-server-v5e-2x2.kubectl logs --follow deployment/sax-model-server-v5e-2x2Tunggu hingga Anda melihat pesan yang mirip dengan berikut ini:
I0125 15:34:31.685555 139063071708736 servable_model.py:699] loading completed. I0125 15:34:31.686286 139063071708736 model_service_base.py:532] Successfully loaded model for key: /sax/test/gemma7bfp16Pastikan model dipublikasikan dengan menampilkan informasi model:
curl --request GET \ --header "Content-type: application/json" \ -s \ localhost:8888/listcell \ --data \ '{ "model": "/sax/test/gemma7bfp16" }'Outputnya mirip dengan hal berikut ini:
{ "model": "/sax/test/gemma7bfp16", "model_path": "saxml.server.pax.lm.params.gemma.Gemma7BFP16", "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_7b-it/checkpoint_00000000", "max_replicas": 1, "active_replicas": 1 }
Menggunakan model
Anda dapat berinteraksi dengan model Gemma 2B atau 7B. Gunakan generate API server HTTP Saxml untuk mengirim perintah ke model.
Gemma 2B-it
Menayangkan permintaan perintah menggunakan endpoint generate server HTTP Saxml:
curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/generate \
--data \
'{
"model": "/sax/test/gemma2bfp16",
"query": "What are the top 5 most popular programming languages?"
}'
Berikut adalah contoh respons model. Output sebenarnya bervariasi, berdasarkan perintah yang Anda berikan:
[
[
"\n\n1. **Python**\n2. **JavaScript**\n3. **Java**\n4. **C++**\n5. **Go**",
-3.0704939365386963
]
]
Anda dapat menjalankan perintah dengan parameter query yang berbeda. Anda juga dapat mengubah
parameter tambahan seperti temperature, top_k, topc_p menggunakan
generate API. Untuk mempelajari lebih lanjut API server HTTP Saxml, lihat Saxml HTTP API.
Gemma 7B-it
Menayangkan permintaan perintah menggunakan endpoint generate server HTTP Saxml:
curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/generate \
--data \
'{
"model": "/sax/test/gemma7bfp16",
"query": "What are the top 5 most popular programming languages?"
}'
Berikut adalah contoh respons model. Output dapat bervariasi di setiap prompt yang Anda berikan:
[
[
"\n\n**1. JavaScript**\n\n* Most widely used language on the web.\n* Used for front-end development, such as websites and mobile apps.\n* Extensive libraries and frameworks available.\n\n**2. Python**\n\n* Known for its simplicity and readability.\n* Versatile, used for various tasks, including data science, machine learning, and web development.\n* Large and active community.\n\n**3. Java**\n\n* Object-oriented language widely used in enterprise applications.\n* Used for web applications, mobile apps, and enterprise software.\n* Strong ecosystem and support.\n\n**4. Go**\n\n",
-16.806324005126953
]
]
Anda dapat menjalankan perintah dengan parameter query yang berbeda. Anda juga dapat mengubah
parameter tambahan seperti temperature, top_k, topc_p menggunakan
generate API. Untuk mempelajari lebih lanjut API server HTTP Saxml, lihat Saxml HTTP API.
Membatalkan publikasi model
Ikuti langkah-langkah berikut untuk membatalkan publikasi model Anda:
Gemma 2B-it
Untuk membatalkan publikasi model Gemma 2B-it, jalankan perintah berikut:
curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/unpublish \
--data \
'{
"model": "/sax/test/gemma2bfp16"
}'
Outputnya terlihat mirip dengan yang berikut ini:
{
"model": "/sax/test/gemma2bfp16"
}
Anda dapat menjalankan perintah dengan berbagai perintah yang diteruskan dalam parameter query.
Gemma 7B-it
Untuk membatalkan publikasi model Gemma 7B-it, jalankan perintah berikut:
curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/unpublish \
--data \
'{
"model": "/sax/test/gemma7bfp16"
}'
Outputnya terlihat mirip dengan yang berikut ini:
{
"model": "/sax/test/gemma7bfp16"
}
Anda dapat menjalankan perintah dengan berbagai perintah yang diteruskan dalam parameter query.
Memecahkan masalah
- Jika Anda mendapatkan pesan
Empty reply from server, kemungkinan besar penampung belum selesai mendownload data model. Periksa log Pod lagi untuk melihat pesanConnectedyang menunjukkan bahwa model siap ditayangkan. - Jika Anda melihat
Connection refused, pastikan penerusan port Anda aktif.