Halaman ini menjelaskan cara merencanakan penggunaan Unit Pemrosesan Tensor (TPU) di Google Kubernetes Engine (GKE) untuk mengurangi risiko kesalahan konfigurasi TPU, error tidak tersedia, atau gangguan karena kuota habis.
Sebelum menggunakan TPU di GKE, pastikan Anda memahami definisi dan terminologi TPU di GKE.
Merencanakan konfigurasi TPU
Untuk menggunakan TPU di cluster GKE, Anda harus merencanakan konfigurasinya. Sebaiknya ikuti langkah-langkah berikut:
Memilih mode operasi GKE: Jalankan workload Anda di TPU dalam cluster GKE Autopilot atau Standard.
Praktik terbaik: Gunakan cluster Autopilot untuk mendapatkan pengalaman Kubernetes yang dikelola sepenuhnya.
Pilih versi TPU: Berbagai jenis TPU memiliki kemampuan yang berbeda, seperti rasio harga-performa, throughput pelatihan, dan latensi penayangan. Jenis TPU memengaruhi kapasitas CPU dan memori yang tersedia.
Validasi ketersediaan TPU: TPU tersedia di region Trusted Cloud by S3NStertentu. Untuk menggunakan jenis TPU dalam workload GKE, cluster Anda harus berada di region yang didukung untuk jenis tersebut.
Pilih Topologi TPU: Susunan fisik TPU dalam slice TPU. Pilih topologi yang sesuai dengan persyaratan paralelisme model Anda.
Gunakan tabel referensi di halaman ini untuk mengidentifikasi apakah node pool Anda adalah node slice TPU multi-host atau satu host.
Memilih mode operasi GKE
Anda dapat menggunakan TPU dalam mode operasi GKE yang tersedia untuk cluster:
- Mode Autopilot (direkomendasikan): GKE mengelola infrastruktur dasar seperti konfigurasi node, penskalaan otomatis, upgrade otomatis, konfigurasi keamanan dasar pengukuran, dan konfigurasi jaringan dasar pengukuran. Di Autopilot, Anda memilih jenis dan topologi TPU, lalu menentukannya dalam manifes Kubernetes. GKE mengelola penyediaan node dengan TPU dan penjadwalan workload Anda.
- Mode Standard: Anda mengelola infrastruktur dasar, termasuk mengonfigurasi setiap node.
Untuk memilih mode operasi GKE yang paling sesuai untuk workload Anda, lihat Memilih mode operasi GKE.
Pilih versi TPU
VM dalam slice TPU memiliki karakteristik teknis berikut.
Autopilot
Versi TPU | Jenis mesin | Jumlah vCPU | Memori (GiB) | Jumlah node NUMA | Jumlah chip TPU maksimum dalam node slice TPU |
---|---|---|---|---|---|
TPU Trillium (v6e) | tpu-v6e-slice |
44 hingga 180 | 176 hingga 1440 | 1 hingga 2 | 256 |
TPU v5p |
tpu-v5p-slice |
208 | 448 | 2 | 6.144 |
TPU v5e |
tpu-v5-lite-podslice |
24 hingga 224 | 48 hingga 384 | 1 | 256 |
TPU v4 |
tpu-v4-podslice |
240 | 407 | 2 | 4.096 |
TPU v3 (khusus host tunggal) |
tpu-v3-device |
96 | 340 | 2 | 8 |
TPU v3 |
tpu-v3-slice |
48 | 340 | 1 | 256 |
Standar
Versi TPU | Jenis mesin | Jumlah vCPU | Memori (GiB) | Jumlah node NUMA | Kemungkinan dibatalkan |
---|---|---|---|---|---|
TPU Trillium (v6e) | ct6e-standard-1t |
44 | 448 | 2 | Lebih tinggi |
TPU Trillium (v6e) | ct6e-standard-4t |
180 | 720 | 1 | Sedang |
TPU Trillium (v6e) | ct6e-standard-8t |
180 | 1440 | 2 | Lebih rendah |
TPU v5p |
ct5p-hightpu-4t |
208 | 448 | 2 | |
TPU v5e |
ct5lp-hightpu-1t |
24 | 48 | 1 | Lebih tinggi |
TPU v5e |
ct5lp-hightpu-4t |
112 | 192 | 1 | Sedang |
TPU v5e |
ct5lp-hightpu-8t |
224 | 384 | 1 | Rendah |
TPU v4 |
ct4p-hightpu-4t |
240 | 407 | 2 | |
TPU v3 (khusus host tunggal) |
ct3-hightpu-4t |
96 | 340 | 2 | |
TPU v3 |
ct3p-hightpu-4t |
48 | 340 | 1 |
Jenis mesin multi-host ct5lp-
lebih cocok
untuk menyalurkan model besar atau pelatihan. Mesin ct5lp-
multi-host saling terhubung dengan link berkecepatan tinggi.
Tinjau spesifikasi dan harga TPU di dokumentasi harga Cloud TPU untuk memutuskan konfigurasi TPU yang akan digunakan.
Batasan
Pertimbangkan batasan berikut saat memilih TPU yang akan digunakan:
- TPU Trillium tersedia dalam versi berikut:
- Cluster Standard dalam versi 1.31.1-gke.1846000 dan yang lebih baru.
- Cluster Autopilot dalam versi 1.31.2-gke.1115000 dan yang lebih baru.
- TPU Trillium tidak mendukung konfigurasi SMT yang disetel ke
2
dict6e-standard-8t
. - Alokasi biaya GKE dan pengukuran penggunaan tidak menyertakan data apa pun terkait penggunaan atau biaya TPU v4 yang dicadangkan.
- Penskalaan otomatis TPU v5p didukung di cluster GKE dengan panel kontrol yang menjalankan setidaknya versi 1.29.2-gke.1035000 atau 1.28.7-gke.1020000.
- Untuk reservasi kapasitas, gunakan reservasi khusus.
- Anda dapat menjalankan maksimum 256 Pod dalam satu VM TPU.
- Alokasi biaya dan pengukuran penggunaan GKE tidak menyertakan data apa pun terkait penggunaan atau biaya TPU.
- Autoscaler cluster membatalkan operasi peningkatan skala TPU node pool yang masih dalam status menunggu selama lebih dari 10 jam. Autoscaler cluster akan mencoba kembali operasi peningkatan skala tersebut saat resource tersedia. Perilaku ini dapat mengurangi ketersediaan TPU jika Anda tidak menggunakan pemesanan.
- Node Ubuntu tidak didukung.
- Arsitektur TPU Node tidak digunakan lagi. TPU v3 adalah satu-satunya versi TPU yang masih mendukung arsitektur TPU Node di GKE.
Memvalidasi ketersediaan TPU di GKE
TPU tersedia di Trusted Cloud wilayah tertentu. Untuk menggunakan jenis TPU di cluster GKE, cluster Anda harus berada di region yang didukung untuk jenis tersebut.
Autopilot
Versi TPU |
cloud.google.com/gke-tpu-accelerator
|
Versi GKE minimum | Ketersediaan | Zona |
---|---|---|---|---|
TPU Trillium (v6e) |
tpu-v6e-slice
|
1.31.2-gke.1384000 | GA |
|
TPU v5e |
tpu-v5-lite-podslice
|
1.27.2-gke.2100 | GA |
|
TPU v5p |
tpu-v5p-slice
|
1.28.3-gke.1024000 | GA |
|
TPU v4 |
tpu-v4-podslice
|
1.26.1-gke.1500 | GA |
|
TPU v3 |
tpu-v3-slice
|
1.31.1-gke.1146000 | GA |
|
TPU v3 |
tpu-v3-device
|
1.31.0-gke.1500 | GA |
|
Standar
Versi TPU | Jenis mesin yang diawali dengan | Versi GKE minimum | Ketersediaan | Zona |
---|---|---|---|---|
TPU Trillium (v6e) |
ct6e- |
1.31.2-gke.1115000 | GA |
|
TPU v5e |
ct5lp- |
1.27.2-gke.2100 | GA |
|
TPU v5p |
ct5p- |
1.28.3-gke.1024000 | GA |
|
TPU v4 |
ct4p- |
1.26.1-gke.1500 | GA |
|
TPU v3 |
ct3p- |
1.31.1-gke.1146000 | GA |
|
TPU v3 |
ct3- |
1.31.0-gke.1500 | GA |
|
Pilih topologi
Setelah Anda memutuskan versi TPU, pilih topologi yang didukung oleh jenis TPU tersebut. Bergantung pada jenis TPU, topologinya dua atau tiga dimensi. Persyaratan paralelisme model membantu Anda memutuskan topologi. Anda dapat mengidentifikasi jumlah chip TPU dalam slice dengan menghitung hasil kali setiap ukuran dalam topologi. Contoh:
2x2x2
adalah slice TPU v4 multi-host 8 chip2x2
adalah slice TPU v5e host tunggal 4 chip
Jika topologi tertentu mendukung node slice TPU host tunggal dan multi-host, jumlah chip TPU yang diminta workload Anda akan menentukan jenis host.
Misalnya, TPU v5e
(tpu-v5-lite-podslice
) mendukung topologi 2x4
sebagai host tunggal dan
multi-host. Jika Anda:
- Meminta 4 chip dalam workload, Anda akan mendapatkan node multi-host yang memiliki 4 chip TPU.
- Minta 8 chip dalam workload Anda, Anda akan mendapatkan node single-host yang memiliki 8 chip TPU.
Gunakan tabel berikut untuk memilih jenis mesin dan topologi TPU untuk kasus penggunaan Anda:
- Untuk pelatihan atau inferensi model berskala kecil, gunakan TPU v4 atau TPU v5e dengan node pool slice TPU host tunggal.
- Untuk pelatihan atau inferensi model berskala besar, gunakan TPU v4 atau TPU v5e dengan node pool slice TPU multi-host.
- Untuk pelatihan atau inferensi berskala besar, gunakan Pathways. Pathways menyederhanakan komputasi machine learning berskala besar dengan memungkinkan satu klien JAX mengatur workload di beberapa slice TPU besar. Untuk mengetahui informasi selengkapnya, lihat Jalur.
Autopilot
Setelah memilih jenis dan topologi TPU, tentukan jenis dan topologi tersebut dalam manifes workload Anda. Untuk mengetahui petunjuknya, lihat Men-deploy workload TPU di Autopilot GKE.
Versi TPU | Jenis mesin | Jenis node pool | Spesifikasi teknis |
---|---|---|---|
TPU Trillium (v6e) | tpu-v6e-slice |
Host tunggal |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Host tunggal |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Host tunggal |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Multi-host |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Multi-host |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Multi-host |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Multi-host |
|
TPU Trillium (v6e) | tpu-v6e-slice |
Multi-host |
|
TPU v5p | tpu-v5p-slice |
Host tunggal |
|
TPU v5p | tpu-v5p-slice |
Multi-host |
|
TPU v5p | tpu-v5p-slice |
Multi-host |
|
TPU v5p | tpu-v5p-slice |
Multi-host |
|
TPU v5p | tpu-v5p-slice |
Multi-host |
|
TPU v5p | tpu-v5p-slice |
Multi-host |
|
TPU v5e | tpu-v5-lite-podslice |
Host tunggal |
|
TPU v5e | tpu-v5-lite-podslice |
Host tunggal |
|
TPU v5e | tpu-v5-lite-podslice |
Host tunggal |
|
TPU v5e | tpu-v5-lite-podslice |
Multi-host |
|
TPU v5e | tpu-v5-lite-podslice |
Multi-host |
|
TPU v5e | tpu-v5-lite-podslice |
Multi-host |
|
TPU v5e | tpu-v5-lite-podslice |
Multi-host |
|
TPU v5e | tpu-v5-lite-podslice |
Multi-host |
|
TPU v5e | tpu-v5-lite-podslice |
Multi-host |
|
TPU v5e (khusus host tunggal) | tpu-v5-lite-device |
Host tunggal |
|
TPU v5e (khusus host tunggal) | tpu-v5-lite-device |
Host tunggal |
|
TPU v5e (khusus host tunggal) | tpu-v5-lite-device |
Host tunggal |
|
TPU v4 | tpu-v4-podslice |
Host tunggal |
|
TPU v4 | tpu-v4-podslice |
Multi-host |
|
TPU v4 | tpu-v4-podslice |
Multi-host |
|
TPU v4 | tpu-v4-podslice |
Multi-host |
|
TPU v4 | tpu-v4-podslice |
Multi-host |
|
TPU v4 | tpu-v4-podslice |
Multi-host |
|
TPU v3 | tpu-v3-slice |
Multi-host |
|
TPU v3 | tpu-v3-slice |
Multi-host |
|
TPU v3 | tpu-v3-slice |
Multi-host |
|
TPU v3 | tpu-v3-slice |
Multi-host |
|
TPU v3 | tpu-v3-slice |
Multi-host |
|
TPU v3 | tpu-v3-device |
Host tunggal |
|
-
Dihitung dengan produk topologi dibagi empat. ↩
Topologi kustom untuk lebih dari 64 chip didukung. Kondisi berikut berlaku:
- Untuk lebih dari 64 chip,
{A}
,{B}
, dan{C}
harus kelipatan 4 - Topologi terbesar adalah
16x16x24
- Nilainya harus
{A}
≤{B}
≤{C}
, seperti8x12x16
.
- Untuk lebih dari 64 chip,
-
Topologi kustom tidak didukung.
Standar
Setelah memilih jenis dan topologi TPU, tentukan jenis dan topologi tersebut dalam manifes workload Anda. Untuk mengetahui petunjuknya, lihat Men-deploy workload TPU di GKE Standard.
Versi TPU | Jenis mesin | Jenis node pool | Spesifikasi teknis |
---|---|---|---|
TPU Trillium (v6e) | ct6e-standard-1t |
Host tunggal |
|
TPU Trillium (v6e) | ct6e-standard-8t |
Host tunggal |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Host tunggal |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Multi-host |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Multi-host |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Multi-host |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Multi-host |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Multi-host |
|
TPU Trillium (v6e) | ct6e-standard-4t |
Multi-host |
|
TPU v5p | ct5p-hightpu-4t |
Host tunggal |
|
TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
TPU v5e | ct5lp-hightpu-1t |
Host tunggal |
|
TPU v5e | ct5lp-hightpu-4t |
Host tunggal |
|
TPU v5e | ct5lp-hightpu-8t |
Host tunggal |
|
TPU v5e | ct5lp-hightpu-4t |
Multi-host |
|
TPU v5e | ct5lp-hightpu-4t |
Multi-host |
|
TPU v5e | ct5lp-hightpu-4t |
Multi-host |
|
TPU v5e | ct5lp-hightpu-4t |
Multi-host |
|
TPU v5e | ct5lp-hightpu-4t |
Multi-host |
|
TPU v5e | ct5p-hightpu-4t |
Multi-host |
|
TPU v5e | ct5p-hightpu-4t |
Host tunggal |
|
TPU v4 | ct4p-hightpu-4t |
Multi-host |
|
TPU v4 | ct4p-hightpu-4t |
Multi-host |
|
TPU v4 | ct4p-hightpu-4t |
Multi-host |
|
TPU v4 | ct4p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3-hightpu-4t |
Host tunggal |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
TPU v3 | ct3p-hightpu-4t |
Multi-host |
|
-
Dihitung dengan produk topologi dibagi empat. ↩
Konfigurasi lanjutan
Bagian berikut menjelaskan praktik terbaik penjadwalan untuk konfigurasi TPU lanjutan.
Pemesanan TPU
Pemesanan TPU tersedia saat membeli komitmen. Semua reservasi TPU dapat digunakan dengan GKE.
Saat membuat node pool slice TPU, gunakan
flag --reservation
dan --reservation-affinity=specific
untuk menggunakan instance TPU yang dicadangkan.
Menskalakan TPU secara otomatis di GKE
GKE mendukung Tensor Processing Unit (TPU) untuk mempercepat beban kerja machine learning. Node pool slice TPU host tunggal dan node pool slice TPU multi-host mendukung penskalaan otomatis dan penyediaan otomatis.
Dengan tanda
--enable-autoprovisioning
di cluster GKE,
GKE membuat atau menghapus node pool slice TPU host tunggal atau multi-host dengan versi dan topologi TPU yang memenuhi persyaratan workload yang tertunda.
Saat Anda menggunakan --enable-autoscaling
, GKE akan menskalakan node pool berdasarkan jenisnya, sebagai berikut:
Node pool slice TPU host tunggal: GKE menambahkan atau menghapus node TPU di node pool yang ada. Node pool dapat berisi sejumlah node TPU antara nol dan ukuran maksimum node pool sebagaimana ditentukan oleh flag --max-nodes dan --total-max-nodes. Saat node pool diskalakan, semua node TPU dalam node pool memiliki jenis mesin dan topologi yang sama. Untuk mempelajari lebih lanjut cara membuat node pool slice TPU host tunggal, lihat Membuat node pool.
Node pool slice TPU multi-host: GKE akan menskalakan node pool secara atomik dari nol hingga jumlah node yang diperlukan untuk memenuhi topologi TPU. Misalnya, dengan TPU node pool dengan jenis mesin
ct5lp-hightpu-4t
dan topologi16x16
, node pool berisi 64 node. Penskalator otomatis GKE memastikan bahwa node pool ini memiliki tepat 0 atau 64 node. Saat menskalakan kembali, GKE akan mengeluarkan semua pod terjadwal, dan menghentikan seluruh node pool hingga nol. Untuk mempelajari lebih lanjut cara membuat node pool slice TPU multi-host, lihat Membuat node pool.
Menyediakan penyimpanan tambahan untuk slice TPU
VM dalam slice TPU mencakup boot disk 100 GiB. Jika slice TPU Anda memerlukan penyimpanan tambahan untuk pelatihan atau praproses, atau jika Anda perlu menyimpan titik pemeriksaan, Anda dapat menggunakan penyimpanan Google Cloud Hyperdisk atau Balanced Persistent Disk jika tersedia untuk TPU Anda. Untuk mengetahui informasi selengkapnya tentang jenis disk yang didukung untuk setiap versi TPU, lihat Dukungan TPU untuk Hyperdisk dan Persistent Disk.
CPU untuk cluster Standard
Bagian ini tidak berlaku untuk cluster Autopilot karena GKE menempatkan setiap slice TPU di nodenya sendiri. Untuk mempelajari lebih lanjut, lihat Cara kerja TPU dalam mode Autopilot.
Untuk cluster Standard, pertimbangkan praktik terbaik penjadwalan berikut.
Untuk menjadwalkan beban kerja non-TPU di VM dalam node slice TPU, pastikan
Pod GKE Anda dapat menoleransi taint google.com/tpu
. Jika Anda ingin
beban kerja di-deploy ke node tertentu, gunakan
pemilih node.
Pengelolaan resource dan prioritas Kubernetes memperlakukan VM di TPU sama seperti jenis VM lainnya. Untuk memberikan prioritas penjadwalan pada Pod yang memerlukan TPU daripada Pod lain pada node yang sama, mintalah CPU atau memori maksimum untuk slice TPU tersebut. Slice TPU prioritas rendah harus melakukan hal berikut:
- Tetapkan permintaan CPU dan memori yang rendah untuk memastikan node memiliki resource yang dapat dialokasikan yang cukup untuk workload TPU. Untuk mempelajari lebih lanjut, baca artikel Cara Kubernetes menerapkan permintaan dan batas resource.
- Tetapkan tanpa batas CPU (tidak terbatas) untuk memastikan bahwa Pod dapat melakukan burst untuk menggunakan semua siklus yang tidak digunakan.
- Tetapkan batas memori yang sesuai untuk memastikan Pod dapat berfungsi dengan benar tanpa risiko pengusiran karena tekanan node.
Jika Pod Kubernetes tidak meminta CPU dan memori (sekalipun meminta TPU), Kubernetes akan menganggapnya sebagai upaya terbaik, dan tidak ada jaminan bahwa pod tersebut memerlukan CPU dan memori apa pun. Hanya Pod yang secara eksplisit meminta CPU dan memori yang memiliki jaminan tersebut. Untuk penjadwalan Kubernetes tertentu, konfigurasi kebutuhan Pod dengan permintaan CPU dan memori eksplisit. Untuk mengetahui informasi selengkapnya, lihat Pengelolaan Resource untuk Pod dan Container.
Untuk mempelajari praktik terbaik lainnya, lihat Praktik terbaik Kubernetes: Permintaan dan batas resource.
Mengurangi gangguan workload
Jika Anda menggunakan TPU untuk melatih model machine learning dan workload Anda terganggu, semua pekerjaan yang dilakukan seak checkpoint terakhir akan hilang. Untuk mengurangi kemungkinan bahwa workload terganggu, lakukan langkah berikut:
- Tetapkan prioritas yang lebih tinggi untuk Tugas ini daripada semua Tugas lain: Jika resource langka, penjadwal GKE akan mendahului Tugas dengan prioritas lebih rendah untuk menjadwalkan Tugas dengan prioritas lebih tinggi. Hal ini juga memastikan bahwa beban kerja yang berprioritas lebih tinggi menerima semua resource yang diperlukannya (hingga total resource yang tersedia dalam cluster). Untuk mempelajari lebih lanjut, lihat Prioritas dan preemption Pod.
- Mengonfigurasi pengecualian pemeliharaan: Pengecualian pemeliharaan adalah jangka waktu yang tidak berulang saat pemeliharaan otomatis dilarang. Untuk mempelajari lebih lanjut, lihat Pengecualian pemeliharaan.
- Menggunakan Pod dengan waktu berjalan yang diperpanjang di Autopilot: Gunakan Pod dengan waktu berjalan yang diperpanjang untuk masa tenggang hingga tujuh hari sebelum GKE menghentikan Pod Anda untuk penurunan skala atau upgrade node.
- Menggunakan penjadwalan pengumpulan di TPU Trillium: Gunakan pengumpulan untuk menunjukkan bahwa node pool slice TPU adalah bagian dari beban kerja penayangan. Trusted Cloud membatasi dan menyederhanakan gangguan pada operasi beban kerja inferensi. Untuk mempelajari lebih lanjut, lihat Cara kerja penjadwalan pengumpulan data.
Rekomendasi ini membantu meminimalkan gangguan, tetapi tidak mencegahnya. Misalnya, preemption karena kegagalan hardware atau preemption untuk defragmentasi masih dapat terjadi. Demikian pula, menyetel pengecualian pemeliharaan GKE tidak akan mencegah peristiwa pemeliharaan Compute Engine.
Simpan checkpoint secara rutin dan tambahkan kode ke skrip pelatihan untuk memulai dari checkpoint terakhir saat dilanjutkan.
Menangani gangguan karena pemeliharaan node
Node GKE yang menghosting TPU tunduk pada peristiwa pemeliharaan atau gangguan lain yang dapat menyebabkan penonaktifan node. Di cluster GKE dengan bidang kontrol yang menjalankan versi 1.29.1-gke.1425000 dan yang lebih baru, Anda dapat mengurangi gangguan pada workload dengan mengonfigurasi GKE untuk menghentikan workload Anda dengan benar.
Untuk memahami, mengonfigurasi, dan memantau peristiwa gangguan yang mungkin terjadi pada node GKE yang menjalankan workload AI/ML, lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Memaksimalkan pemanfaatan TPU
Untuk memaksimalkan investasi dalam TPU, jadwalkan campuran prioritas Tugas dan antrekan untuk memaksimalkan waktu operasi TPU. Untuk penjadwalan dan preemption tingkat Tugas, Anda harus menggunakan add-on untuk Kubernetes yang mengatur Tugas ke dalam antrean.
Gunakan Kueue untuk mengatur Tugas ke dalam antrean.
Langkah berikutnya
- Ikuti artikel Men-deploy workload TPU di GKE untuk menyiapkan Cloud TPU dengan GKE.
- Pelajari praktik terbaik untuk menggunakan Cloud TPU untuk tugas machine learning Anda.
- Bangun machine learning berskala besar di Cloud TPU dengan GKE.
- Menayangkan Model Bahasa Besar dengan KubeRay di TPU.