Membuat pipeline
Dokumen ini menjelaskan cara membuat pipeline di BigQuery. Pipeline didukung oleh Dataform.
Sebelum memulai
-
In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.
-
Make sure that billing is enabled for your Trusted Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
Untuk membuat pipeline:
Code Creator (
roles/dataform.codeCreator
) -
Untuk mengedit dan menjalankan pipeline:
Dataform Editor (
roles/dataform.editor
) Buka halaman BigQuery.
Di panel Explorer, temukan project yang aset kodenya telah Anda aktifkan.
Klik
View actions di samping project, lalu klik Change my default code region.Untuk Region, pilih region yang ingin Anda gunakan untuk aset kode.
Klik Pilih.
Buka halaman BigQuery.
Di panel tab panel editor, klik panah
di samping tanda +, lalu klik Pipeline.Opsional: Untuk mengganti nama pipeline, klik nama pipeline, lalu ketik nama baru.
Klik Mulai, lalu buka tab Setelan.
Di bagian Autentikasi, pilih untuk memberikan otorisasi ke pipeline dengan kredensial pengguna Akun Google atau akun layanan Anda.
- Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Jalankan dengan kredensial pengguna saya.
- Untuk menggunakan akun layanan, pilih Jalankan dengan akun layanan yang dipilih, lalu pilih akun layanan.
Di bagian Location, pilih region pemrosesan untuk pipeline.
- Untuk memilih region tertentu, pilih Region, lalu pilih region di menu Region.
- Untuk memilih multi-region, pilih Multi-region, lalu pilih multi-region di menu Multi-region.
Wilayah pemrosesan pipeline tidak perlu cocok dengan wilayah penyimpanan default untuk aset kode.
Jika Anda berencana menambahkan notebook ke pipeline, lakukan hal berikut di bagian Opsi notebook:
Di kolom Runtime template, terima runtime notebook default, atau telusuri dan pilih runtime yang ada.
- Untuk melihat spesifikasi runtime default, klik panah di samping.
- Untuk membuat runtime baru, lihat Membuat template runtime.
Di kolom Cloud Storage bucket, klik Browse, lalu pilih atau buat bucket Cloud Storage untuk menyimpan output notebook di pipeline Anda.
Ikuti Menambahkan akun utama ke kebijakan tingkat bucket untuk menambahkan akun layanan Dataform kustom sebagai akun utama ke bucket Cloud Storage yang ingin Anda gunakan untuk menyimpan output operasi pipeline terjadwal, dan berikan peran Storage Admin (
roles/storage.admin
) ke akun utama ini.Akun layanan Dataform kustom yang dipilih harus diberi peran IAM Storage Admin di bucket yang dipilih.
Di Trusted Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Untuk menambahkan aset kode, seperti kueri SQL, notebook, atau persiapan data, lakukan hal berikut:
Kueri SQL
Klik Tambahkan tugas, lalu pilih Kueri. Anda dapat membuat kueri baru atau mengimpor kueri yang sudah ada.
Opsional: Di panel Query task details, di menu Run after, pilih tugas yang akan mendahului kueri Anda.
Kueri Anda akan bergantung pada tugas sebelumnya.
Membuat kueri baru
Klik menu panah
di samping Edit Kueri, lalu pilih Dalam konteks atau Di tab baru.Menelusuri kueri yang ada.
Pilih nama kueri, lalu tekan Enter.
Klik Simpan.
Opsional: Untuk mengganti nama kueri, klik nama kueri di panel pipeline, klik Edit Kueri, klik nama kueri yang ada di bagian atas layar, lalu ketik nama baru.
Mengimpor kueri yang ada
Klik menu panah
di samping Edit Kueri, lalu klik Impor salinan.Telusuri kueri yang ada untuk diimpor atau pilih kueri yang ada dari panel penelusuran. Saat Anda mengimpor kueri, kueri asli tidak akan berubah karena file sumber kueri disalin ke pipeline.
Klik Edit untuk membuka kueri yang diimpor.
Klik Simpan.
Notebook
Klik Tambahkan tugas, lalu pilih Notebook. Anda dapat membuat notebook baru atau mengimpor notebook yang sudah ada. Untuk mengubah setelan template runtime notebook, lihat Opsi notebook.
Opsional: Di panel Notebook task details, di menu Run after, pilih tugas yang akan mendahului notebook Anda.
Notebook Anda akan bergantung pada tugas sebelumnya.
Membuat notebook baru
Klik menu panah
di samping Edit Notebook dan pilih Dalam konteks atau Dalam tab baru.Telusuri notebook yang ada.
Pilih nama notebook, lalu tekan Enter.
Klik Simpan.
Opsional: Untuk mengganti nama notebook, klik nama notebook di panel pipeline, klik Edit Notebook, klik nama notebook yang ada di bagian atas layar, lalu ketik nama baru.
Mengimpor notebook yang ada
Klik menu panah
di samping Edit Notebook, lalu klik Import a copy.Telusuri notebook yang ada untuk diimpor atau pilih notebook yang ada dari panel penelusuran. Saat Anda mengimpor notebook, notebook asli tidak akan berubah karena file sumber notebook disalin ke pipeline.
Untuk membuka notebook yang diimpor, klik Edit.
Klik Simpan.
Persiapan data
Klik Tambahkan tugas, lalu pilih Persiapan data. Anda dapat membuat persiapan data baru atau mengimpor persiapan data yang sudah ada.
Opsional: Di panel Data preparation task details, di menu Run after, pilih tugas yang akan mendahului persiapan data Anda.
Persiapan data Anda akan bergantung pada tugas sebelumnya.
Membuat persiapan data baru
Klik menu panah
di samping Edit Persiapan data, lalu pilih Dalam konteks atau Dalam tab baru.Telusuri persiapan data yang ada.
Pilih nama persiapan data, lalu tekan enter.
Klik Simpan.
Opsional: Untuk mengganti nama persiapan data, klik nama persiapan data di panel pipeline, klik Edit Persiapan data, klik nama di bagian atas layar, lalu masukkan nama baru.
Mengimpor persiapan data yang ada
Klik menu drop-down panah
di samping Edit Persiapan data, lalu klik Impor salinan.Telusuri persiapan data yang ada untuk diimpor atau pilih persiapan data yang ada dari panel penelusuran. Saat Anda mengimpor persiapan data, file asli tidak akan berubah karena file sumber persiapan data disalin ke pipeline.
Untuk membuka persiapan data yang diimpor, klik Edit.
Klik Simpan.
Di Trusted Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik tugas yang dipilih.
Untuk mengubah tugas sebelumnya, di menu Run after, pilih tugas yang akan mendahului kueri atau notebook Anda.
Untuk mengedit konten tugas yang dipilih, klik Edit.
Di tab baru yang terbuka, edit konten tugas, lalu simpan perubahan pada tugas.
Di Trusted Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik tugas yang dipilih.
Di panel Detail tugas, klik ikon HapusHapus.
Di Trusted Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik Bagikan, lalu pilih Kelola izin.
Klik Tambahkan pengguna/grup.
Di kolom Akun utama baru, masukkan nama minimal satu pengguna atau grup.
Untuk Menetapkan Peran, pilih peran.
Klik Simpan.
Di Trusted Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik Bagikan, lalu pilih Bagikan link. URL untuk pipeline Anda akan disalin ke papan klip komputer.
Di Trusted Cloud konsol, buka halaman BigQuery.
Di panel Explorer, luaskan project dan folder Pipelines, lalu pilih pipeline.
Klik Run. Jika Anda memilih Jalankan dengan kredensial pengguna saya untuk autentikasi, Anda harus memberikan otorisasi ke Akun Google Anda (Pratinjau).
Opsional: Untuk memeriksa operasi, lihat operasi manual sebelumnya.
- Buka halaman Akun Google Anda.
- Klik BigQuery Pipelines.
- Klik Hapus akses.
- Pelajari pipeline BigQuery lebih lanjut.
- Pelajari cara mengelola pipeline.
- Pelajari cara menjadwalkan pipeline.
Peran yang diperlukan untuk pipeline
Untuk mendapatkan izin yang Anda perlukan untuk membuat pipeline, minta administrator untuk memberi Anda peran IAM berikut pada project:
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk informasi selengkapnya tentang IAM Dataform, lihat Mengontrol akses dengan IAM.
Peran yang diperlukan untuk opsi notebook
Untuk mendapatkan izin yang
diperlukan guna memilih template runtime di opsi notebook,
minta administrator untuk memberi Anda
peran IAM Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
)
di project.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Jika tidak memiliki peran ini, Anda dapat memilih spesifikasi runtime notebook default.
Menetapkan region default untuk aset kode
Jika ini adalah pertama kalinya Anda membuat aset kode, Anda harus menetapkan region default untuk aset kode. Anda tidak dapat mengubah region untuk aset kode setelah dibuat.
Semua aset kode di BigQuery Studio menggunakan region default yang sama. Untuk menetapkan region default untuk aset kode, ikuti langkah-langkah berikut:
Untuk mengetahui daftar region tempat BigQuery Studio tersedia, lihat Lokasi BigQuery Studio.
Membuat pipeline
Untuk membuat pipeline, ikuti langkah-langkah berikut:
Opsi notebook
Menambahkan tugas pipeline
Untuk menambahkan tugas ke pipeline, ikuti langkah-langkah berikut:
Mengedit tugas pipeline
Untuk mengedit tugas pipeline, ikuti langkah-langkah berikut:
Menghapus tugas pipeline
Untuk menghapus tugas dari pipeline, ikuti langkah-langkah berikut:
Membagikan pipeline
Untuk membagikan pipeline, ikuti langkah-langkah berikut:
Membagikan link ke pipeline
Menjalankan pipeline
Untuk menjalankan versi pipeline saat ini secara manual, ikuti langkah-langkah berikut:
Memberi otorisasi pada Akun Google Anda
Untuk mengautentikasi resource dengan kredensial pengguna Akun Google, Anda harus memberikan izin secara manual agar pipeline BigQuery mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda dapat memberikan persetujuan manual dengan antarmuka dialog OAuth.
Anda hanya perlu memberikan izin ke pipeline BigQuery satu kali.
Untuk mencabut izin yang Anda berikan, ikuti langkah-langkah berikut:
Jika pipeline Anda berisi notebook, Anda juga harus memberikan izin secara manual untuk Colab Enterprise agar dapat mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda hanya perlu memberikan izin satu kali. Anda dapat mencabut izin ini di halaman Akun Google.