Menjadwalkan persiapan data
Dokumen ini menjelaskan cara menjadwalkan dan menjalankan tugas persiapan data secara manual di BigQuery untuk mengotomatiskan alur kerja transformasi data. Meskipun penjadwalan memastikan data Anda tetap terbaru dan akurat tanpa memerlukan intervensi manual, Anda juga dapat melakukan persiapan data secara manual untuk menguji dan memvalidasi transformasi sebelum deployment. Persiapan data didukung oleh Dataform.
Anda dapat menjadwalkan persiapan data dengan kredensial pengguna untuk Google Akun atau dengan akun layanan kustom.
Sebelum memulai
Sebelum memulai, buat persiapan data.
Persyaratan Kontrol Layanan VPC
Jika Anda menggunakan Kontrol Layanan VPC untuk melindungi persiapan data, Anda harus mengetahui bahwa proses yang dijadwalkan didukung oleh Dataform. Saat mengonfigurasi Kontrol Layanan VPC untuk proses yang dijadwalkan, pastikan persyaratan berikut terpenuhi:
- Anda harus menetapkan
dataform.restrictGitRemotesLayanan Kebijakan Organisasi. - Dataform dan BigQuery harus dibatasi oleh perimeter layanan Kontrol Layanan VPC yang sama.
- Untuk mengizinkan pengguna melakukan autentikasi dengan kredensial pengguna untuk Akun Google mereka saat menjadwalkan atau memicu proses secara manual, Anda harus menambahkan identitas pengguna mereka ke aturan ingress Anda. Untuk mengetahui informasi selengkapnya, lihat Memperbarui kebijakan ingress dan egress untuk perimeter layanan dan Referensi aturan ingress.
Untuk mengetahui langkah-langkah konfigurasi mendetail dan pertimbangan keamanan, lihat Mengonfigurasi Kontrol Layanan VPC untuk Dataform.
Peran yang diperlukan
Untuk mengotorisasi persiapan data dengan akun layanan saat menjalankan persiapan data secara manual dalam pengembangan atau menjadwalkan persiapan data, Anda harus memberikan peran ke akun layanan yang akan Anda gunakan untuk menjalankan proses persiapan data. Untuk mengetahui informasi selengkapnya, lihat Memberikan akses ke akun layanan Dataform.
Untuk menjadwalkan persiapan data, lakukan hal berikut:
- Minta administrator Anda untuk memberikan peran
Pengguna Akun Layanan
(
roles/iam.serviceAccountUser) kepada Anda di akun layanan kustom. - Berikan
peran Pengguna Akun Layanan
(
roles/iam.serviceAccountUser) dan peran Pembuat Token Akun Layanan (roles/iam.serviceAccountTokenCreator) kepada agen layanan Dataform default di akun layanan kustom.
Untuk meningkatkan keamanan penjadwalan, lihat Menerapkan izin penjadwalan yang ditingkatkan.
Mengembangkan persiapan data
Saat mengembangkan persiapan data, Anda dapat menjalankan langkah-langkah secara manual dan memeriksa output sebelum men-deploy perubahan ke produksi. Anda dapat menguji versi saat ini yang sedang Anda kembangkan pada data Anda, sementara BigQuery terus menjalankan versi terbaru yang di-deploy, sesuai jadwal. Sebelum dapat menjalankan proses, Anda harus mengonfigurasi tujuan, dan memperbaiki error validasi apa pun.
Menjalankan persiapan data secara manual dalam pengembangan
Untuk menguji langkah-langkah persiapan data dan memvalidasi hasilnya di tabel tujuan, jalankan persiapan data secara manual dari editor persiapan data:
Di Cloud de Confiance konsol, buka halaman BigQuery.
Di panel kiri, klik Explorer:

Jika Anda tidak melihat panel kiri, klik Luaskan panel kiri untuk membuka panel.
Di panel Explorer, luaskan project Anda dan klik Data preparations.
Klik nama persiapan data yang ingin Anda jalankan.
Di toolbar editor persiapan data, klik More > Configure run now experience.
Di bagian Authentication, otorisasi persiapan data dengan kredensial pengguna Akun Google Anda atau akun layanan.
Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Execute with my user credentials. Setelan ini adalah opsi default.
Opsional: Di bagian Extended access options, pilih layanan tambahan yang diperlukan persiapan data Anda:
- Google Drive: Memungkinkan akses hanya baca ke file Google Drive.
Untuk menggunakan akun layanan, pilih Execute with selected service account, lalu pilih akun layanan. Jika akun layanan memerlukan izin tambahan, berikan peran yang diperlukan dengan mengklik Grant all.
Klik Save.
Perbaiki error validasi yang muncul.
Dari toolbar editor persiapan data, klik Run.
Di dialog Run now, klik Confirm untuk mengonfirmasi bahwa proses manual ini menulis data ke tabel tujuan, yang mungkin juga Anda gunakan untuk proses yang dijadwalkan.
Jika Anda memilih Execute with my user credentials untuk metode autentikasi, Anda harus mengotorisasi Akun Google Anda (Pratinjau).
Proses tersebut kemudian akan menjalankan langkah-langkah Anda dan memuat output ke tujuan.
Opsional: Setelah proses selesai, Anda dapat melihat detail tentang eksekusi di panel Executions.
Men-deploy persiapan data
Untuk menjadwalkan proses untuk versi persiapan data Anda, Anda harus menyimpan dan men-deploy perubahan terlebih dahulu. Jadwal selalu menjalankan versi terbaru yang di-deploy, dan mengabaikan perubahan yang belum di-deploy.
Untuk men-deploy persiapan data, ikuti langkah-langkah berikut:
Di Cloud de Confiance konsol, buka halaman BigQuery.
Di panel kiri, klik Explorer:

Di panel Explorer, luaskan project Anda dan klik Data preparations.
Klik nama persiapan data yang dipilih.
Editor persiapan data akan terbuka.
Di toolbar editor persiapan data, klik Deploy.
Membuat jadwal
Untuk membuat jadwal yang menjalankan langkah-langkah persiapan data yang di-deploy dan memuat data yang disiapkan ke dalam tabel tujuan, Anda harus menjadwalkan proses persiapan data terlebih dahulu. Untuk menjadwalkan proses, Anda harus mengonfigurasi tujuan, dan memperbaiki error validasi apa pun.
Untuk membuat jadwal persiapan data, ikuti langkah-langkah berikut:
Panel Explorer
Di Cloud de Confiance konsol, buka halaman BigQuery.
Di panel kiri, klik Explorer:

Di panel Explorer, luaskan project Anda dan klik Data preparations.
Klik nama persiapan data yang ingin Anda jadwalkan.
Dari toolbar editor persiapan data, klik Schedule.
Masukkan nama jadwal.
Di bagian Authentication, otorisasi persiapan data dengan kredensial pengguna Akun Google Anda atau akun layanan.
Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Execute with my user credentials.
Opsional: Di bagian Extended access options, pilih layanan tambahan yang diperlukan persiapan data Anda:
- Google Drive: Memungkinkan akses hanya baca ke file Google Drive.
Untuk menggunakan akun layanan, pilih Execute with selected service account, lalu pilih akun layanan.
Jadwalkan frekuensi.
Klik Create schedule. Jika Anda memilih Execute with my user credentials untuk metode autentikasi, Anda harus mengotorisasi Akun Google Anda (Pratinjau).
Halaman Scheduling
Di Cloud de Confiance konsol, buka halaman Scheduling.
Klik Create, lalu pilih Data Preparation schedule dari menu.
Di panel Schedule data preparation, di kolom Data preparation , pilih persiapan data yang ingin Anda jadwalkan.
Di kolom Schedule name, masukkan nama untuk jadwal.
Di bagian Authentication, otorisasi persiapan data dengan kredensial pengguna Akun Google Anda atau akun layanan.
Untuk menggunakan kredensial pengguna Akun Google Anda (Pratinjau), pilih Execute with my user credentials.
Opsional: Di bagian Extended access options, pilih layanan tambahan yang diperlukan persiapan data Anda:
- Google Drive: Memungkinkan akses hanya baca ke file Google Drive.
Untuk menggunakan akun layanan, pilih Execute with selected service account, lalu pilih akun layanan.
Di bagian Schedule frequency, lakukan hal berikut:
- Di menu Repeats, pilih frekuensi proses persiapan data.
- Di kolom At time, masukkan waktu untuk proses persiapan data yang dijadwalkan.
- Di menu Timezone, pilih zona waktu untuk jadwal.
Klik Create schedule. Jika Anda memilih Execute with my user credentials untuk metode autentikasi, Anda harus mengotorisasi Akun Google Anda (Pratinjau).
Memberi otorisasi pada Akun Google Anda
Untuk mengautentikasi resource dengan Akun Google kredensial pengguna Anda, Anda harus memberikan izin secara manual agar pipeline BigQuery mendapatkan token akses untuk Akun Google Anda dan mengakses data sumber atas nama Anda. Anda dapat memberikan persetujuan manual dengan antarmuka dialog OAuth. Jika Anda memilih Extended access options, Anda harus memberikan akses ke layanan tersebut—misalnya, Google Drive atau Knowledge Catalog.
Anda hanya perlu memberikan izin ke pipeline BigQuery satu kali.
Untuk mencabut izin yang Anda berikan, ikuti langkah-langkah berikut:
- Buka halaman Akun Google Anda.
- Klik BigQuery Pipelines.
- Klik Remove access.
Mengubah pemilik jadwal persiapan data dengan mengupdate kredensial juga memerlukan persetujuan manual jika pemilik Akun Google baru tidak pernah membuat jadwal sebelumnya.
Menjalankan persiapan data terjadwal secara manual
Saat Anda menjalankan persiapan data secara manual dalam jadwal yang dipilih, BigQuery akan menjalankan persiapan data satu kali, secara terpisah dari jadwal.
Untuk menjalankan persiapan data terjadwal secara manual, ikuti langkah-langkah berikut:
Di Cloud de Confiance konsol, buka halaman Scheduling.
Klik nama jadwal persiapan data yang dipilih.
Di halaman Schedule details, klik Run.
Melihat jadwal
Anda dapat melihat jadwal persiapan data dari editor persiapan data atau halaman Scheduling.
Editor persiapan data
Untuk melihat jadwal persiapan data, ikuti langkah-langkah berikut:
- Di toolbar editor persiapan data, klik schedule View schedule.
- Opsional: Untuk melihat histori jadwal, klik View past executions.
Halaman Scheduling
Untuk melihat semua jadwal persiapan data di project Anda, ikuti langkah-langkah berikut:
Di Cloud de Confiance konsol, buka halaman Scheduling.
Opsional: Untuk melihat histori proses dan detail jadwal yang dipilih, klik nama jadwal. Histori proses manual tidak ditampilkan.
Mengedit jadwal
Anda dapat mengedit jadwal dari editor persiapan data atau halaman Scheduling.
Editor persiapan data
Untuk mengedit jadwal, ikuti langkah-langkah berikut:
- Di toolbar editor persiapan data, klik schedule View schedule.
- Di dialog Schedule data preparation , klik Edit , lalu perbarui jadwal.
- Klik Update schedule.
Halaman Scheduling
Untuk mengedit jadwal, ikuti langkah-langkah berikut:
Di Cloud de Confiance konsol, buka halaman Scheduling.
Klik nama jadwal persiapan data yang dipilih.
Di halaman Schedule details, klik Edit.
Klik View schedule.
Di dialog Schedule data preparation , klik Edit , lalu perbarui jadwal.
Klik Update schedule.
Menghapus jadwal
Untuk menghapus jadwal secara permanen untuk persiapan data yang dipilih, ikuti langkah-langkah berikut:
Di Cloud de Confiance konsol, buka halaman Scheduling.
Di baris yang berisi jadwal, klik more_vert Actions > Delete.
Langkah berikutnya
- Pelajari cara membuat persiapan data.
- Pelajari lebih lanjut cara mengelola persiapan data.