Pengantar persiapan data BigQuery
Dokumen ini menjelaskan persiapan data yang ditingkatkan AI di BigQuery. Persiapan data adalah resource BigQuery, yang menggunakan Gemini di BigQuery untuk menganalisis data Anda dan memberikan saran cerdas untuk membersihkan, mentransformasi, dan memperkayanya. Anda dapat mengurangi waktu dan upaya yang diperlukan untuk tugas persiapan data manual secara signifikan. Penjadwalan persiapan data didukung oleh Dataform.
Manfaat
- Anda dapat mengurangi waktu yang dihabiskan untuk pengembangan pipeline data dengan saran transformasi yang dihasilkan Gemini dan memahami konteks.
- Anda dapat memvalidasi hasil yang dihasilkan dalam pratinjau dan menerima saran pembersihan dan pengayaan kualitas data dengan pemetaan skema otomatis.
- Dataform memungkinkan Anda menggunakan proses continuous integration, continuous development (CI/CD), yang mendukung kolaborasi lintas tim untuk peninjauan kode dan kontrol sumber.
Titik entri persiapan data
Anda dapat membuat dan mengelola persiapan data di halaman BigQuery Studio (lihat Membuka editor persiapan data di BigQuery).
Saat Anda membuka tabel di penyiapan data BigQuery, tugas BigQuery akan berjalan menggunakan kredensial Anda. Eksekusi ini membuat baris contoh dari tabel yang dipilih dan menulis hasilnya ke tabel sementara dalam project yang sama. Gemini menggunakan data dan skema sampel untuk membuat saran penyiapan data yang ditampilkan di editor penyiapan data.
Tampilan di editor persiapan data
Persiapan data muncul sebagai tab di halaman BigQuery. Setiap tab memiliki serangkaian sub-tab, atau tampilan penyiapan data, tempat Anda mendesain dan mengelola penyiapan data.
Tampilan data
Saat Anda membuat penyiapan data baru, tab editor penyiapan data akan terbuka, menampilkan tampilan data yang berisi sampel representatif tabel. Untuk persiapan data yang ada, Anda dapat membuka tampilan data dengan mengklik node dalam tampilan grafik pipeline persiapan data.
Tampilan data memungkinkan Anda melakukan hal berikut:
- Berinteraksi dengan data Anda untuk membentuk langkah-langkah penyiapan data.
- Menerapkan saran dari Gemini.
- Tingkatkan kualitas saran Gemini dengan memasukkan nilai contoh di sel.
Di atas setiap kolom dalam tabel, profil statistik (histogram) menampilkan jumlah untuk setiap nilai teratas kolom dalam baris pratinjau.
Tampilan grafik
Tampilan grafik adalah ringkasan visual penyiapan data Anda. Tab ini muncul di halaman BigQuery di konsol, saat Anda membuka penyiapan data. Grafik menampilkan node untuk semua langkah dalam pipeline penyiapan data. Anda dapat memilih node pada grafik untuk mengonfigurasi langkah-langkah penyiapan data yang diwakilinya.
Tampilan skema
Tampilan skema persiapan data menampilkan skema langkah persiapan data aktif saat ini. Skema yang ditampilkan cocok dengan kolom dalam tampilan data.
Dalam tampilan skema, Anda dapat melakukan operasi skema khusus, seperti menghapus kolom, yang juga membuat langkah-langkah dalam daftar Langkah yang diterapkan.
Saran dari Gemini
Gemini memberikan saran yang sesuai dengan konteks untuk membantu tugas persiapan data berikut:
- Menerapkan transformasi dan aturan kualitas data
- Menstandardisasi dan memperkaya data
- Mengotomatiskan pemetaan skema
Setiap saran muncul dalam kartu di daftar saran editor penyiapan data. Kartu ini berisi informasi berikut:
- Kategori tingkat tinggi dari langkah, seperti Pertahankan baris atau Transformasi
- Deskripsi langkah, seperti Pertahankan baris jika
COLUMN_NAME
bukanNULL
- Ekspresi SQL yang sesuai yang digunakan untuk mengeksekusi langkah
Anda dapat melihat pratinjau, mengedit, atau menerapkan kartu saran, atau menyesuaikan saran. Anda juga dapat menambahkan langkah-langkah secara manual. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data dengan Gemini.
Untuk menyesuaikan saran dari Gemini, berikan contoh tentang apa yang perlu diubah dalam kolom.
Sampling data
BigQuery menggunakan pengambilan sampel data untuk memberikan pratinjau penyiapan data Anda. Anda dapat melihat sampel di tampilan data untuk setiap node.
Saat Anda menambahkan tabel standar BigQuery sebagai sumber, data akan disiapkan menggunakan fungsi TABLESAMPLE
BigQuery. Fungsi ini membuat sampel
10 ribu data.
Saat Anda menambahkan tampilan atau tabel eksternal sebagai sumber, sistem akan membaca 1 juta data pertama. Dari data ini, sistem memilih sampel 10 ribu data yang representatif.
Data dalam sampel tidak diperbarui secara otomatis. Contoh tabel disimpan sebagai hasil kueri yang di-cache dan akan berakhir dalam waktu sekitar 24 jam. Untuk memperbarui tabel contoh secara manual, lihat Memperbarui contoh penyiapan data.
Mode tulis
Untuk mengoptimalkan biaya dan waktu pemrosesan, Anda dapat mengubah setelan mode penulisan untuk memproses data baru secara inkremental dari sumber. Misalnya, jika Anda memiliki tabel di BigQuery tempat data dimasukkan setiap hari, dan dasbor Looker yang harus mencerminkan perubahan data, Anda dapat menjadwalkan penyiapan data BigQuery untuk membaca data baru secara inkremental dari tabel sumber dan menyebarkannya ke tabel tujuan.
Untuk mengonfigurasi cara penulisan penyiapan data ke dalam tabel tujuan, lihat Mengoptimalkan penyiapan data dengan memproses data secara inkremental.
Mode penulisan berikut didukung:
Opsi mode tulis | Deskripsi |
---|---|
Muat ulang penuh | Melakukan langkah-langkah penyiapan data pada semua data sumber, lalu membangun ulang tabel tujuan secara penuh. Tabel dibuat ulang, bukan dipangkas. Pemuatan ulang penuh adalah mode default saat menulis ke tabel tujuan. |
Tambahkan | Menyisipkan semua data dari penyiapan data sebagai baris tambahan dalam tabel tujuan. |
Inkremental | Hanya menyisipkan data baru atau, bergantung pada pilihan kolom inkremental Anda, data yang diubah di tabel tujuan. Berdasarkan pilihan kolom inkremental Anda, penyiapan data akan memilih mekanisme deteksi rekaman perubahan yang optimal. Memilih nilai Maksimum untuk jenis data numerik dan datetime serta Unik untuk data kategoris. Penyisipan maksimum hanya mencatat baris yang nilai kolom yang ditentukan lebih besar daripada nilai maks untuk kolom yang sama dalam tabel tujuan. Penyisipan unik hanya mencatat jika nilai kolom yang ditentukan tidak ada dalam nilai yang ada untuk kolom yang sama di tabel tujuan. |
Langkah-langkah persiapan data yang didukung
BigQuery mendukung jenis langkah persiapan data berikut:
Jenis langkah | Deskripsi |
---|---|
Sumber | Menambahkan sumber saat Anda memilih tabel BigQuery untuk dibaca atau saat Anda menambahkan langkah gabungan. |
Transformasi | Membersihkan dan mentransformasi data menggunakan ekspresi SQL. Anda menerima
kartu saran untuk ekspresi berikut:
Anda juga dapat menggunakan ekspresi SQL BigQuery yang valid dalam langkah transformasi manual. Contoh:
Untuk mengetahui informasi selengkapnya, lihat Menambahkan transformasi. |
Filter | Menghapus baris melalui sintaksis klausa WHERE . Saat Anda
menambahkan langkah filter, Anda dapat memilih untuk menjadikannya langkah validasi.
Untuk mengetahui informasi selengkapnya, lihat Memfilter baris. |
Validasi | Mengirim baris yang tidak memenuhi kriteria aturan validasi ke tabel
error. Jika data gagal dalam aturan validasi dan tidak ada tabel error yang
dikonfigurasi, penyiapan data akan gagal selama eksekusi.
Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi. |
Gabung | Menggabungkan nilai dari dua sumber. Tabel harus berada di lokasi yang sama.
Kolom kunci gabungan harus memiliki jenis data yang sama. Persiapan data
mendukung operasi gabungan berikut:
Untuk mengetahui informasi selengkapnya, lihat Menambahkan operasi penggabungan. |
Tujuan | Menentukan tujuan untuk menampilkan langkah-langkah penyiapan data. Jika Anda
memasukkan tabel tujuan yang tidak ada, penyiapan data
akan membuat tabel baru menggunakan informasi skema saat ini. Untuk mengetahui informasi selengkapnya, lihat Menambahkan atau mengubah tabel tujuan. |
Menghapus kolom | Menghapus kolom dari skema. Anda melakukan
langkah ini dari tampilan skema.
Untuk mengetahui informasi selengkapnya, lihat Menghapus kolom. |
Menjadwalkan operasi persiapan data
Untuk menjalankan langkah-langkah penyiapan data dan memuat data yang telah disiapkan ke dalam tabel tujuan, buat jadwal. Anda dapat menjadwalkan persiapan data dari editor persiapan data, dan mengelolanya dari halaman Penjadwalan BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan persiapan data.
Membangun pipeline dengan tugas persiapan data
Anda dapat membuat pipeline BigQuery yang terdiri dari tugas persiapan data, kueri SQL, dan notebook. Kemudian, Anda dapat menjalankan pipeline ini sesuai jadwal. Untuk mengetahui informasi selengkapnya, lihat Pengantar pipeline BigQuery.
Mengontrol akses
Kontrol akses ke penyiapan data menggunakan peran Identity and Access Management (IAM), enkripsi dengan kunci Cloud KMS BigQuery dan Dataform, serta Kontrol Layanan VPC.
Peran dan izin IAM
Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin IAM. Untuk mengetahui informasi selengkapnya, lihat Peran yang diperlukan dan Menyiapkan Gemini untuk BigQuery.
Enkripsi dengan kunci Cloud KMS
Enkripsi data di tingkat set data atau project menggunakan kunci Cloud KMS yang dikelola pelanggan default di BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menetapkan kunci default set data dan Menetapkan kunci default project.
Anda dapat mengenkripsi kode pipeline di tingkat project secara default menggunakan kunci Cloud KMS Dataform.
Perimeter Kontrol Layanan VPC
Jika Anda menggunakan Kontrol Layanan VPC, Anda harus mengonfigurasi perimeter untuk melindungi Dataform dan BigQuery. Untuk mengetahui informasi selengkapnya, lihat batasan Kontrol Layanan VPC untuk BigQuery dan Dataform.
Batasan
Persiapan data tersedia dengan batasan berikut:
- Semua set data sumber dan tujuan penyiapan data BigQuery untuk penyiapan data tertentu harus berada di lokasi yang sama. Untuk mengetahui informasi selengkapnya, lihat Lokasi.
- Selama pengeditan pipeline, data dan interaksi dikirim ke pusat data Gemini untuk diproses. Untuk mengetahui informasi selengkapnya, lihat Lokasi.
- Gemini di BigQuery tidak didukung oleh Assured Workloads.
- Persiapan data BigQuery tidak mendukung penayangan, perbandingan, atau pemulihan versi persiapan data.
- Respons dari Gemini didasarkan pada sampel set data yang Anda berikan saat Anda mendesain pipeline penyiapan data. Untuk mengetahui informasi selengkapnya, lihat cara Gemini untuk Trusted Cloud menggunakan data Anda dan persyaratan dalam Program Penguji Tepercaya Gemini untuk Trusted Cloud .
- Persiapan data BigQuery tidak memiliki API sendiri. Untuk API yang diperlukan, lihat Menyiapkan Gemini di BigQuery.
Lokasi
Anda dapat menggunakan persiapan data di lokasi BigQuery yang didukung. Tugas pemrosesan data Anda dijalankan dan disimpan di lokasi set data sumber Anda. Jika lokasi repositori ditentukan, maka harus sama dengan lokasi set data sumber. Region penyimpanan kode penyiapan data dapat berbeda dengan region eksekusi tugas.
Semua aset kode di BigQuery Studio menggunakan region default yang sama. Untuk menetapkan region default untuk aset kode, ikuti langkah-langkah berikut:
Buka halaman BigQuery.
Di panel Explorer, temukan project yang aset kodenya telah Anda aktifkan.
Klik
View actions di samping project, lalu klik Change my default code region.Untuk Region, pilih region yang ingin Anda gunakan untuk aset kode.
Klik Pilih.
Untuk mengetahui daftar region tempat BigQuery Studio tersedia, lihat Lokasi BigQuery Studio.
Gemini in BigQuery beroperasi secara global, sehingga Anda tidak dapat membatasi pemrosesan data Gemini ke wilayah tertentu saat mendesain persiapan data, meskipun pemrosesan data BigQuery pada waktu desain dan eksekusi selalu dilakukan di lokasi set data sumber Anda. Untuk mempelajari lebih lanjut lokasi tempat Gemini in BigQuery memproses data, lihat Lokasi penayangan Gemini.
Harga
Menjalankan persiapan data dan membuat sampel pratinjau data menggunakan resource BigQuery, yang ditagih dengan tarif yang ditampilkan di harga BigQuery.
Persiapan data disertakan dalam harga Gemini in BigQuery. Anda dapat menggunakan persiapan data BigQuery selama Pratinjau tanpa biaya tambahan. Untuk mengetahui informasi selengkapnya, lihat artikel Menyiapkan Gemini di BigQuery.
Kuota
Untuk mengetahui informasi selengkapnya, lihat kuota untuk Gemini di BigQuery.
Langkah berikutnya
- Pelajari cara menyiapkan data dengan Gemini di BigQuery.
- Pelajari cara menjalankan persiapan data secara manual atau dengan jadwal.