Pengantar persiapan data BigQuery

Dokumen ini menjelaskan persiapan data yang ditingkatkan AI di BigQuery. Persiapan data adalah resource BigQuery, yang menggunakan Gemini di BigQuery untuk menganalisis data Anda dan memberikan saran cerdas untuk membersihkan, mentransformasi, dan memperkayanya. Anda dapat mengurangi waktu dan upaya yang diperlukan untuk tugas persiapan data manual secara signifikan. Penjadwalan persiapan data didukung oleh Dataform.

Manfaat

  • Anda dapat mengurangi waktu yang dihabiskan untuk pengembangan pipeline data dengan saran transformasi yang dihasilkan Gemini dan memahami konteks.
  • Anda dapat memvalidasi hasil yang dihasilkan dalam pratinjau dan menerima saran pembersihan dan pengayaan kualitas data dengan pemetaan skema otomatis.
  • Dataform memungkinkan Anda menggunakan proses continuous integration, continuous development (CI/CD), yang mendukung kolaborasi lintas tim untuk peninjauan kode dan kontrol sumber.

Titik entri persiapan data

Anda dapat membuat dan mengelola persiapan data di halaman BigQuery Studio (lihat Membuka editor persiapan data di BigQuery).

Saat Anda membuka tabel di penyiapan data BigQuery, tugas BigQuery akan berjalan menggunakan kredensial Anda. Eksekusi ini membuat baris contoh dari tabel yang dipilih dan menulis hasilnya ke tabel sementara dalam project yang sama. Gemini menggunakan data dan skema sampel untuk membuat saran penyiapan data yang ditampilkan di editor penyiapan data.

Tampilan di editor persiapan data

Persiapan data muncul sebagai tab di halaman BigQuery. Setiap tab memiliki serangkaian sub-tab, atau tampilan penyiapan data, tempat Anda mendesain dan mengelola penyiapan data.

Tampilan data

Saat Anda membuat penyiapan data baru, tab editor penyiapan data akan terbuka, menampilkan tampilan data yang berisi sampel representatif tabel. Untuk persiapan data yang ada, Anda dapat membuka tampilan data dengan mengklik node dalam tampilan grafik pipeline persiapan data.

Tampilan data memungkinkan Anda melakukan hal berikut:

  • Berinteraksi dengan data Anda untuk membentuk langkah-langkah penyiapan data.
  • Menerapkan saran dari Gemini.
  • Tingkatkan kualitas saran Gemini dengan memasukkan nilai contoh di sel.

Di atas setiap kolom dalam tabel, profil statistik (histogram) menampilkan jumlah untuk setiap nilai teratas kolom dalam baris pratinjau.

Tampilan data di editor persiapan data

Tampilan grafik

Tampilan grafik adalah ringkasan visual penyiapan data Anda. Tab ini muncul di halaman BigQuery di konsol, saat Anda membuka penyiapan data. Grafik menampilkan node untuk semua langkah dalam pipeline penyiapan data. Anda dapat memilih node pada grafik untuk mengonfigurasi langkah-langkah penyiapan data yang diwakilinya.

Tampilan grafik di editor persiapan data

Tampilan skema

Tampilan skema persiapan data menampilkan skema langkah persiapan data aktif saat ini. Skema yang ditampilkan cocok dengan kolom dalam tampilan data.

Dalam tampilan skema, Anda dapat melakukan operasi skema khusus, seperti menghapus kolom, yang juga membuat langkah-langkah dalam daftar Langkah yang diterapkan.

Tampilan skema di editor persiapan data

Saran dari Gemini

Gemini memberikan saran yang sesuai dengan konteks untuk membantu tugas persiapan data berikut:

  • Menerapkan transformasi dan aturan kualitas data
  • Menstandardisasi dan memperkaya data
  • Mengotomatiskan pemetaan skema

Setiap saran muncul dalam kartu di daftar saran editor penyiapan data. Kartu ini berisi informasi berikut:

  • Kategori tingkat tinggi dari langkah, seperti Pertahankan baris atau Transformasi
  • Deskripsi langkah, seperti Pertahankan baris jika COLUMN_NAME bukan NULL
  • Ekspresi SQL yang sesuai yang digunakan untuk mengeksekusi langkah

Anda dapat melihat pratinjau, mengedit, atau menerapkan kartu saran, atau menyesuaikan saran. Anda juga dapat menambahkan langkah-langkah secara manual. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan data dengan Gemini.

Untuk menyesuaikan saran dari Gemini, berikan contoh tentang apa yang perlu diubah dalam kolom.

Sampling data

BigQuery menggunakan pengambilan sampel data untuk memberikan pratinjau penyiapan data Anda. Anda dapat melihat sampel di tampilan data untuk setiap node.

Saat Anda menambahkan tabel standar BigQuery sebagai sumber, data akan disiapkan menggunakan fungsi TABLESAMPLE BigQuery. Fungsi ini membuat sampel 10 ribu data.

Saat Anda menambahkan tampilan atau tabel eksternal sebagai sumber, sistem akan membaca 1 juta data pertama. Dari data ini, sistem memilih sampel 10 ribu data yang representatif.

Data dalam sampel tidak diperbarui secara otomatis. Contoh tabel disimpan sebagai hasil kueri yang di-cache dan akan berakhir dalam waktu sekitar 24 jam. Untuk memperbarui tabel contoh secara manual, lihat Memperbarui contoh penyiapan data.

Mode tulis

Untuk mengoptimalkan biaya dan waktu pemrosesan, Anda dapat mengubah setelan mode penulisan untuk memproses data baru secara inkremental dari sumber. Misalnya, jika Anda memiliki tabel di BigQuery tempat data dimasukkan setiap hari, dan dasbor Looker yang harus mencerminkan perubahan data, Anda dapat menjadwalkan penyiapan data BigQuery untuk membaca data baru secara inkremental dari tabel sumber dan menyebarkannya ke tabel tujuan.

Untuk mengonfigurasi cara penulisan penyiapan data ke dalam tabel tujuan, lihat Mengoptimalkan penyiapan data dengan memproses data secara inkremental.

Mode penulisan berikut didukung:

Opsi mode tulis Deskripsi
Muat ulang penuh Melakukan langkah-langkah penyiapan data pada semua data sumber, lalu membangun ulang tabel tujuan secara penuh. Tabel dibuat ulang, bukan dipangkas. Pemuatan ulang penuh adalah mode default saat menulis ke tabel tujuan.
Tambahkan Menyisipkan semua data dari penyiapan data sebagai baris tambahan dalam tabel tujuan.
Inkremental Hanya menyisipkan data baru atau, bergantung pada pilihan kolom inkremental Anda, data yang diubah di tabel tujuan. Berdasarkan pilihan kolom inkremental Anda, penyiapan data akan memilih mekanisme deteksi rekaman perubahan yang optimal. Memilih nilai Maksimum untuk jenis data numerik dan datetime serta Unik untuk data kategoris. Penyisipan maksimum hanya mencatat baris yang nilai kolom yang ditentukan lebih besar daripada nilai maks untuk kolom yang sama dalam tabel tujuan. Penyisipan unik hanya mencatat jika nilai kolom yang ditentukan tidak ada dalam nilai yang ada untuk kolom yang sama di tabel tujuan.

Langkah-langkah persiapan data yang didukung

BigQuery mendukung jenis langkah persiapan data berikut:

Jenis langkah Deskripsi
Sumber Menambahkan sumber saat Anda memilih tabel BigQuery untuk dibaca atau saat Anda menambahkan langkah gabungan.
Transformasi Membersihkan dan mentransformasi data menggunakan ekspresi SQL. Anda menerima kartu saran untuk ekspresi berikut:
  • Fungsi typecasting, seperti CAST
  • Fungsi string, seperti SUBSTR, CONCAT, REPLACE, UPPER, LOWER, dan TRIM
  • Fungsi tanggal dan waktu, seperti PARSE_DATE, TIMESTAMP, EXTRACT, dan DATE_ADD
  • Fungsi JSON, seperti JSON_VALUE atau JSON_QUERY

Anda juga dapat menggunakan ekspresi SQL BigQuery yang valid dalam langkah transformasi manual. Contoh:
  • Perhitungan dengan angka, seperti mengonversi watt-jam menjadi kilowatt-jam
  • Fungsi array, seperti ARRAY_AGG, ARRAY_CONCAT, dan UNNEST
  • Fungsi jendela, seperti ROW_NUMBER, LAG, LEAD, RANK, dan NTILE


Untuk mengetahui informasi selengkapnya, lihat Menambahkan transformasi.
Filter Menghapus baris melalui sintaksis klausa WHERE. Saat Anda menambahkan langkah filter, Anda dapat memilih untuk menjadikannya langkah validasi.

Untuk mengetahui informasi selengkapnya, lihat Memfilter baris.
Validasi Mengirim baris yang tidak memenuhi kriteria aturan validasi ke tabel error. Jika data gagal dalam aturan validasi dan tidak ada tabel error yang dikonfigurasi, penyiapan data akan gagal selama eksekusi.

Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi tabel error dan menambahkan aturan validasi.
Gabung Menggabungkan nilai dari dua sumber. Tabel harus berada di lokasi yang sama. Kolom kunci gabungan harus memiliki jenis data yang sama. Persiapan data mendukung operasi gabungan berikut:
  • Inner join
  • Left join
  • Right join
  • Full outer join
  • Gabungan Silang (jika tidak ada kolom kunci gabungan yang dipilih, gabungan silang akan digunakan)


Untuk mengetahui informasi selengkapnya, lihat Menambahkan operasi penggabungan.
Tujuan Menentukan tujuan untuk menampilkan langkah-langkah penyiapan data. Jika Anda memasukkan tabel tujuan yang tidak ada, penyiapan data akan membuat tabel baru menggunakan informasi skema saat ini.

Untuk mengetahui informasi selengkapnya, lihat Menambahkan atau mengubah tabel tujuan.
Menghapus kolom Menghapus kolom dari skema. Anda melakukan langkah ini dari tampilan skema.

Untuk mengetahui informasi selengkapnya, lihat Menghapus kolom.

Menjadwalkan operasi persiapan data

Untuk menjalankan langkah-langkah penyiapan data dan memuat data yang telah disiapkan ke dalam tabel tujuan, buat jadwal. Anda dapat menjadwalkan persiapan data dari editor persiapan data, dan mengelolanya dari halaman Penjadwalan BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan persiapan data.

Membangun pipeline dengan tugas persiapan data

Anda dapat membuat pipeline BigQuery yang terdiri dari tugas persiapan data, kueri SQL, dan notebook. Kemudian, Anda dapat menjalankan pipeline ini sesuai jadwal. Untuk mengetahui informasi selengkapnya, lihat Pengantar pipeline BigQuery.

Mengontrol akses

Kontrol akses ke penyiapan data menggunakan peran Identity and Access Management (IAM), enkripsi dengan kunci Cloud KMS BigQuery dan Dataform, serta Kontrol Layanan VPC.

Peran dan izin IAM

Pengguna yang menyiapkan data dan akun layanan Dataform yang menjalankan tugas memerlukan izin IAM. Untuk mengetahui informasi selengkapnya, lihat Peran yang diperlukan dan Menyiapkan Gemini untuk BigQuery.

Enkripsi dengan kunci Cloud KMS

Enkripsi data di tingkat set data atau project menggunakan kunci Cloud KMS yang dikelola pelanggan default di BigQuery. Untuk mengetahui informasi selengkapnya, lihat Menetapkan kunci default set data dan Menetapkan kunci default project.

Anda dapat mengenkripsi kode pipeline di tingkat project secara default menggunakan kunci Cloud KMS Dataform.

Perimeter Kontrol Layanan VPC

Jika Anda menggunakan Kontrol Layanan VPC, Anda harus mengonfigurasi perimeter untuk melindungi Dataform dan BigQuery. Untuk mengetahui informasi selengkapnya, lihat batasan Kontrol Layanan VPC untuk BigQuery dan Dataform.

Batasan

Persiapan data tersedia dengan batasan berikut:

  • Semua set data sumber dan tujuan penyiapan data BigQuery untuk penyiapan data tertentu harus berada di lokasi yang sama. Untuk mengetahui informasi selengkapnya, lihat Lokasi.
  • Selama pengeditan pipeline, data dan interaksi dikirim ke pusat data Gemini untuk diproses. Untuk mengetahui informasi selengkapnya, lihat Lokasi.
  • Gemini di BigQuery tidak didukung oleh Assured Workloads.
  • Persiapan data BigQuery tidak mendukung penayangan, perbandingan, atau pemulihan versi persiapan data.
  • Respons dari Gemini didasarkan pada sampel set data yang Anda berikan saat Anda mendesain pipeline penyiapan data. Untuk mengetahui informasi selengkapnya, lihat cara Gemini untuk Trusted Cloud menggunakan data Anda dan persyaratan dalam Program Penguji Tepercaya Gemini untuk Trusted Cloud .
  • Persiapan data BigQuery tidak memiliki API sendiri. Untuk API yang diperlukan, lihat Menyiapkan Gemini di BigQuery.

Lokasi

Anda dapat menggunakan persiapan data di lokasi BigQuery yang didukung. Tugas pemrosesan data Anda dijalankan dan disimpan di lokasi set data sumber Anda. Jika lokasi repositori ditentukan, maka harus sama dengan lokasi set data sumber. Region penyimpanan kode penyiapan data dapat berbeda dengan region eksekusi tugas.

Semua aset kode di BigQuery Studio menggunakan region default yang sama. Untuk menetapkan region default untuk aset kode, ikuti langkah-langkah berikut:

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, temukan project yang aset kodenya telah Anda aktifkan.

  3. Klik View actions di samping project, lalu klik Change my default code region.

  4. Untuk Region, pilih region yang ingin Anda gunakan untuk aset kode.

  5. Klik Pilih.

Untuk mengetahui daftar region tempat BigQuery Studio tersedia, lihat Lokasi BigQuery Studio.

Gemini in BigQuery beroperasi secara global, sehingga Anda tidak dapat membatasi pemrosesan data Gemini ke wilayah tertentu saat mendesain persiapan data, meskipun pemrosesan data BigQuery pada waktu desain dan eksekusi selalu dilakukan di lokasi set data sumber Anda. Untuk mempelajari lebih lanjut lokasi tempat Gemini in BigQuery memproses data, lihat Lokasi penayangan Gemini.

Harga

Menjalankan persiapan data dan membuat sampel pratinjau data menggunakan resource BigQuery, yang ditagih dengan tarif yang ditampilkan di harga BigQuery.

Persiapan data disertakan dalam harga Gemini in BigQuery. Anda dapat menggunakan persiapan data BigQuery selama Pratinjau tanpa biaya tambahan. Untuk mengetahui informasi selengkapnya, lihat artikel Menyiapkan Gemini di BigQuery.

Kuota

Untuk mengetahui informasi selengkapnya, lihat kuota untuk Gemini di BigQuery.

Langkah berikutnya