Memanipulasi data dengan BigQuery DataFrames
Dokumen ini menjelaskan kemampuan manipulasi data yang tersedia dengan BigQuery DataFrames. Anda dapat menemukan fungsi yang dijelaskan di library bigframes.bigquery.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan tugas dalam dokumen ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:
-
Pengguna Tugas BigQuery (
roles/bigquery.jobUser) -
Pengguna Sesi Baca BigQuery (
roles/bigquery.readSessionUser) -
Menggunakan BigQuery DataFrames di notebook BigQuery:
-
Pengguna BigQuery (
roles/bigquery.user) -
Pengguna Runtime Notebook (
roles/aiplatform.notebookRuntimeUser) -
Pembuat Kode (
roles/dataform.codeCreator)
-
Pengguna BigQuery (
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Saat Anda melakukan autentikasi pengguna akhir di lingkungan interaktif seperti notebook, Python REPL, atau command line, BigQuery DataFrames akan meminta autentikasi, jika diperlukan. Jika tidak, lihat cara menyiapkan kredensial default aplikasi untuk berbagai lingkungan.
pandas API
Fitur penting BigQuery DataFrames adalah
bigframes.pandas API
yang dirancang agar mirip dengan API di library pandas. Desain ini memungkinkan Anda menggunakan pola sintaksis yang familiar untuk tugas manipulasi data. Operasi yang ditentukan melalui BigQuery DataFrames API dieksekusi di sisi server, beroperasi langsung pada data yang disimpan dalam BigQuery dan menghilangkan kebutuhan untuk mentransfer set data keluar dari BigQuery.
Untuk memeriksa pandas API mana yang didukung oleh BigQuery DataFrames, lihat pandas API yang didukung.
Memeriksa dan memanipulasi data
Anda dapat menggunakan bigframes.pandas API untuk melakukan operasi pemeriksaan dan perhitungan data. Contoh kode berikut menggunakan bigframes.pandas
library untuk memeriksa kolom body_mass_g, menghitung body_mass rata-rata, dan
menghitung body_mass rata-rata berdasarkan species:
Library BigQuery
Library BigQuery menyediakan fungsi SQL BigQuery yang mungkin tidak memiliki pandas yang setara. Bagian berikut menyajikan beberapa contoh.
Memproses nilai array
Anda dapat menggunakan fungsi bigframes.bigquery.array_agg() di
bigframes.bigquery library untuk menggabungkan nilai setelah operasi groupby operation:
Anda juga dapat menggunakan fungsi array array_length() dan array_to_string().
Membuat objek Series struct
Anda dapat menggunakan fungsi bigframes.bigquery.struct() di library
bigframes.bigquery untuk membuat objek Series struct baru dengan
subkolom untuk setiap kolom di DataFrame:
Mengonversi stempel waktu ke epoch Unix
Anda dapat menggunakan fungsi bigframes.bigquery.unix_micros() di library
bigframes.bigquery untuk mengonversi stempel waktu menjadi mikrodetik Unix:
Anda juga dapat menggunakan fungsi waktu unix_seconds() dan unix_millis().
Menggunakan fungsi skalar SQL
Anda dapat menggunakan fungsi bigframes.bigquery.sql_scalar() di
bigframes.bigquery library untuk mengakses sintaksis SQL arbitrer yang mewakili ekspresi
satu kolom:
Langkah berikutnya
- Pelajari fungsi Python kustom untuk BigQuery DataFrames.
- Pelajari cara membuat kode BigQuery DataFrames dengan Gemini.
- Pelajari cara menganalisis download paket dari PyPI dengan BigQuery DataFrames.
- Lihat kode sumber BigQuery DataFrames , contoh notebook, dan contoh di GitHub.
- Jelajahi referensi BigQuery DataFrames API.