Mengelola sesi dan I/O BigQuery DataFrames
Dokumen ini menjelaskan cara mengelola sesi dan melakukan operasi input dan output (I/O) saat Anda menggunakan DataFrame BigQuery. Anda akan mempelajari cara membuat dan menggunakan sesi, menggunakan data dalam memori, serta membaca dan menulis ke file dan tabel BigQuery.
Sesi BigQuery
BigQuery DataFrames menggunakan objek sesi lokal secara internal untuk mengelola metadata. Setiap objek DataFrame
dan Series
terhubung ke sesi, setiap sesi terhubung ke lokasi, dan setiap kueri dalam sesi dijalankan di lokasi tempat Anda membuat sesi. Gunakan contoh kode berikut untuk membuat sesi secara manual dan menggunakannya untuk memuat data:
Anda tidak dapat menggabungkan data dari beberapa instance sesi, meskipun Anda menginisialisasinya dengan setelan yang sama. Contoh kode berikut menunjukkan bahwa mencoba menggabungkan data dari instance sesi yang berbeda akan menyebabkan error:
Sesi global
BigQuery DataFrame menyediakan sesi global default yang dapat Anda
akses dengan metode bigframes.pandas.get_global_session()
. Di
Colab, Anda harus memberikan project ID untuk atribut
bigframes.pandas.options.bigquery.project
sebelum menggunakannya. Anda
juga dapat menetapkan lokasi dengan atribut
bigframes.pandas.options.bigquery.location
, yang secara default adalah
multi-region US
.
Contoh kode berikut menunjukkan cara menyetel opsi untuk sesi global:
Untuk mereset lokasi atau project sesi global, tutup sesi saat ini dengan
menjalankan metode bigframes.pandas.close_session()
.
Banyak fungsi bawaan BigQuery DataFrames menggunakan sesi global secara default. Contoh kode berikut menunjukkan cara fungsi bawaan menggunakan sesi global:
Data dalam memori
Anda dapat membuat objek Dataframes
dan Series
dengan struktur data Python atau NumPy bawaan, mirip dengan cara Anda membuat objek dengan pandas. Gunakan
contoh kode berikut untuk membuat objek:
Untuk mengonversi objek pandas
menjadi objek DataFrames
menggunakan metode atau konstruktor read_pandas()
, gunakan contoh kode berikut:
Untuk menggunakan metode to_pandas()
guna memuat data BigQuery DataFrames ke dalam
memori Anda, gunakan contoh kode berikut:
Estimasi biaya dengan parameter dry_run
Memuat data dalam jumlah besar dapat memerlukan banyak waktu dan resource. Untuk melihat jumlah data yang sedang diproses, gunakan parameter dry_run=True
dalam panggilan to_pandas()
. Gunakan contoh kode berikut untuk melakukan uji coba:
Membaca dan menulis file
Anda dapat membaca data dari file yang kompatibel ke dalam DataFrame BigQuery. File ini dapat berada di komputer lokal Anda atau di Cloud Storage. Gunakan contoh kode berikut untuk membaca data dari file CSV:
Untuk menyimpan DataFrame BigQuery ke file lokal atau file Cloud Storage
menggunakan metode to_csv
, gunakan contoh kode berikut:
Membaca dan menulis tabel BigQuery
Untuk membuat DataFrame BigQuery menggunakan referensi tabel BigQuery dan fungsi bigframes.pandas.read_gbq
, gunakan contoh kode berikut:
Untuk menggunakan string SQL dengan fungsi read_gbq()
untuk membaca data ke DataFrame BigQuery, gunakan contoh kode berikut:
Untuk menyimpan objek DataFrame
ke tabel BigQuery, gunakan metode
to_gbq()
objek DataFrame
Anda. Contoh kode berikut menunjukkan
cara melakukannya:
Langkah berikutnya
- Pelajari cara menggunakan DataFrame BigQuery.
- Pelajari cara bekerja dengan jenis data di DataFrame BigQuery.
- Pelajari cara memvisualisasikan grafik menggunakan DataFrame BigQuery.
- Jelajahi referensi BigQuery DataFrames API.