Mengelola sesi dan I/O BigQuery DataFrames
Dokumen ini menjelaskan cara mengelola sesi dan melakukan operasi input dan output (I/O) saat Anda menggunakan BigQuery DataFrames. Anda akan mempelajari cara membuat dan menggunakan sesi, menggunakan data dalam memori, serta membaca dan menulis ke file dan tabel BigQuery.
Sesi BigQuery
BigQuery DataFrames menggunakan objek sesi lokal secara internal untuk mengelola metadata. Setiap objek DataFrame dan Series terhubung ke sesi, setiap
sesi terhubung ke lokasi, dan setiap kueri dalam
sesi berjalan di lokasi tempat Anda membuat sesi. Gunakan contoh kode berikut untuk membuat sesi secara manual dan menggunakannya untuk memuat data:
Anda tidak dapat menggabungkan data dari beberapa instance sesi, meskipun Anda menginisialisasinya dengan setelan yang sama. Contoh kode berikut menunjukkan bahwa mencoba menggabungkan data dari instance sesi yang berbeda akan menyebabkan error:
Sesi global
BigQuery DataFrames menyediakan sesi global default yang dapat Anda
akses dengan metode bigframes.pandas.get_global_session(). Di
Colab, Anda harus memberikan project ID untuk atribut
bigframes.pandas.options.bigquery.project sebelum menggunakannya. Anda
juga dapat menetapkan lokasi dengan atribut
bigframes.pandas.options.bigquery.location, yang secara default ditetapkan ke
multi-region US.
Contoh kode berikut menunjukkan cara menetapkan opsi untuk sesi global:
Untuk mereset lokasi atau project sesi global, tutup sesi saat ini dengan
menjalankan metode bigframes.pandas.close_session().
Banyak fungsi bawaan BigQuery DataFrames menggunakan sesi global secara default. Contoh kode berikut menunjukkan cara fungsi bawaan menggunakan sesi global:
Data dalam memori
Anda dapat membuat objek DataFrames dan Series dengan struktur data Python atau NumPy
bawaan, mirip dengan cara Anda membuat objek dengan pandas. Gunakan contoh kode berikut untuk membuat objek:
Untuk mengonversi objek pandas menjadi objek DataFrames menggunakan metode read_pandas()
atau konstruktor, gunakan contoh kode berikut:
Untuk menggunakan metode to_pandas() guna memuat data BigQuery DataFrames ke dalam
memori, gunakan contoh kode berikut:
Estimasi biaya dengan parameter dry_run
Memuat data dalam jumlah besar dapat memerlukan banyak waktu dan resource. Untuk melihat jumlah data yang diproses, gunakan parameter dry_run=True dalam panggilan
to_pandas(). Gunakan contoh kode berikut untuk melakukan uji coba:
Membaca dan menulis file
Anda dapat membaca data dari file yang kompatibel ke BigQuery DataFrames. File ini dapat berada di komputer lokal atau di Cloud Storage. Gunakan contoh kode berikut untuk membaca data dari file CSV:
Untuk menyimpan BigQuery DataFrames ke file lokal atau file Cloud Storage
menggunakan metode to_csv, gunakan contoh kode berikut:
Membaca dan menulis tabel BigQuery
Untuk membuat BigQuery DataFrames menggunakan referensi tabel BigQuery
dan fungsi bigframes.pandas.read_gbq, gunakan contoh kode
berikut:
Untuk menggunakan string SQL dengan fungsi read_gbq() guna membaca data ke
BigQuery DataFrames, gunakan contoh kode berikut:
Untuk menyimpan objek DataFrame ke tabel BigQuery, gunakan metode
to_gbq() dari objek DataFrame Anda. Contoh kode berikut menunjukkan cara melakukannya:
Langkah berikutnya
- Pelajari tentang BigQuery DataFrames.
- Pelajari cara menggunakan jenis data di BigQuery DataFrames.
- Pelajari cara me mvisualisasikan grafik menggunakan BigQuery DataFrames.
- Pelajari referensi BigQuery DataFrames API.