Administra las sesiones y la E/S de BigQuery DataFrames
En este documento, se explica cómo administrar sesiones y realizar operaciones de entrada y salida (E/S) cuando usas BigQuery DataFrames. Aprenderás a crear y usar sesiones, trabajar con datos en la memoria, y leer y escribir en archivos y tablas de BigQuery.
Sesiones de BigQuery
BigQuery DataFrames usa un objeto de sesión local de forma interna para administrar metadatos. Cada objeto DataFrame
y Series
se conecta a una sesión, cada sesión se conecta a una ubicación y cada búsqueda en una sesión se ejecuta en la ubicación en la que creaste la sesión. Usa la siguiente muestra de código para crear una sesión de forma manual y usarla para cargar datos:
No puedes combinar datos de varias instancias de sesión, incluso si las inicializas con la misma configuración. En el siguiente muestra de código, se muestra que intentar combinar datos de diferentes instancias de sesión genera un error:
Sesión global
BigQuery DataFrames proporciona una sesión global predeterminada a la que puedes acceder con el método bigframes.pandas.get_global_session()
. En Colab, debes proporcionar un ID del proyecto para el atributo bigframes.pandas.options.bigquery.project
antes de usarlo. También puedes establecer una ubicación con el atributo bigframes.pandas.options.bigquery.location
, que se establece de forma predeterminada en la multirregión US
.
En la siguiente muestra de código, se muestra cómo establecer opciones para la sesión global:
Para restablecer la ubicación o el proyecto de la sesión global, cierra la sesión actual ejecutando el método bigframes.pandas.close_session()
.
Muchas funciones integradas de BigQuery DataFrames usan la sesión global de forma predeterminada. En el siguiente muestra de código, se muestra cómo las funciones integradas usan la sesión global:
Datos en memoria
Puedes crear objetos Dataframes
y Series
con estructuras de datos integradas de Python o NumPy, de manera similar a como creas objetos con pandas. Usa el siguiente muestra de código para crear un objeto:
Para convertir objetos pandas
en objetos DataFrames
con el método o los constructores read_pandas()
, usa el siguiente muestra de código:
Para usar el método to_pandas()
para cargar datos de BigQuery DataFrames en tu memoria, usa el siguiente muestra de código:
Estimación de costos con el parámetro dry_run
Cargar una gran cantidad de datos puede llevar mucho tiempo y consumir muchos recursos. Para ver la cantidad de datos que se procesan, usa el parámetro dry_run=True
en la llamada a to_pandas()
. Usa la siguiente muestra de código para realizar una prueba de validación:
Leer y escribir archivos
Puedes leer datos de archivos compatibles en un DataFrame de BigQuery DataFrames. Estos archivos pueden estar en tu máquina local o en Cloud Storage. Usa el siguiente ejemplo de código para leer datos de un archivo CSV:
Para guardar tus BigQuery DataFrames en archivos locales o de Cloud Storage con el método to_csv
, usa el siguiente muestra de código:
Lee y escribe tablas de BigQuery
Para crear DataFrames de BigQuery con referencias de tablas de BigQuery y la función bigframes.pandas.read_gbq
, usa el siguiente ejemplo de código:
Para usar una cadena de SQL con la función read_gbq()
y leer datos en BigQuery DataFrames, usa el siguiente muestra de código:
Para guardar tu objeto DataFrame
en una tabla de BigQuery, usa el método to_gbq()
de tu objeto DataFrame
. En el siguiente muestra de código, se muestra cómo hacerlo:
¿Qué sigue?
- Aprende a usar BigQuery DataFrames.
- Obtén más información para trabajar con tipos de datos en BigQuery DataFrames.
- Aprende a visualizar gráficos con BigQuery DataFrames.
- Explora la referencia de la API de BigQuery DataFrames.