Manipula datos con BigQuery DataFrames
En este documento, se describen las capacidades de manipulación de datos disponibles con BigQuery DataFrames. Puedes encontrar las funciones que se describen en la biblioteca bigframes.bigquery.
Roles obligatorios
Para obtener los permisos que necesitas para completar las tareas de este documento, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto:
-
Usuario de trabajo de BigQuery (
roles/bigquery.jobUser) -
Usuario de sesión de lectura de BigQuery (
roles/bigquery.readSessionUser) -
Usa BigQuery DataFrames en un notebook de BigQuery:
-
Usuario de BigQuery (
roles/bigquery.user) -
Usuario del entorno de ejecución del notebook (
roles/aiplatform.notebookRuntimeUser) -
Creador de código (
roles/dataform.codeCreator)
-
Usuario de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Cuando realizas la autenticación de usuario final en un entorno interactivo como un notebook, el REPL de Python o la línea de comandos, BigQuery DataFrames solicita la autenticación si es necesario. De lo contrario, consulta cómo configurar las credenciales predeterminadas de la aplicación para varios entornos.
API de pandas
Una característica notable de BigQuery DataFrames es que la
bigframes.pandas API
está diseñada para ser similar a las APIs de la biblioteca de pandas. Este diseño te permite emplear patrones de sintaxis familiares para las tareas de manipulación de datos. Las operaciones definidas a través de la API de BigQuery DataFrames se ejecutan del lado del servidor, operan directamente en los datos almacenados en BigQuery y eliminan la necesidad de transferir conjuntos de datos fuera de BigQuery.
Para verificar qué APIs de pandas son compatibles con BigQuery DataFrames, consulta APIs de pandas compatibles.
Inspecciona y manipula datos
Puedes usar la API de bigframes.pandas para realizar operaciones de inspección y cálculo de datos. En el siguiente muestra de código, se usa la bigframes.pandas
biblioteca para inspeccionar la columna body_mass_g, calcular la media body_mass y
calcular la media body_mass por species:
Biblioteca de BigQuery
La biblioteca de BigQuery proporciona funciones de SQL de BigQuery que podrían no tener un equivalente de pandas. En las siguientes secciones, se presentan algunos ejemplos.
Procesa valores de arreglos
Puedes usar la función bigframes.bigquery.array_agg() en la
bigframes.bigquery biblioteca para agregar valores después de una operación groupby:
También puedes usar las funciones de arreglo array_length() y array_to_string().
Crea un objeto Series de struct
Puedes usar la función bigframes.bigquery.struct() en la
bigframes.bigquery biblioteca para crear un nuevo objeto Series de struct con
subcampos para cada columna en un DataFrame:
Convierte marcas de tiempo en épocas de Unix
Puedes usar la función bigframes.bigquery.unix_micros() en la
bigframes.bigquery biblioteca para convertir marcas de tiempo en microsegundos de Unix:
También puedes usar las funciones de tiempo unix_seconds() y unix_millis().
Usa la función escalar de SQL
Puedes usar la función bigframes.bigquery.sql_scalar() en la
bigframes.bigquery biblioteca para acceder a la sintaxis de SQL arbitraria que representa una
expresión de una sola columna:
¿Qué sigue?
- Obtén información sobre las funciones personalizadas de Python para BigQuery DataFrames.
- Obtén información para generar código de BigQuery DataFrames con Gemini.
- Obtén información para analizar las descargas de paquetes de PyPI con BigQuery DataFrames.
- Consulta el código fuente, los notebooks de muestra, y las muestras de BigQuery DataFrames en GitHub.
- Explora la referencia de la API de BigQuery DataFrames.