Introducción a la preparación de datos de BigQuery

En este documento, se describe la preparación de datos aumentada por IA en BigQuery. Las preparaciones de datos son recursos de BigQuery que usan Gemini en BigQuery para analizar tus datos y proporcionar sugerencias inteligentes para limpiarlos, transformarlos y enriquecerlos. Puedes reducir significativamente el tiempo y el esfuerzo necesarios para las tareas manuales de preparación de datos. La programación de las preparaciones de datos se realiza con Dataform.

Beneficios

  • Puedes reducir el tiempo dedicado al desarrollo de canalizaciones de datos con sugerencias de transformación generadas por Gemini y basadas en el contexto.
  • Puedes validar los resultados generados en una vista previa y recibir sugerencias de limpieza y enriquecimiento de la calidad de los datos con la asignación automática de esquemas.
  • Dataform te permite usar un proceso de integración continua y desarrollo continuo (CI/CD), lo que admite la colaboración entre equipos para las revisiones de código y el control de código fuente.

Puntos de entrada de la preparación de datos

Puedes crear y administrar preparaciones de datos en la página BigQuery Studio (consulta Cómo abrir el editor de preparación de datos en BigQuery).

Cuando abres una tabla en la preparación de datos de BigQuery, se ejecuta un trabajo de BigQuery con tus credenciales. La ejecución crea filas de muestra a partir de la tabla elegida y escribe los resultados en una tabla temporal del mismo proyecto. Gemini usa los datos y el esquema de muestra para generar sugerencias de preparación de datos que se muestran en el editor de preparación de datos.

Vistas en el editor de preparación de datos

Las preparaciones de datos aparecen como pestañas en la página BigQuery. Cada pestaña tiene una serie de subpestañas o vistas de preparación de datos, en las que puedes diseñar y administrar tus preparaciones de datos.

Vista de datos

Cuando creas una preparación de datos nueva, se abre una pestaña del editor de preparación de datos que muestra la vista de datos, la cual contiene una muestra representativa de la tabla. En el caso de las preparaciones de datos existentes, puedes navegar a la vista de datos haciendo clic en un nodo de la vista de gráfico de tu canalización de preparación de datos.

La vista de datos te permite hacer lo siguiente:

  • Interactúa con tus datos para formar pasos de preparación de datos.
  • Aplicar sugerencias de Gemini
  • Mejora la calidad de las sugerencias de Gemini ingresando valores de ejemplo en las celdas.

Sobre cada columna de la tabla, un perfil estadístico (un histograma) muestra el recuento de los valores principales de cada columna en las filas de vista previa.

Vista de datos en el editor de preparación de datos

Vista de gráfico

La vista de gráfico es un resumen visual de la preparación de tus datos. Aparece como una pestaña en la página de BigQuery en la consola cuando abres una preparación de datos. En el gráfico, se muestran nodos para todos los pasos de tu canalización de preparación de datos. Puedes seleccionar un nodo en el gráfico para configurar los pasos de preparación de datos que representa.

Vista de gráfico en el editor de preparación de datos

Vista de esquema

En la vista del esquema de preparación de datos, se muestra el esquema actual del paso de preparación de datos activo. El esquema que se muestra coincide con las columnas de la vista de datos.

En la vista de esquema, puedes realizar operaciones de esquema específicas, como quitar columnas, lo que también crea pasos en la lista Pasos aplicados.

Vista de esquema en el editor de preparación de datos

Sugerencias de Gemini

Gemini proporciona sugerencias contextuales para ayudarte con las siguientes tareas de preparación de datos:

  • Aplicar transformaciones y reglas de calidad de los datos
  • Estandarización y enriquecimiento de datos
  • Automatización de la asignación de esquemas

Cada sugerencia aparece en una tarjeta de la lista de sugerencias del editor de preparación de datos. La tarjeta contiene la siguiente información:

  • Categoría de alto nivel del paso, como Conservar filas o Transformación
  • Es una descripción del paso, como Conserva las filas si COLUMN_NAME no es NULL.
  • Es la expresión SQL correspondiente que se usa para ejecutar el paso.

Puedes obtener una vista previa de la tarjeta de sugerencia, editarla o aplicarla, o bien ajustar la sugerencia. También puedes agregar pasos de forma manual. Para obtener más información, consulta Prepara datos con Gemini.

Para ajustar las sugerencias de Gemini, dale un ejemplo de lo que debe cambiar en una columna.

Muestreo de datos

BigQuery usa el muestreo de datos para proporcionar una vista previa de la preparación de tus datos. Puedes ver la muestra en la vista de datos de cada nodo.

Cuando agregas tablas estándar de BigQuery como fuente, los datos se preparan con una función TABLESAMPLE de BigQuery. Esta función crea una muestra de 10,000 registros.

Cuando agregas una vista o una tabla externa como fuente, el sistema lee el primer millón de registros. A partir de estos registros, el sistema selecciona una muestra representativa de 10,000 registros.

Los datos de la muestra no se actualizan automáticamente. Las tablas de muestra se almacenan como resultados de consultas en caché y vencen en aproximadamente 24 horas. Para actualizar manualmente la tabla de muestra, consulta Actualiza las muestras de preparación de datos.

Modo de escritura

Para optimizar los costos y el tiempo de procesamiento, puedes cambiar la configuración del modo de escritura para procesar de forma incremental los datos nuevos de la fuente. Por ejemplo, si tienes una tabla en BigQuery en la que se insertan registros a diario y un panel de Looker que debe reflejar los datos modificados, puedes programar la preparación de datos de BigQuery para que lea de forma incremental los registros nuevos de la tabla de origen y los propague a la tabla de destino.

Para configurar la forma en que se escribe la preparación de datos en una tabla de destino, consulta Optimiza la preparación de datos procesando datos de forma incremental.

Se admiten los siguientes modos de escritura:

Opción de modo de escritura Descripción
Actualización completa Realiza los pasos de preparación de datos en todos los datos de origen y, luego, vuelve a compilar la tabla de destino por completo. La tabla se vuelve a crear, no se trunca. La actualización completa es el modo predeterminado cuando se escribe en una tabla de destino.
Adjunto Inserta todos los datos de la preparación de datos como filas adicionales en la tabla de destino.
Incremental Inserta solo los datos nuevos o, según la columna incremental que elijas, los datos modificados en la tabla de destino. Según la columna incremental que elijas, la preparación de datos seleccionará el mecanismo óptimo de detección de registros de cambios. Elige los valores máximos para los tipos de datos numéricos y de fecha y hora, y los valores únicos para los datos categóricos. Maximum solo inserta registros en los que el valor de la columna especificada es mayor que el valor máximo de esa misma columna en la tabla de destino. Unique inserts solo registra los valores de columna especificados que no están presentes en los valores existentes de la misma columna en la tabla de destino.

Pasos de preparación de datos compatibles

BigQuery admite los siguientes tipos de pasos de preparación de datos:

Tipo de paso Descripción
Fuente Agrega una fuente cuando seleccionas una tabla de BigQuery para leerla o cuando agregas un paso de unión.
Transformación Limpia y transforma los datos con una expresión SQL. Recibirás tarjetas de sugerencias para las siguientes expresiones:
  • Funciones de conversión de tipos, como CAST
  • Funciones de cadena, como SUBSTR, CONCAT, REPLACE, UPPER, LOWER y TRIM
  • Funciones de fecha y hora, como PARSE_DATE, TIMESTAMP, EXTRACT y DATE_ADD
  • Funciones JSON, como JSON_VALUE o JSON_QUERY

También puedes usar cualquier expresión SQL de BigQuery válida en los pasos de transformación manual. Por ejemplo:
  • Operaciones matemáticas con números, como convertir vatios-hora en kilovatios-hora
  • Funciones de matriz, como ARRAY_AGG, ARRAY_CONCAT y UNNEST
  • Funciones de ventana, como ROW_NUMBER, LAG, LEAD, RANK y NTILE


Para obtener más información, consulta Cómo agregar una transformación.
Filtro Quita filas a través de la sintaxis de la cláusula WHERE. Cuando agregas un paso de filtro, puedes convertirlo en un paso de validación.

Para obtener más información, consulta Cómo filtrar filas.
Validación Envía a una tabla de errores las filas que no cumplen con los criterios de la regla de validación. Si los datos no cumplen con la regla de validación y no se configura ninguna tabla de errores, la preparación de datos falla durante la ejecución.

Para obtener más información, consulta Cómo configurar la tabla de errores y agregar una regla de validación.
Unirse Une valores de dos fuentes. Las tablas deben estar en la misma ubicación. Las columnas de clave de unión deben tener el mismo tipo de datos. Las preparaciones de datos admiten las siguientes operaciones de unión:
  • Combinaciones internas
  • Combinaciones izquierdas
  • Uniones hacia la derecha
  • Combinaciones externas completas
  • Uniones cruzadas (si no se seleccionan columnas de claves de unión, se usa una unión cruzada)


Para obtener más información, consulta Cómo agregar una operación de unión.
Destino Define un destino para generar los pasos de preparación de datos. Si ingresas una tabla de destino que no existe, la preparación de datos creará una tabla nueva con la información del esquema actual.

Para obtener más información, consulta Cómo agregar o cambiar una tabla de destino.
Borrar columnas Borra columnas del esquema. Realiza este paso desde la vista del esquema.

Para obtener más información, consulta Cómo borrar una columna.

Cómo programar ejecuciones de preparación de datos

Para ejecutar los pasos de preparación de datos y cargar los datos preparados en la tabla de destino, crea una programación. Puedes programar preparaciones de datos desde el editor de preparación de datos y administrarlas desde la página Programación de BigQuery. Para obtener más información, consulta Programa preparaciones de datos.

Cómo compilar canalizaciones con tareas de preparación de datos

Puedes compilar canalizaciones de BigQuery compuestas por tareas de preparación de datos, consulta en SQL y notebooks. Luego, puedes ejecutar estas canalizaciones según un programa. Para obtener más información, consulta Introducción a las canalizaciones de BigQuery.

Controle el acceso

Controla el acceso a las preparaciones de datos con roles de Identity and Access Management (IAM), encriptación con claves de Cloud KMS de BigQuery y Dataform, y Controles del servicio de VPC.

Permisos y funciones de IAM

Los usuarios que preparan los datos y las cuentas de servicio de Dataform que ejecutan los trabajos requieren permisos de IAM. Para obtener más información, consulta Roles obligatorios y Cómo configurar Gemini para BigQuery.

Encriptación con claves de Cloud KMS

Encripta datos a nivel del conjunto de datos o del proyecto con las claves de Cloud KMS predeterminadas administradas por el cliente en BigQuery. Para obtener más información, consulta Cómo establecer una clave predeterminada del conjunto de datos y Cómo establecer una clave predeterminada del proyecto.

De forma predeterminada, puedes encriptar el código de la canalización a nivel del proyecto con una clave de Dataform Cloud KMS.

Perímetros de los Controles del servicio de VPC

Si usas los Controles del servicio de VPC, debes configurar el perímetro para proteger Dataform y BigQuery. Para obtener más información, consulta las limitaciones de los Controles del servicio de VPC para BigQuery y Dataform.

Limitaciones

La preparación de datos está disponible con las siguientes limitaciones:

  • Todos los conjuntos de datos de origen y destino de la preparación de datos de BigQuery de una preparación de datos determinada deben estar en la misma ubicación. Para obtener más información, consulta Ubicaciones.
  • Durante la edición de la canalización, los datos y las interacciones se envían a un centro de datos de Gemini para su procesamiento. Para obtener más información, consulta Ubicaciones.
  • Gemini en BigQuery no es compatible con Assured Workloads.
  • Las preparaciones de datos de BigQuery no admiten la visualización, la comparación ni la restauración de versiones de preparación de datos.
  • Las respuestas de Gemini se basan en una muestra del conjunto de datos que proporcionas cuando diseñas tu canalización de preparación de datos. Para obtener más información, consulta cómo Gemini para Trusted Cloud usa tus datos y las condiciones del Programa de verificadores de confianza de Gemini para Trusted Cloud .
  • La preparación de datos de BigQuery no tiene su propia API. Para conocer las APIs necesarias, consulta Cómo configurar Gemini en BigQuery.

Ubicaciones

Puedes usar la preparación de datos en cualquier ubicación de BigQuery compatible. Tus trabajos de procesamiento de datos se ejecutan y almacenan en la ubicación de tus conjuntos de datos de origen. Si se especifica una ubicación del repositorio, debe ser la misma que la ubicación de los conjuntos de datos de origen. La región de almacenamiento del código de preparación de datos puede ser diferente de la región de ejecución del trabajo.

Todos los recursos de código en BigQuery Studio usan la misma región predeterminada. Para establecer la región predeterminada de los recursos de código, sigue estos pasos:

  1. Ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel Explorador, busca el proyecto en el que habilitaste los elementos de código.

  3. Haz clic en Ver acciones junto al proyecto y, luego, en Cambiar mi región de código predeterminada.

  4. En Región, selecciona la región que deseas usar para los recursos de código.

  5. Haz clic en Seleccionar.

Para obtener una lista de las regiones en las que está disponible, consulta Ubicaciones de BigQuery Studio.

Gemini en BigQuery opera a nivel global, por lo que no puedes restringir el procesamiento de datos de Gemini a una región específica cuando diseñas tus preparaciones de datos, aunque el procesamiento de datos de BigQuery en el tiempo de diseño y ejecución siempre se realiza en la ubicación de tus conjuntos de datos fuente. Para obtener más información sobre las ubicaciones en las que Gemini en BigQuery procesa datos, consulta Ubicaciones de servicio de Gemini.

Precios

La ejecución de preparaciones de datos y la creación de muestras de vista previa de datos usan recursos de BigQuery, que se cobran según las tarifas que se muestran en los precios de BigQuery.

La preparación de datos se incluye en los precios de Gemini en BigQuery. Puedes usar la preparación de datos de BigQuery durante la versión preliminar sin costo adicional. Para obtener más información, consulta Cómo configurar Gemini en BigQuery.

Cuotas

Para obtener más información, consulta las cuotas de Gemini en BigQuery.

¿Qué sigue?