Usa el agente de ingeniería de datos para compilar y modificar canalizaciones de datos
El agente de ingeniería de datos te permite compilar, modificar y solucionar problemas de canalizaciones de datos en BigQuery con instrucciones en lenguaje natural. El agente de ingeniería de datos ofrece las siguientes capacidades para optimizar tus flujos de trabajo de ingeniería de datos y, así, transferir datos a BigQuery:
- Integración de Dataform: El agente genera y organiza el código de la canalización de datos directamente en los repositorios y espacios de trabajo de Dataform.
- Generación de planes: El agente puede resumir su razonamiento y generar un plan que te permita revisar y verificar el plan del agente antes de continuar.
- Validación de código: El agente valida y corrige automáticamente los errores de compilación de cualquier código generado para garantizar que la canalización de datos funcione correctamente.
- Organización automática de datos: El agente organiza los datos y transforma los datos sin procesar en tablas estructuradas sin intervención manual.
- Instrucciones personalizadas: El agente admite instrucciones personalizadas que te permiten definir reglas específicas y lineamientos reutilizables en lenguaje natural.
- Contexto externo: El agente se integra con el Catálogo de conocimiento para obtener contexto adicional.
- Control de canalización: Puedes revisar y personalizar los planes del agente generados antes de que se ejecute cualquier acción.
- Optimización: El agente puede optimizar el rendimiento en tu canalización de datos.
- Solución de problemas y reparación: El agente puede solucionar problemas de fallas en la canalización y corregir su código.
Para ver más ejemplos de instrucciones que puedes usar con el agente de ingeniería de datos, consulta Ejemplos de instrucciones.
Limitaciones
El Agente de Ingeniería de Datos tiene las siguientes limitaciones:
- El agente de ingeniería de datos es una oferta previa a la DG y no está diseñado para usarse en producción.
- El agente de ingeniería de datos no admite comandos en lenguaje natural para los siguientes tipos de archivos:
- Notebooks
- Preparación de datos
- JavaScript en cualquier SQLX
- El agente de ingeniería de datos no puede ejecutar canalizaciones. Debes revisar y ejecutar o programar canalizaciones.
- El agente de ingeniería de datos no puede validar el código SQL que depende de recursos intermedios inexistentes sin la invocación completa de la canalización (activada por el usuario).
- El agente de ingeniería de datos no puede buscar vínculos web ni URLs proporcionados a través de instrucciones o mensajes directos.
- Cuando importas archivos en un archivo de instrucciones del agente, la sintaxis de importación
@solo admite rutas que comienzan con./,/o una letra. - La función de vista previa de datos solo se admite para tablas, declaraciones o consultas con la marca
hasOutputestablecida entrue.
Cómo usa tus datos el agente de ingeniería de datos
Para producir respuestas de mayor calidad, el Agente de ingeniería de datos puede recuperar datos y metadatos adicionales de BigQuery y Knowledge Catalog, incluidas filas de muestra de tablas de BigQuery y perfiles de análisis de datos generados en Knowledge Catalog. El agente no usa estos datos para el entrenamiento, sino solo como contexto adicional durante las conversaciones para fundamentar sus respuestas.
Dónde procesa tus datos el agente de ingeniería de datos
Para obtener más información sobre las ubicaciones en las que el Agente de Ingeniería de Datos procesa tus datos, consulta Dónde Gemini en BigQuery procesa tus datos.
Antes de comenzar
Antes de usar el Agente de ingeniería de datos, realiza los pasos que se indican en esta sección.
Habilita Gemini en BigQuery
Asegúrate de que Gemini en BigQuery esté habilitado para tu proyecto deCloud de Confiance by S3NS . Para obtener más información, consulta Cómo configurar Gemini en BigQuery.
Habilite las API necesarias
Console
Habilita las siguientes APIs en la consola de Cloud de Confiance para el proyecto Cloud de Confiance by S3NSque usas con la API de Conversational Analytics.
Habilita la API de Gemini Data Analytics
gcloud
Para habilitar la API de Gemini Data Analytics, la API de Gemini para Cloud de Confiance by S3NS
y la API de BigQuery, usa la CLI de Google Cloud y ejecuta los siguientes comandos de gcloud
services enable:
gcloud services enable geminidataanalytics.googleapis.com --project=PROJECT_ID gcloud services enable cloudaicompanion.googleapis.com --project=PROJECT_ID gcloud services enable bigquery.googleapis.com --project=PROJECT_ID
Reemplaza PROJECT_ID por el ID del proyecto de Cloud de Confiance by S3NS .
Roles obligatorios
Para obtener el permiso que necesitas para usar el agente de ingeniería de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto:
-
Editor de código de Dataform (
roles/dataform.codeEditor) -
Usuario de trabajo de BigQuery (
roles/bigquery.jobuser) -
Usuario de chat sin estado de análisis de datos de Gemini (
roles/geminidataanalytics.dataAgentStatelessUser)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el permiso geminidataanalytics.locations.useDataEngineeringAgent, que se requiere para usar el Agente de ingeniería de datos.
También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.
Requisitos previos para la integración de Knowledge Catalog
Para obtener el permiso que
necesitas para integrar el agente de Data Engineering con Knowledge Catalog,
pídele a tu administrador que te otorgue el
rol de IAM de editor de Dataplex Catalog (roles/dataplex.catalogEditor)
en el proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el permiso geminidataanalytics.locations.useDataEngineeringAgent, que se requiere para integrar el Agente de ingeniería de datos con el Catálogo de conocimiento.
También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.
También debes habilitar la API de Knowledge Catalog.
Encripta datos con claves de Cloud Key Management Service
Puedes encriptar datos a nivel del conjunto de datos o del proyecto con las claves predeterminadas de Cloud Key Management Service administradas por el cliente en BigQuery. Para obtener más información, consulta Cómo establecer una clave predeterminada del conjunto de datos y Cómo establecer una clave predeterminada del proyecto.
Puedes encriptar el código de la canalización a nivel del proyecto configurando una clave predeterminada de Dataform Cloud Key Management Service.
Configura perímetros de Controles del servicio de VPC
Si usas los Controles del servicio de VPC, debes configurar el perímetro para proteger las APIs de Dataform, BigQuery y Conversational Analytics. Para obtener más información, consulta Dataform, BigQuery y la API de Conversational Analytics.
Genera una canalización de datos con el agente de ingeniería de datos
Para usar el Agente de ingeniería de datos en BigQuery, selecciona una de las siguientes opciones:
Canalizaciones de BigQuery
Para usar el agente de ingeniería de datos en la interfaz de canalizaciones de BigQuery, haz lo siguiente:
Ve a la página de BigQuery.
En el editor de consultas, haz clic en arrow_drop_down Crear nuevo > Canalización.
Selecciona una opción para las credenciales de ejecución y, luego, haz clic en Comenzar. El agente no usa estas credenciales, pero son necesarias para ejecutar la canalización de datos generada.
Haz clic en Try out the agent experience for data pipeline.
En el campo Pregúntale al agente, ingresa una instrucción en lenguaje natural para generar una canalización de datos, por ejemplo:
Create dimension tables for a taxi trips star schema from new_york_taxi_trips.tlc_green_trips_2022. Generate surrogate keys and all the descriptive attributes.Después de ingresar una instrucción, haz clic en Enviar.
El agente de ingeniería de datos genera una canalización de datos según tu instrucción.
El agente de ingeniería de datos genera un borrador propuesto de una canalización de datos. Puedes hacer clic en un nodo de la canalización para revisar la consulta SQLX generada. Para aplicar la canalización de datos sugerida por el agente, haz clic en Aplicar.
Dataform
Para usar el agente de ingeniería de datos en Dataform, haz lo siguiente:
Ve a Dataform.
Selecciona un repositorio.
Selecciona o crea un espacio de trabajo de desarrollo.
En el espacio de trabajo, haz clic en Pregúntale al agente.
En la instrucción Pregúntale al agente que aparece, ingresa una instrucción en lenguaje natural para generar una canalización de datos, por ejemplo:
Create dimension tables for a taxi trips star schema from new_york_taxi_trips.tlc_green_trips_2022. Generate surrogate keys and all the descriptive attributes.Después de ingresar una instrucción, haz clic en Enviar.
Después de que se envía tu instrucción, el agente de ingeniería de datos genera una canalización de datos y modifica los archivos SQLX de Dataform según tu instrucción. El agente aplica estos cambios directamente a los archivos de tu espacio de trabajo.
Edita una canalización de datos
Para editar tu canalización de datos, haz clic en Pregúntale al agente y, luego, ingresa una instrucción que sugiera un cambio en la canalización de datos.
Revisa los cambios propuestos por el agente de ingeniería de datos y, luego, haz clic en Aplicar para aplicarlos.
También puedes editar una consulta de SQLX de forma manual. Para ello, selecciona un nodo de canalización y, luego, haz clic en Abrir.
Revisa una canalización de datos
Puedes hacer clic en un nodo de canalización en una canalización de datos generada por el agente de ingeniería de datos para revisarlo.
- En la pestaña Configuration, se muestra la consulta en SQLX generada asociada al nodo.
- En la pestaña Vista previa de los datos, se muestran las tablas de entrada y salida del archivo. Para obtener una vista previa de la transformación de datos a través de este nodo, haz clic en Ejecutar tarea para ejecutar la tarea con o sin dependencias.
Soluciona problemas de errores en la canalización de datos
Si encuentras algún error durante la generación de la canalización de datos, verifica que hayas completado todos los requisitos previos para ejecutar el Agente de ingeniería de datos. Para obtener más información, consulta Antes de comenzar.
Si la canalización de datos encuentra errores durante la ejecución, puedes pedirle al agente de ingeniería de datos que diagnostique las fallas y proponga recomendaciones para solucionar los problemas. El agente de ingeniería de datos se integra con las investigaciones de Gemini Cloud Assist para ejecutar un análisis de causa raíz y sugerir recomendaciones para solucionar problemas.
Puedes usar el Agente de ingeniería de datos para solucionar problemas de errores en la canalización de datos con los siguientes pasos:
- En tu canalización o espacio de trabajo de desarrollo, haz clic en la pestaña Ejecuciones.
En la lista de ejecuciones, busca la ejecución fallida de la canalización de datos. Puedes identificar las ejecuciones fallidas en la columna Estado.
Coloca el cursor sobre el ícono y, luego, haz clic en Investigar. El agente de ingeniería de datos ejecuta un análisis de la causa raíz (RCA) en la ejecución de tu canalización de datos para detectar errores.
Una vez que se completa el análisis, el agente de Ingeniería de datos genera un informe en la sección Observaciones e hipótesis. El informe incluye lo siguiente:
- Son las observaciones y los puntos de datos que se extraen de los registros de ejecución de la canalización de datos.
- Son las causas probables del error.
- Conjunto de pasos prácticos o recomendaciones para resolver el problema identificado.
Con el informe de solución de problemas del agente de ingeniería de datos, puedes implementar las recomendaciones de forma manual. También puedes indicarle al agente de ingeniería de datos que aplique la corrección por ti siguiendo estos pasos:
- Copia las sugerencias del informe de solución de problemas.
- Vuelve al agente de ingeniería de datos:
- Si usas canalizaciones de BigQuery, ve a la página de tus canalizaciones y, luego, haz clic en Preguntar al agente.
- Si usas Dataform, haz clic en Pregúntale al agente.
- Pega las sugerencias en la instrucción y, luego, indícale al agente de ingeniería de datos que realice las correcciones directamente en tu canalización de datos.
- Haz clic en Enviar.
Funciones y personalizaciones adicionales del agente
En las siguientes secciones, se describen las capacidades adicionales del agente y otros métodos para personalizar el Agente de Ingeniería de Datos.
Crea instrucciones para el agente
Las instrucciones del agente son instrucciones en lenguaje natural para el agente de ingeniería de datos que te permiten almacenar instrucciones persistentes para que el agente siga un conjunto de reglas personalizadas predefinidas. Usa instrucciones del agente si deseas que los resultados del agente sean coherentes en toda tu organización, por ejemplo, con convenciones de nomenclatura o para aplicar una guía de estilo.
Puedes crear un archivo de contexto GEMINI.MD como archivo de instrucciones del agente de Data Engineering Agent. Puedes crear archivos de instrucciones del agente para usarlos en tu espacio de trabajo local o usar los mismos archivos de instrucciones en varias canalizaciones de datos con un repositorio externo.
Para crear instrucciones del agente, haz lo siguiente:
- En Preguntar al agente, haz clic en Instrucciones de canalización.
- En el panel Instrucciones para la canalización, haz clic en Crear archivo de instrucciones.
En el archivo
GEMINI.MDque aparece, ingresa tus instrucciones en lenguaje natural.En el siguiente ejemplo, se muestra un archivo de instrucciones del agente con varias reglas:
1. All event-specific tables MUST be prefixed with `cs_event_`. 2. The primary key for any player activity table is a composite key of `player_id` and `event_timestamp_micros`. 3. Filter out any player actions where `mana_spent` is greater than `max_mana_pool`. This is considered a data anomaly.Haz clic en Guardar.
Para obtener información sobre la mejor manera de estructurar los archivos de instrucciones del agente, consulta Prácticas recomendadas para los archivos de instrucciones del agente.
Carga instrucciones del agente desde un repositorio externo
Para reutilizar un conjunto de instrucciones del agente en varias canalizaciones de datos, vincula un repositorio externo:
- En Preguntar al agente, haz clic en Instrucciones de canalización.
- En Repositorio externo, selecciona Usar instrucciones del repositorio externo.
- En los campos proporcionados, especifica un repositorio que contenga instrucciones del agente que desees usar con tu canalización de datos.
- Haz clic en Guardar.
Importa archivos locales adicionales como instrucciones para el agente
También puedes importar otros archivos de instrucciones para el agente de ingeniería de datos en el archivo GEMINI.md con la sintaxis @file.md. Para obtener más información, consulta Procesador de importación de memoria.
Tratamiento automático de datos
Puedes usar el agente de ingeniería de datos para transformar datos sin procesar en tablas estructuradas aptas para el análisis de datos. Cuando se solicita, el agente primero toma muestras de hasta 1,000,000 de registros de cada tabla estándar o externa. Luego, el agente realiza un análisis de datos detallado ejecutando consultas de creación de perfiles en esta muestra. Después de generar transformaciones de datos, el agente repite este proceso de muestreo y creación de perfiles para evaluar la calidad de las transformaciones. Estas transformaciones de preparación de datos pueden incluir la corrección de inconsistencias, valores atípicos o discrepancias de tipos de datos. Luego, el agente de Ingeniería de datos crea un plan que describe los pasos de organización de datos propuestos para que los revises y definas antes de que se realice cualquier acción.
El agente de Ingeniería de datos también inicia el análisis de preparación de datos cada vez que agregas una tabla sin procesar, como una tabla externa basada en CSV. Puedes revisar el plan de organización de datos y ajustarlo con comandos de conversación.
El muestreo y la creación de perfiles de datos usan recursos de BigQuery y están sujetos a los precios de BigQuery.
El Agente de ingeniería de datos admite las siguientes transformaciones de preparación de datos:
- Limpieza de datos El agente puede analizar datos sin procesar y sugerir oportunidades de limpieza, como quitar valores atípicos, completar valores faltantes o incoherentes (imputación de datos), corregir datos duplicados o estandarizar formatos de datos (por ejemplo, números de teléfono o direcciones).
- Transformaciones estructurales Cuando se proporciona un esquema de destino, el agente puede anular el anidamiento o extraer valores de los tipos
JSON,ARRAYoSTRUCT; combinar varias columnas en una; o dividir una columna en varias. - Detección y conversión de tipos de datos El agente puede analizar los datos para determinar los tipos de campos adecuados. Luego, el agente puede realizar una conversión de tipo segura para resolver cualquier inconsistencia de formato en los campos de fecha, hora, fecha y hora o marca de tiempo.
- Conversiones de unidades El agente puede convertir automáticamente varias unidades dentro de un campo en una unidad coherente para estandarizar tus datos.
Para garantizar la precisión, el agente usa muestras representativas de tus datos para detectar problemas y validar su lógica de transformación.
Genera y revisa planes de agentes
El agente de ingeniería de datos puede generar planes de agentes que proporcionan un resumen y una descripción general de los objetivos y los pasos que se deben seguir para completar una solicitud. Cuando le pidas al agente que realice solicitudes complejas que requieran muchos cambios, te recomendamos que le pidas que te proporcione un plan para que puedas revisar sus intenciones antes de que realice cualquier acción. En general, un plan del Agente de ingeniería de datos consta de lo siguiente:
- El objetivo del agente para una solicitud en particular
- Una descripción general de alto nivel de los pasos que el agente planea seguir
- Las suposiciones que hace el agente
- Archivos que el agente planea modificar
- Cualquier paso de optimización o limpieza que planee realizar
- Un plan de ejecución por fases
En tu instrucción, puedes incluir la necesidad de revisar y aprobar el plan para que el agente no realice ninguna acción sin tu aprobación explícita. Por ejemplo:
Create a plan for a pipeline that finds the top N pick up and drop off locations in NYC. I want to review the plan and approve it before you create the pipeline.
El agente también podría generar un plan automáticamente y solicitar tu aprobación. Este resultado puede ocurrir cuando una instrucción es demasiado ambigua o si el agente necesita más claridad para cumplir con tu solicitud.
Para conocer las prácticas recomendadas sobre el uso de planes de agentes, consulta Prácticas recomendadas.
Agregar contexto desde Knowledge Catalog
El Agente de ingeniería de datos usa Knowledge Catalog adjuntando términos del glosario a las tablas y columnas de BigQuery, y generando análisis de perfiles de datos. Los términos del glosario pueden etiquetar columnas que requieren contexto adicional, como las que contienen información de identificación personal (PII) que requiere instrucciones especiales de manejo, o bien identificar columnas coincidentes con nombres diferentes en las tablas.
Knowledge Catalog también utiliza el perfilado de datos, que le proporciona al agente una mejor comprensión de la distribución de los datos dentro de las columnas de la tabla y lo ayuda a crear aserciones de calidad de los datos más específicas.
Agrega verificaciones de calidad de los datos a una tabla existente
Cuando le pides al agente que agregue verificaciones de calidad, este infiere verificaciones razonables para la tabla según el esquema y las muestras. También puedes agregar aserciones basadas en opiniones como parte de la instrucción. Por ejemplo:
Add data quality checks for bigquery-public-data.thelook_ecommerce.users.
Optimiza las canalizaciones de datos
Puedes solicitarle al agente que optimice tus canalizaciones de datos. Cuando se genera DDL para tablas nuevas, el agente de Ingeniería de datos recomienda la partición y la agrupación en clústeres según los patrones de uso de datos analizados. Además, el agente puede aplicar automáticamente otras optimizaciones de la canalización. Estos son algunos ejemplos de posibles optimizaciones:
- Eliminación de columnas para reducir la lectura de datos del almacenamiento y actuar como un factor principal de costos y rendimiento.
- Envío de predicados para filtrar los datos en una etapa temprana del plan de ejecución y reducir significativamente el volumen procesado por las operaciones posteriores
- Eliminación de subexpresiones comunes para mejorar la eficiencia, ya que identifica y calcula la lógica de transformación compartida solo una vez, lo que evita prácticas ineficientes, como analizar y unir tablas grandes varias veces.
- Modelos incrementales para procesar solo los datos nuevos o modificados desde la última ejecución, en lugar de volver a compilar tablas completas con cada ejecución
Ejemplos de instrucciones
En las siguientes secciones, se proporcionan ejemplos de instrucciones que puedes usar con el agente de ingeniería de datos para desarrollar tu canalización de datos.
Agrega datos existentes en una tabla nueva
Con esta instrucción, el agente de ingeniería de datos usa el esquema y las muestras para inferir el agrupamiento de datos por clave. Por lo general, el agente configura una nueva tabla con descripciones de tablas y columnas.
Create a daily sales report from the
bigquery-public-data.thelook_ecommerce.order_items table into a
reporting.daily_sales_aggregation table.
Crea una nueva columna derivada y agrega verificaciones de calidad de los datos a la tabla nueva
Esta instrucción muestra cómo agregar una tabla y una columna, y especificar verificaciones de calidad para la tabla al mismo tiempo:
Create a new table named staging.products from
bigquery-public-data.thelook_ecommerce.products and add a calculated column
named gross_profit, which is the retail_price minus the cost.
Also, add the following assertions: ID must not be null and must be unique.
The retail_price must be greater than or equal to the cost. The department
column can only contain 'Men' or 'Women'.
Crea UDF como parte de la definición del modelo
El agente de ingeniería de datos también puede configurar el DDL para crear funciones definidas por el usuario (UDF). Si bien el agente no creará la UDF, puedes hacerlo ejecutando la canalización de datos. Estas UDF se pueden usar en las definiciones de modelos de tu canalización de datos.
Create a user-defined function (UDF) named get_age_group that takes an integer
age as input and returns a string representing the age group ('Gen Z',
'Millennial', 'Gen X', 'Baby Boomer').
Use this UDF on the age column from the
bigquery-public-data.thelook_ecommerce.users table to create a new view called
reporting.user_age_demographics that includes user_id, age, and the calculated
age_group.
Prácticas recomendadas
Para mejorar los resultados cuando trabajes con Data Engineering Agent y Dataform, te recomendamos que hagas lo siguiente:
Usa instrucciones del agente para solicitudes comunes. Si sueles aplicar ciertas técnicas o si con frecuencia realizas las mismas correcciones al agente, usa las instrucciones del agente como una ubicación centralizada para almacenar instrucciones y solicitudes comunes.
Utiliza planes de agentes. Los planes de agentes pueden ser útiles para desglosar tareas complejas de la canalización. Los planes del agente también pueden mostrarte las suposiciones y las intenciones del agente, por lo que te recomendamos que revises esos planes para asegurarte de que se le proporcione el contexto correcto.
Después de revisar un plan, puedes editarlo solicitándole al agente de ingeniería de datos comentarios y cambios. Por ejemplo:
In the plan, ensure that all of the intermediate tables are views.
En algunos casos, puede ser útil pedirle al agente que genere un plan que no necesite tu aprobación explícita. El hecho de hacer que el agente planifique obliga al agente de ingeniería de datos a desglosar sus acciones, lo que a menudo genera mejores resultados. Puedes obligar al agente a generar un plan y ejecutarlo automáticamente. Por ejemplo:
Create a plan for a pipeline that finds the
top N pick up and drop off locations in NYC. You have my explicit pre-approval
to go ahead and execute this plan.
Escribe con claridad. Expresa tu solicitud con claridad y evita ser impreciso. Cuando sea posible, proporciona fuentes de datos de origen y destino cuando realices la solicitud, como se muestra en el siguiente ejemplo:
Extract data from the sales.customers table in the us_west_1 region, and load
it into the reporting.dim_customers table in BigQuery. Match the schema of the
destination table.
Proporciona solicitudes directas y con alcance. Haz una pregunta a la vez y mantén las instrucciones concisas. En el caso de las instrucciones con más de una pregunta, enumera cada parte distinta de la pregunta para mejorar la claridad, como se muestra en el siguiente ejemplo:
1. Create a new table named staging.events_cleaned. Use raw.events as the
source. This new table should filter out any records where the user_agent
matches the pattern '%bot%'. All original columns should be included.
2. Next, create a table named analytics.user_sessions. Use
staging.events_cleaned as the source. This table should calculate the
duration for each session by grouping by session_id and finding the
difference between the MAX(event_timestamp) and MIN(event_timestamp).
Proporciona instrucciones explícitas y enfatiza los términos clave. Puedes agregar énfasis a los términos o conceptos clave en tus instrucciones y etiquetar ciertos requisitos como importantes, como se muestra en el siguiente ejemplo:
When creating the staging.customers table, it is *VERY IMPORTANT* that you
transform the email column from the source table bronze.raw_customers.
Coalesce any NULL values in the email column to an empty string ''.
Especifica el orden de las operaciones. En el caso de las tareas ordenadas, estructura tu instrucción en listas, en las que los elementos enumerados se dividan en pasos pequeños y enfocados, como se muestra en el siguiente ejemplo:
Create a pipeline with the following steps:
1. Extract data from the ecomm.orders table.
2. Join the extracted data with the marts.customers table on customer_id.
3. Load the final result into the reporting.customer_orders table.
Define mejor e itera. Sigue probando diferentes frases y enfoques para ver cuál genera los mejores resultados. Si el agente genera código SQL no válido o comete otros errores, guíalo con ejemplos o documentación pública.
The previous query was incorrect because it removed the timestamp. Please
correct the SQL. Use the TIMESTAMP_TRUNC function to truncate the
event_timestamp to the nearest hour, instead of casting it as a DATE. For
example: TIMESTAMP_TRUNC(event_timestamp, HOUR).
Prácticas recomendadas para usar archivos de instrucciones del agente
Crea archivos de instrucciones del agente para personalizar el Agente de ingeniería de datos y adaptarlo a tus necesidades. Cuando uses instrucciones del agente, te recomendamos que sigas estas indicaciones:
- Todas las rutas de acceso a los archivos en Dataform son relativas a la raíz del repositorio. Usa rutas relativas para cualquier sintaxis de
@file.mdpara importar correctamente las instrucciones aGEMINI.md. - Los archivos importados en
GEMINI.mdpueden contener importaciones, lo que puede crear una estructura anidada. Para evitar la recursión infinita,GEMINI.mdtiene una profundidad máxima de importación de cinco niveles. - Para compartir instrucciones entre canalizaciones de datos, almacénalas en un repositorio central de Dataform y vincúlalas al repositorio de Dataform en funcionamiento. Puedes usar instrucciones locales para anular las reglas centrales en relación con el comportamiento específico de la canalización.
- Para garantizar la coherencia en tu proyecto, puedes vincular archivos de convenciones de nomenclatura o guías de estilo, y darle instrucciones al agente para que siga estos lineamientos cuando trabaje con tus canalizaciones de datos.
- Puedes sugerir capas de datos en el archivo de instrucciones para agrupar diferentes tipos de datos.
- Usar encabezados y listas en el archivo de instrucciones del agente puede ayudar a organizar y aclarar las instrucciones para el agente de Ingeniería de datos.
- Proporciona nombres de archivo significativos y agrupa instrucciones similares en un archivo. Organiza las reglas de forma lógica por categoría, función o funcionalidad con encabezados de Markdown.
- Para evitar instrucciones contradictorias, define claramente las condiciones específicas en las que se aplica cada instrucción.
- Itera y define mejor tus instrucciones y tu flujo de trabajo. El comportamiento del agente cambia con el tiempo a medida que se lanzan agentes y se actualizan los modelos, por lo que te recomendamos que realices iteraciones en tus reglas con diferentes instrucciones para identificar las áreas que podrían necesitar mejoras. Mantén tu archivo de reglas sincronizado con cualquier cambio en tu canalización de datos.
En el siguiente ejemplo, se muestra un archivo de instrucciones del agente llamado GEMINI.md que utiliza nuestras prácticas recomendadas para el uso eficaz del agente de Ingeniería de datos:
### Naming Conventions
* Datasets: [business_domain]_[use_case] (e.g., ecommerce_sales)
* Tables:
- Raw/External: raw_[source_name]
- Staging: stg_[business_entity]
- Dimension: dim_[dimension_name]
- Fact: fct_[fact_name]
* Dataform Folders:
- sources
- staging
- marts
- dataProducts
* Views: vw_[view_name]
* Columns: snake_case (e.g., order_id, customer_name)
## Cloud Storage data load
* When ingesting data from Cloud Storage, create external tables.
## Null handling
* Filter out null id values
## String normalization
* Standardize string columns by converting to lower case
## Data Cleaning Guidelines
@./generic_cleaning.md