Introducción a la administración de datos en BigQuery

BigQuery tiene capacidades de administración integradas que simplifican la forma en que descubres, administras, supervisas, controlas y usas tus recursos de datos y de IA.

Los administradores, los administradores de datos, los administradores de administración de datos y los custodios de datos pueden usar las capacidades de administración en BigQuery para realizar las siguientes acciones:

  • Descubre datos.
  • Seleccionar datos
  • Recopila y enriquece metadatos.
  • Administrar la calidad de los datos
  • Garantizar que los datos se usen de forma coherente y de conformidad con las políticas de la organización
  • Compartir datos a gran escala y de forma segura

Las capacidades de administración de BigQuery están potenciadas por Dataplex Universal Catalog, un inventario centralizado de todos los recursos de datos de tu organización. Dataplex Universal Catalog contiene metadatos operativos, técnicos y comerciales para todos tus datos. Te ayuda a descubrir relaciones y semántica en los metadatos aplicando inteligencia artificial y aprendizaje automático.

El metastore de BigLake te permite usar varios motores de procesamiento de datos para consultar una sola copia de datos con un solo esquema, sin duplicación de datos. Entre los motores de procesamiento de datos que puedes usar, se incluyen BigQuery, Apache Spark, Apache Flink y Apache Hive. Tus datos se pueden almacenar en ubicaciones como tablas de almacenamiento de BigQuery, tablas de BigLake para Apache Iceberg en BigQuery o tablas externas de BigLake.

BigQuery admite un ciclo de vida de los datos de extremo a extremo, desde el descubrimiento hasta el uso de los datos. Las funciones de administración también están disponibles en Dataplex Universal Catalog.

Detección de datos

BigQuery descubre datos en toda la organización en Trusted Cloud by S3NS, ya sea que los datos estén en BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. Los metadatos se extraen y almacenan automáticamente en Dataplex Universal Catalog. Por ejemplo, puedes extraer metadatos de datos estructurados y no estructurados de Cloud Storage, y puedes crear automáticamente tablas de BigLake listas para la consulta a gran escala. Esto te permite realizar análisis con un motor de código abierto sin duplicar los datos.

También puedes extraer y catalogar metadatos de fuentes de datos externas con conectores personalizados.

BigQuery ofrece las siguientes capacidades de descubrimiento de datos:

  • Búsqueda. Busca recursos de datos y de IA en todos los proyectos y en la organización. En BigQuery en la consola de Trusted Cloud , usa la búsqueda semántica (versión preliminar) para buscar recursos con lenguaje cotidiano. También puedes encontrar recursos con la búsqueda por palabras clave en Dataplex Universal Catalog.
  • Detección automática de datos de Cloud Storage. Analiza los datos en los buckets de Cloud Storage para extraer y, luego, catalogar los metadatos. El descubrimiento automático crea tablas para datos estructurados y no estructurados.
  • Importación de metadatos. Importa metadatos a gran escala desde sistemas de terceros a Dataplex Universal Catalog. Puedes compilar conectores personalizados para extraer datos de tus fuentes de datos y, luego, ejecutar canalizaciones de conectividad administradas que coordinen el flujo de trabajo de importación de metadatos.
  • Exportación de metadatos. Exporta metadatos a gran escala desde Dataplex Universal Catalog. Puedes analizar los metadatos exportados con BigQuery o integrarlos en aplicaciones personalizadas o flujos de trabajo de procesamiento programático.

Administración y selección de datos

Para mejorar la detección y la usabilidad de los datos, los administradores y los responsables de los datos pueden usar BigQuery para revisar, actualizar y analizar los metadatos. Las capacidades de administración y curación de datos de BigQuery te ayudan a garantizar que tus datos sean precisos, coherentes y estén alineados con las políticas de tu organización.

BigQuery ofrece las siguientes capacidades de administración y curación de datos:

  • Glosario empresarial. Mejora el contexto, la colaboración y la búsqueda definiendo la terminología de tu organización en un glosario. Identifica a los administradores de datos para los términos y adjunta términos a los campos de recursos de datos.
  • Estadísticas de datos. Gemini usa metadatos para generar preguntas en lenguaje natural sobre tu tabla y las consultas en SQL para responderlas. Estas estadísticas de datos te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
  • Creación de perfiles de datos. Identifica las características estadísticas comunes de las columnas en las tablas de BigQuery para comprender y analizar tus datos de manera más eficaz.
  • Calidad de los datos. Define y ejecuta verificaciones de calidad de los datos en las tablas de BigQuery y Cloud Storage, y aplica controles de datos regulares y continuos en los entornos de BigQuery.
  • Linaje de datos. Haz un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos. BigQuery admite el linaje de datos a nivel de la tabla y la columna.

Próximos pasos para la selección y administración de datos

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de administración y curación de datos:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
Usuarios con experiencia en la nube

Seguridad y control de acceso

La administración de acceso a los datos es el proceso de definir, aplicar y supervisar las reglas y políticas que controlan quién tiene acceso a los datos. La administración de acceso garantiza que solo quienes están autorizados para acceder a los datos tengan acceso a ellos.

BigQuery ofrece las siguientes capacidades de seguridad y control de acceso:

  • Identity and Access Management (IAM). IAM te permite controlar quién tiene acceso a tus recursos de BigQuery, como proyectos, conjuntos de datos, tablas y vistas. Puedes otorgar roles de IAM a usuarios, grupos y cuentas de servicio. Estos roles definen lo que pueden hacer con tus recursos.
  • Controles de acceso a nivel de columna y controles de acceso a nivel de fila. Los controles de acceso a nivel de columna y a nivel de fila te permiten restringir el acceso a columnas y filas específicas en una tabla, según los atributos de usuario o los valores de datos. Este control te permite implementar un acceso detallado para ayudar a proteger los datos sensibles del acceso no autorizado.
  • Administración de transferencia de datos. Los Controles del servicio de VPC te permiten crear perímetros alrededor de los recursos de Trusted Cloudy controlar el acceso a esos recursos según las políticas de tu organización.
  • Registros de auditoría. Los registros de auditoría te proporcionan un registro detallado de la actividad del usuario y los eventos del sistema en tu organización. Estos registros te ayudan a aplicar políticas de administración de datos y a identificar posibles riesgos de seguridad.
  • Enmascaramiento de datos. El enmascaramiento de datos te permite ocultar los datos sensibles en una tabla, a la vez que permite que los usuarios autorizados accedan a los datos que los rodean. El enmascaramiento de datos también puede ocultar datos que coincidan con patrones de datos sensibles, lo que brinda protección contra la divulgación accidental de datos.
  • Encriptación. BigQuery encripta de forma automática todos los datos en reposo y en tránsito, a la vez que te permite personalizar la configuración de encriptación para que cumpla con tus requisitos específicos.

Próximos pasos para la seguridad y el control de acceso

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de control de acceso:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
Usuarios con experiencia en la nube

Datos y estadísticas compartidos

BigQuery te permite compartir datos y estadísticas a gran escala dentro de los límites organizacionales y entre ellos. Cuenta con un sólido marco de seguridad y privacidad a través de una plataforma de intercambio de datos integrada. Con el uso compartido de BigQuery, puedes descubrir, acceder y consumir una biblioteca de datos seleccionada por una amplia variedad de proveedores de datos.

BigQuery ofrece las siguientes capacidades de uso compartido:

  • Comparte más que datos. Puedes compartir una amplia variedad de recursos de datos y de IA, como conjuntos de datos, tablas, vistas, transmisiones en tiempo real con temas de Pub/Sub, procedimientos almacenados de SQL y modelos de BigQuery ML.
  • Accede a los conjuntos de datos de Google. Mejora tus iniciativas de estadísticas y AA con los conjuntos de datos de Google de las tendencias de búsqueda, los modelos de DeepMind WeatherNext, Google Maps Platform, Google Earth Engine y mucho más.
  • Integrar principios de administración de datos. Los propietarios de los datos conservan el control sobre ellos y pueden definir y configurar reglas o políticas para restringir el acceso y el uso.
  • Uso compartido de datos en vivo y sin copias. Los datos se comparten en el lugar sin necesidad de integración, movimiento ni replicación, lo que garantiza que el análisis se base en la información más reciente. Los conjuntos de datos vinculados que se crean son un puntero activo al activo compartido.
  • Mejora la postura de seguridad. Puedes usar los controles de acceso para reducir el acceso con exceso de aprovisionamiento, incluido el soporte integrado de los Controles del servicio de VPC.
  • Aumenta la visibilidad con las métricas de uso del proveedor. Los publicadores de datos pueden ver y supervisar el uso de los recursos compartidos, como la cantidad de trabajos ejecutados, el total de bytes analizados y los suscriptores de cada organización.
  • Colabora en datos sensibles con salas limpias de datos. Las salas limpias de datos proporcionan un entorno con seguridad mejorada en el que varias partes pueden compartir, unir y analizar sus recursos de datos sin mover ni revelar los datos subyacentes.
  • Creado con BigQuery. Puedes aprovechar la escalabilidad y las capacidades de procesamiento masivo de BigQuery, lo que permite colaboraciones a gran escala.

Próximos pasos para compartir

En la siguiente tabla, se describen los próximos pasos que puedes seguir para obtener más información sobre las funciones de uso compartido:

Nivel de experiencia Ruta de aprendizaje
Usuarios nuevos en la nube
  • Aprende a crear y administrar intercambios y fichas para comenzar a compartir contenido dentro o fuera de tu organización.
Usuarios con experiencia en la nube

¿Qué sigue?