Descripción general de BigQuery
BigQuery es una plataforma de datos completamente administrada y lista para la IA que te ayuda a administrar y analizar tus datos con funciones integradas como el aprendizaje automático, la búsqueda, el análisis geoespacial y la inteligencia empresarial. La arquitectura sin servidores de BigQuery te permite usar lenguajes como SQL y Python para responder las preguntas más importantes de tu organización sin necesidad de administrar la infraestructura.
BigQuery proporciona una manera uniforme de trabajar con datos estructurados y no estructurados, y es compatible con formatos de tablas abiertas, como Apache Iceberg, Delta y Hudi. La transmisión de BigQuery admite la transferencia y el análisis continuos de datos, mientras que el motor de análisis distribuido y escalable de BigQuery te permite consultar terabytes en segundos y petabytes en minutos.
La arquitectura de BigQuery consta de dos partes: una capa de almacenamiento que transfiere, almacena y optimiza datos, y una capa de procesamiento que proporciona capacidades de estadísticas. Estas capas de procesamiento y almacenamiento operan de forma independiente unas de otras gracias a la red de escala de petabytes de Google que permite la comunicación necesaria entre ellas.
Por lo general, las bases de datos heredadas deben compartir recursos entre las operaciones de lectura y escritura, y las operaciones analíticas. Esto puede generar conflictos de recursos y puede ralentizar las consultas mientras los datos se escriben o leen desde el almacenamiento. Los grupos de recursos compartidos pueden verse aún más entrenados cuando se necesitan recursos para las tareas de administración de bases de datos, como asignar o revocar permisos. La separación de las capas de procesamiento y almacenamiento de BigQuery permite que cada capa asigne recursos de forma dinámica sin afectar el rendimiento ni la disponibilidad de la otra.
Este principio de separación permite que BigQuery innove más rápido, ya que las mejoras de almacenamiento y procesamiento se pueden implementar de forma independiente, sin tiempo de inactividad ni impacto negativo en el rendimiento del sistema. También es esencial ofrecer un almacén de datos sin servidores completamente administrado en el que el equipo de ingeniería de BigQuery se encarga de las actualizaciones y el mantenimiento. Como resultado, no necesitas aprovisionar ni escalar de forma manual los recursos, lo que te permite enfocarte en entregar valor en lugar de las tareas tradicionales de administración de bases de datos.
Las interfaces de BigQuery incluyen la Cloud de Confiance interfaz de la consola y la herramienta de línea de comandos de BigQuery. Los desarrolladores y científicos de datos pueden usar bibliotecas cliente con programación conocida, como Python, Java, JavaScript y Go, así como la API de REST y la API de RPC de BigQuery para transformar y administrar datos. Los controladores ODBC y JDBC proporcionan interacción con las aplicaciones existentes, incluidas las herramientas y las utilidades de terceros.
Como analista de datos, ingeniero de datos, administrador de almacenes de datos o científico de datos, BigQuery te ayuda a cargar, procesar y analizar datos para tomar decisiones empresariales críticas.
Primeros pasos con BigQuery
Puedes comenzar a explorar BigQuery en minutos.
- Cloud de Confiance Guía de inicio rápido de la consola: Familiarízate con la potencia de BigQuery Studio.
Explorar BigQuery
La infraestructura sin servidores de BigQuery permite que te enfoques en los datos en lugar de la administración de recursos. BigQuery combina un almacén de datos basado en la nube y herramientas de análisis potentes.
Almacenamiento de BigQuery
BigQuery almacena datos mediante un formato de almacenamiento en columnas optimizado para consultas analíticas. BigQuery presenta datos en tablas, filas y columnas y proporciona compatibilidad total con la semántica de transacción de la base de datos (ACID). El almacenamiento de BigQuery se replica de forma automática en varias ubicaciones para proporcionar una alta disponibilidad.
- Obtén más información sobre los patrones comunes para organizar los recursos de BigQuery en el almacén de datos y los data marts.
- Obtén información sobre los conjuntos de datos, el contenedor de nivel superior de tablas y vistas de BigQuery.
- Carga datos en BigQuery con lo siguiente:
- Transmite datos con la API de Storage Write.
- Datos de carga por lotes desde archivos locales o Cloud Storage con formatos que incluyen los siguientes: Avro, Parquet, ORC, CSV, JSON.
Para obtener más información, consulta Descripción general del almacenamiento de BigQuery.
Estadísticas de BigQuery
Los usos descriptivos y prescriptivos del análisis incluyen inteligencia empresarial, análisis ad hoc, estadísticas geoespaciales y aprendizaje automático. Puedes consultar datos almacenados en BigQuery o ejecutar consultas sobre datos en su ubicación mediante tablas externas o consultas federadas, incluido Cloud Storage.
- Consultas de SQL estándar ANSI (compatibilidad con SQL:2011), incluida la compatibilidad con uniones, campos anidados y repetidos, funciones analíticas y de agregación, consultas de varias instrucciones y una variedad de funciones espaciales con estadísticas geoespaciales: sistemas de información geográfica.
- Crea vistas para compartir tu análisis.
- Compatibilidad con herramientas de inteligencia empresarial, incluidas las herramientas de terceros que usan los controladores ODBC y JDBC de Simba para BigQuery
- BigQuery ML proporciona aprendizaje automático y estadísticas predictivas.
- BigQuery Studio te facilita completar tus flujos de trabajo de análisis de datos y aprendizaje automático (AA) en BigQuery.
- Consulta datos fuera de BigQuery con tablas externas.
Para obtener más información, consulta Descripción general de las estadísticas de BigQuery.
Administración de BigQuery
BigQuery proporciona administración centralizada de recursos de datos y procesamiento, mientras que Identity and Access Management (IAM) te ayuda a proteger esos recursos con el modelo de acceso que se usa en Cloud de Confiance by S3NS.
- La introducción a la seguridad y administración de datos te ayuda a comprender la administración de datos y qué controles podrías necesitar para proteger los recursos de BigQuery.
- Los trabajos son acciones que BigQuery ejecuta en tu nombre para cargar, exportar, consultar o copiar datos.
- Las reservas te permiten cambiar entre precios según demanda y basados en capacidad.
Para obtener más información, consulta Introducción a la administración de BigQuery.
Recursos de BigQuery
Explora los recursos de BigQuery:
- Las notas de la versión proporcionan registros de cambios de funciones, cambios y bajas.
- Stack Overflow aloja una comunidad activa de desarrolladores y analistas que trabajan con BigQuery.
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale, de Valliappa Lakshmanan y Jordan Tigani, explica cómo funciona BigQuery y proporciona una explicación completa sobre cómo usar el servicio.
API, herramientas y referencias
Materiales de referencia para desarrolladores y analistas de BigQuery:
- En la API de BigQuery y las bibliotecas cliente, se presentan descripciones generales de las funciones de BigQuery y su uso.
- La sintaxis de DMLte permiten administrar y transformar tus datos de BigQuery.
- La referencia de la herramienta de línea de comandos de bq documenta la sintaxis, los comandos, las marcas y los argumentos para la interfaz de la CLI de
bq
. - La integración de ODBC/JDBC conecta BigQuery con tu infraestructura y herramientas existentes.
Funciones y recursos de BigQuery
BigQuery aborda las necesidades de los profesionales de datos en las siguientes funciones y responsabilidades.
Analista de datos
Orientación sobre las tareas para ayudarte si necesitas hacer lo siguiente:
- Consulta datos de BigQuery con consultas interactivas o por lotes mediante la sintaxis de consultas de SQL.
- Haz referencia a funciones, operadores y expresiones condicionales de SQL para consultar datos.
Usa herramientas para analizar y visualizar datos de BigQuery, incluidas Hojas de cálculo de Google.
Usa estadísticas geoespaciales para analizar y visualizar datos geoespaciales con los sistemas de información geográfica de BigQuery.
Optimiza el rendimiento de las consultas mediante lo siguiente:
- Tablas particionadas: Reduce las tablas grandes según rangos de tiempo o números enteros.
- Vistas materializadas: Define las vistas almacenadas en caché para optimizar las consultas o proporcionar resultados persistentes.
Administrador de datos
Orientación sobre las tareas para ayudarte si necesitas hacer lo siguiente:
- Administra costos con reservas para equilibrar los precios según demanda y los basados en la capacidad.
- Comprende la seguridad y la administración de los datos para proteger los datos por conjunto de datos, tabla, columna, fila o vista
- Crea una copia de seguridad de los datos con instantáneas de tabla para conservar el contenido de una tabla en un momento determinado.
- Visualiza BigQuery INFORMATION_SCHEMA para comprender los metadatos de conjuntos de datos, trabajos, control de acceso, reservas, tablas y más.
- Usa trabajos para que las cargas, exportaciones, consultas o copias de datos de BigQuery sean acciones en tu nombre.
- Supervisa registros y recursos para comprender BigQuery y las cargas de trabajo.
Para obtener más información, consulta Introducción a la administración de BigQuery.
Científico de datos
Orientación sobre tareas que te ayudarán si necesitas usar el aprendizaje automático de BigQuery ML a fin de realizar las siguientes acciones:
- Comprender el recorrido del usuario de extremo a extremo para modelos de aprendizaje automático
- Administrar el control de acceso para BigQuery ML
- Crear y entrenar modelos de BigQuery ML, que incluyen lo siguiente:
- Previsión de regresión lineal
- Clasificaciones de regresión de logística binaria y de logística multiclase
- Agrupamiento en clústeres de k-means para la segmentación de datos
- Previsión de series temporales con modelos Arima+
Desarrollador de datos
Orientación sobre las tareas para ayudarte si necesitas hacer lo siguiente:
- Carga datos en BigQuery con lo siguiente:
- Datos de carga por lotes para los formatos Avro, Parquet, ORC, CSV, JSON
- API de BigQuery Storage Write
Usar la biblioteca de muestra de código, que incluye lo siguiente:
Cloud de Confiance Navegador de muestras (con alcance para BigQuery)
¿Qué sigue?
- Obtén información sobre las diferencias entre BigQuery en Cloud de Confiance y Google Cloud.
- Si deseas obtener una descripción general del almacenamiento de BigQuery, consulta Descripción general del almacenamiento de BigQuery.
- Si deseas obtener una descripción general de las consultas de BigQuery, consulta Descripción general de las estadísticas de BigQuery.
- Para obtener una descripción general de la administración de BigQuery, consulta Introducción a la administración de BigQuery.
- Si deseas obtener una descripción general de la seguridad de BigQuery, consulta Descripción general de la seguridad y la administración de datos.