BigQuery 概览
BigQuery 是一个 AI 就绪型全托管式数据平台,可帮助您使用机器学习、搜索、地理空间分析和商业智能等内置功能管理和分析数据。 BigQuery 的无服务器架构可让您使用 SQL 和 Python 等语言来解决组织面临的最大问题,而无需管理基础设施。
BigQuery 提供了一种统一的方式来处理结构化和非结构化数据,并支持 Apache Iceberg、Delta 和 Hudi 等开放表格式。BigQuery 流式传输支持持续的数据注入和分析,而 BigQuery 的可扩缩、分布式分析引擎可让您在几秒钟内查询 TB 级数据,在几分钟内查询 PB 级数据。
BigQuery 提供内置的治理功能,可让您发现和整理数据,以及管理元数据和数据质量。通过语义搜索和数据沿袭等功能,您可以查找和验证相关数据以进行分析。您可以通过访问权限控制功能在整个组织内共享数据和 AI 资产。这些功能由 Dataplex Universal Catalog 提供支持,它是 Trusted Cloud中数据和 AI 资产的统一智能治理解决方案。
BigQuery 的架构由两部分组成:一个用于注入、存储和优化数据的存储层,一个用于提供分析功能的计算层。得益于 Google 的 PB 级网络能够在这些计算层和存储层之间实现必要的通信,它们可以彼此独立地高效运行。
传统数据库通常必须在读写操作和分析操作之间共享资源。这可能会导致资源冲突,并且在将数据写入存储空间或从存储空间读取数据时,可能会降低查询速度。当需要资源来执行数据库管理任务(例如分配或撤消权限)时,共享资源池可能会进一步紧张。BigQuery 的计算层和存储层分离可让每一层动态分配资源,而不会影响另一层的性能或可用性。
这种分离原则可让 BigQuery 加快创新速度,因为存储和计算改进可以独立部署,而不会造成停机或对系统性能产生负面影响。此外,还必须提供全托管式无服务器数据仓库,以供 BigQuery 工程团队处理更新和维护。这样一来,您无需预配或手动扩缩资源,便可以专注于提供价值,而不是专注于传统的数据库管理任务。
BigQuery 界面包括 Trusted Cloud 控制台界面和 BigQuery 命令行工具。开发者和数据科学家可以将客户端库与熟悉的编程语言(包括 Python、Java、JavaScript 和 Go)以及 BigQuery 的 REST API 和 RPC API 搭配使用,以转换和管理数据。ODBC 和 JDBC 驱动程序可与现有应用(包括第三方工具和实用程序)进行交互。
作为数据分析师、数据工程师、数据仓库管理员或数据科学家,BigQuery 可帮助您加载、处理和分析数据,从而做出关键业务决策。
BigQuery 使用入门
只需几分钟即可开始探索 BigQuery。利用 BigQuery 的免费用量层级或免费沙盒开始加载和查询数据。
- BigQuery 沙盒:开始使用 BigQuery 沙盒,无风险且免费。
- Trusted Cloud 控制台快速入门:熟悉 BigQuery Studio 的强大功能。
- 公共数据集:通过浏览公共数据集计划中的大型真实数据,体验 BigQuery 的性能。
探索 BigQuery
BigQuery 的无服务器基础架构让您可以专注于数据而不是资源管理。BigQuery 结合了云端数据仓库和强大的分析工具。
BigQuery 存储
BigQuery 使用针对分析查询进行了优化的列式存储格式来存储数据。BigQuery 在表、行和列中显示数据,并完全支持数据库事务语义 (ACID)。BigQuery 存储会自动跨多个位置进行复制,以提供高可用性。
- 了解数据仓库和数据集市中 BigQuery 资源的常见组织模式。
- 了解数据集,这是 BigQuery 的表和视图的顶层容器。
- 使用以下方式将数据加载到 BigQuery 中:
如需了解详情,请参阅 BigQuery 存储概览。
BigQuery 分析
描述性分析和规范性分析使用包括商业智能、临时性分析、地理空间分析和机器学习。您可以使用外部表或联合查询(包括存储在 Google 云端硬盘中的 Cloud Storage、Bigtable、Spanner 或 Google 表格)查询存储在 BigQuery 中的数据,或查询数据位于何处。
- ANSI 标准 SQL 查询(SQL:2011 支持),其中包括对联接、嵌套和重复字段、分析和聚合函数、多语句查询以及包含地理空间分析的各种空间函数(地理信息系统)的支持。
- 创建视图以共享您的分析。
- 商业智能工具支持,包括Google 表格以及 Tableau 和 Power BI 等第三方工具。
- BigQuery ML 提供机器学习和预测分析。
- BigQuery Studio 为 Python 笔记本和已保存的查询提供了 Python 笔记本和版本控制等功能。这些功能让您可更轻松地在 BigQuery 中完成数据分析和机器学习 (ML) 工作流。
- 使用 和外部表来查询 BigQuery 外部的数据。
如需了解详情,请参阅 BigQuery 分析概览。
BigQuery 管理
BigQuery 可集中管理数据和计算资源,而 Identity and Access Management (IAM) 可帮助您利用 Trusted Cloud by S3NS中所用的访问模型来保护这些资源。
- 数据安全和治理简介可帮助您了解数据治理,以及可能需要采取哪些控制措施来保护 BigQuery 资源。
- 作业是 BigQuery 代表您执行的操作,用于加载、导出、查询或复制数据。
- 借助预留,您可以在按需价格和基于容量的价格之间切换。
如需了解详情,请参阅 BigQuery 管理简介。
BigQuery 资源
探索 BigQuery 资源:
- 版本说明提供功能、更改和弃用的更新日志。
- 分析和存储的价格。另请参阅:BigQuery ML、BI Engine 和 Data Transfer Service 价格。
- 位置定义了创建和存储数据集的位置(区域和多区域位置)。
- Stack Overflow 托管着一个互动社区,该社区由使用 BigQuery 的开发者和分析师组成。
- BigQuery 支持团队提供 BigQuery 方面的帮助。
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale(作者:Valliappa Lakshmanan 和 Jordan Tigani)介绍了 BigQuery 的工作原理并提供了关于如何使用该服务的端到端演示。
API、工具和参考文档
适用于 BigQuery 开发者和分析师的参考资料:
- BigQuery API 和客户端库概述了 BigQuery 的功能及其用法。
- DML语法允许您管理和转换 BigQuery 数据。
- bq 命令行工具参考文档记录了
bq
CLI 的语法、命令、标志和参数。 - ODBC/JDBC 集成将 BigQuery 连接到您现有的工具和基础架构。
后续步骤
- 如需大致了解 BigQuery 存储空间,请参阅 BigQuery 存储空间概览。
- 如需大致了解 BigQuery 查询,请参阅 BigQuery 分析概览。
- 如需大致了解 BigQuery 管理,请参阅 BigQuery 管理简介。
- 如需大致了解 BigQuery 安全性,请参阅数据安全和治理概览。