Pengantar tata kelola data di BigQuery

BigQuery memiliki kemampuan tata kelola bawaan yang menyederhanakan cara Anda menemukan, mengelola, memantau, mengatur, dan menggunakan aset data dan AI.

Administrator, pengelola data, pengelola tata kelola data, dan kustodian data dapat menggunakan kemampuan tata kelola di BigQuery untuk melakukan hal berikut:

  • Temukan data.
  • Seleksi data.
  • Mengumpulkan dan memperkaya metadata.
  • Mengelola kualitas data.
  • Pastikan data digunakan secara konsisten dan sesuai dengan kebijakan organisasi.
  • Bagikan data dalam skala besar dan dengan cara yang aman.

Kemampuan tata kelola BigQuery didukung oleh Dataplex Universal Catalog, inventaris terpusat dari semua aset data di organisasi Anda. Dataplex Universal Catalog menyimpan metadata bisnis, teknis, dan operasional untuk semua data Anda. Fitur ini membantu Anda menemukan hubungan dan semantik dalam metadata dengan menerapkan kecerdasan buatan dan machine learning.

Metastore BigLake memungkinkan Anda menggunakan beberapa mesin pemrosesan data untuk membuat kueri satu salinan data dengan satu skema, tanpa duplikasi data. Mesin pemrosesan data yang dapat Anda gunakan mencakup BigQuery, Apache Spark, Apache Flink, dan Apache Hive. Data Anda dapat disimpan di lokasi seperti tabel penyimpanan BigQuery, tabel BigLake untuk Apache Iceberg di BigQuery, atau tabel eksternal BigLake.

BigQuery mendukung siklus proses data secara menyeluruh, mulai dari penemuan hingga penggunaan data. Fitur tata kelola juga tersedia di Dataplex Universal Catalog.

Penemuan data

BigQuery menemukan data di seluruh organisasi di Trusted Cloud by S3NS, baik data tersebut ada di BigQuery, Spanner, Cloud SQL, Pub/Sub, atau Cloud Storage. Metadata akan otomatis diekstrak dan disimpan di Dataplex Universal Catalog. Misalnya, Anda dapat mengekstrak metadata untuk data terstruktur dan tidak terstruktur dari Cloud Storage, dan Anda dapat membuat tabel BigLake yang siap kueri secara otomatis dalam skala besar. Dengan demikian, Anda dapat melakukan analisis dengan mesin open source tanpa duplikasi data.

Anda juga dapat mengekstrak dan membuat katalog metadata dari sumber data pihak ketiga menggunakan konektor kustom.

BigQuery menawarkan kemampuan penemuan data berikut:

  • Telusuri. Telusuri data dan resource AI di seluruh project dan organisasi. Dalam BigQuery di konsol Trusted Cloud , gunakan penelusuran semantik (Pratinjau) untuk menelusuri resource dengan menggunakan bahasa sehari-hari. Atau, temukan resource dengan menggunakan penelusuran kata kunci di Dataplex Universal Catalog.
  • Penemuan otomatis data Cloud Storage. Memindai data di bucket Cloud Storage untuk mengekstrak lalu membuat katalog metadata. Penemuan otomatis membuat tabel untuk data terstruktur dan tidak terstruktur.
  • Impor metadata. Mengimpor metadata dalam skala besar dari sistem pihak ketiga ke Dataplex Universal Catalog. Anda dapat membuat konektor kustom untuk mengekstrak data dari sumber data, lalu menjalankan pipeline konektivitas terkelola yang mengatur alur kerja impor metadata.
  • Ekspor metadata. Mengekspor metadata dalam skala besar dari Dataplex Universal Catalog. Anda dapat menganalisis metadata yang diekspor dengan BigQuery, atau mengintegrasikan metadata ke dalam aplikasi kustom atau alur kerja pemrosesan terprogram.

Kurasi dan pengelolaan data

Untuk meningkatkan kemampuan penemuan dan kegunaan data, pengelola dan administrator data dapat menggunakan BigQuery untuk meninjau, memperbarui, dan menganalisis metadata. Kemampuan kurasi dan pengelolaan data BigQuery membantu Anda memastikan bahwa data Anda akurat, konsisten, dan selaras dengan kebijakan organisasi Anda.

BigQuery menawarkan kemampuan kurasi dan pengelolaan data berikut:

  • Glosarium bisnis. Tingkatkan konteks, kolaborasi, dan penelusuran dengan menentukan terminologi organisasi Anda dalam glosarium. Identifikasi pengelola data untuk persyaratan, dan lampirkan persyaratan ke kolom aset data.
  • Insight data. Gemini menggunakan metadata untuk membuat pertanyaan bahasa alami tentang tabel Anda dan kueri SQL untuk menjawabnya. Insight data ini membantu Anda menemukan pola, menilai kualitas data, dan melakukan analisis statistik.
  • Pembuatan profil data. Identifikasi karakteristik statistik umum kolom dalam tabel BigQuery untuk memahami dan menganalisis data Anda secara lebih efektif.
  • Kualitas data. Tentukan dan jalankan pemeriksaan kualitas data di seluruh tabel di BigQuery dan Cloud Storage, serta terapkan kontrol data reguler dan berkelanjutan di lingkungan BigQuery.
  • Urutan data. Lacak cara data berpindah melalui sistem Anda: dari mana data berasal, ke mana data diteruskan, dan transformasi apa yang diterapkan pada data. BigQuery mendukung asal-usul data di tingkat tabel dan kolom.

Langkah selanjutnya untuk kurasi dan pengelolaan data

Tabel berikut menguraikan langkah-langkah selanjutnya yang dapat Anda lakukan untuk mempelajari lebih lanjut fitur kurasi dan pengelolaan data:

Level pengalaman Jalur pembelajaran
Pengguna cloud baru
  • Jalankan pemindaian profil data untuk mendapatkan insight tentang data Anda, termasuk batas atau rata-rata data Anda.
Pengguna cloud berpengalaman

Kontrol keamanan dan akses

Pengelolaan akses data adalah proses menentukan, menerapkan, dan memantau aturan dan kebijakan yang mengatur siapa yang memiliki akses ke data. Pengelolaan akses memastikan bahwa data hanya dapat diakses oleh orang yang memiliki izin untuk mengaksesnya.

BigQuery menawarkan kemampuan keamanan dan kontrol akses berikut:

  • Identity and Access Management (IAM). IAM memungkinkan Anda mengontrol siapa yang memiliki akses ke resource BigQuery Anda, seperti project, set data, tabel, dan tampilan. Anda dapat memberikan peran IAM kepada pengguna, grup, dan akun layanan. Peran ini menentukan apa yang dapat dilakukan dengan resource Anda.
  • Kontrol akses tingkat kolom dan kontrol akses tingkat baris. Kontrol akses tingkat kolom dan tingkat baris memungkinkan Anda membatasi akses ke kolom dan baris tertentu dalam tabel, berdasarkan atribut pengguna atau nilai data. Kontrol ini memungkinkan Anda menerapkan akses terperinci untuk membantu melindungi data sensitif dari akses yang tidak sah.
  • Pengelolaan transfer data. Kontrol Layanan VPC memungkinkan Anda membuat perimeter di sekitar Trusted Cloud resource dan mengontrol akses ke resource tersebut berdasarkan kebijakan organisasi Anda.
  • Log audit. Log audit memberi Anda catatan mendetail tentang aktivitas pengguna dan peristiwa sistem di organisasi Anda. Log ini membantu Anda menerapkan kebijakan tata kelola data dan mengidentifikasi potensi risiko keamanan.
  • Penyamaran data. Penyamaran data memungkinkan Anda menyamarkan data sensitif dalam tabel sambil tetap mengizinkan pengguna yang diberi otorisasi mengakses data di sekitarnya. Penyamaran data juga dapat menyamarkan data yang cocok dengan pola data sensitif, sehingga melindungi dari pengungkapan data yang tidak disengaja.
  • Enkripsi. BigQuery otomatis mengenkripsi semua data dalam penyimpanan dan saat transit, sekaligus memungkinkan Anda menyesuaikan setelan enkripsi untuk memenuhi persyaratan spesifik Anda.

Langkah berikutnya untuk kontrol keamanan dan akses

Tabel berikut menguraikan langkah-langkah selanjutnya yang dapat Anda lakukan untuk mempelajari lebih lanjut fitur kontrol akses:

Level pengalaman Jalur pembelajaran
Pengguna cloud baru
Pengguna cloud berpengalaman
  • Untuk fleksibilitas dan perincian yang lebih baik dalam mengelola izin, pertimbangkan untuk membuat peran khusus yang sesuai dengan kebutuhan Anda.
  • Tambahkan kontrol baris dan kolom untuk membantu mengontrol akses ke baris dan kolom tertentu dalam tabel Anda.
  • Buat perimeter akses di sekitar Trusted Cloud resource Anda dengan menyiapkan Kontrol Layanan VPC.
  • Tambahkan penyamaran data tingkat kolom ke tabel Anda untuk membagikan informasi di seluruh organisasi Anda tanpa mengungkapkan data sensitif.
  • Gunakan Perlindungan Data Sensitif untuk memindai data Anda guna menemukan informasi sensitif dan berisiko tinggi, seperti informasi identitas pribadi (PII), data keuangan, dan informasi kesehatan.

Data dan insight yang dibagikan

BigQuery memungkinkan Anda membagikan data dan insight dalam skala besar di dalam dan di seluruh batas organisasi. Platform ini memiliki framework keamanan dan privasi yang kuat melalui platform pertukaran data bawaan. Dengan berbagi BigQuery, Anda dapat menemukan, mengakses, dan menggunakan library data yang dikurasi oleh berbagai pilihan penyedia data.

BigQuery menawarkan kemampuan berbagi berikut:

  • Membagikan lebih dari sekadar data. Anda dapat membagikan berbagai aset data dan AI seperti set data, tabel, tampilan, dan streaming real-time BigQuery dengan topik Pub/Sub, prosedur tersimpan SQL, dan model BigQuery ML.
  • Akses set data Google. Tingkatkan inisiatif analisis dan ML Anda dengan set data Google dari Google Trends, model DeepMind WeatherNext, Google Maps Platform, Google Earth Engine, dan lainnya.
  • Terintegrasi dengan prinsip tata kelola data. Pemilik data mempertahankan kontrol atas data mereka dan memiliki kemampuan untuk menentukan dan mengonfigurasi aturan atau kebijakan untuk membatasi akses dan penggunaan.
  • Berbagi data langsung tanpa penyalinan. Data dibagikan di tempat tanpa memerlukan integrasi, perpindahan data, atau replikasi, sehingga analisis didasarkan pada informasi terbaru. Set data tertaut yang dibuat adalah penunjuk langsung ke aset bersama.
  • Meningkatkan postur keamanan. Anda dapat menggunakan kontrol akses untuk mengurangi akses yang disediakan secara berlebihan, termasuk dukungan Kontrol Layanan VPC bawaan.
  • Meningkatkan visibilitas dengan metrik penggunaan penyedia. Penerbit data dapat melihat dan memantau penggunaan aset bersama seperti jumlah tugas yang dijalankan, total byte yang dipindai, dan pelanggan untuk setiap organisasi.
  • Berkolaborasi pada data sensitif dengan ruang bersih data. Ruang bersih data menyediakan lingkungan yang ditingkatkan keamanannya tempat beberapa pihak dapat berbagi, menggabungkan, dan menganalisis aset data mereka tanpa memindahkan atau mengungkapkan data yang mendasarinya.
  • Dibuat di BigQuery. Anda dapat membangun skalabilitas dan kemampuan pemrosesan besar di BigQuery, sehingga memungkinkan kolaborasi skala besar.

Langkah berikutnya untuk berbagi

Tabel berikut menguraikan langkah-langkah selanjutnya yang dapat Anda lakukan untuk mempelajari lebih lanjut fitur berbagi:

Level pengalaman Jalur pembelajaran
Pengguna cloud baru
  • Pelajari cara membuat dan mengelola bursa iklan dan listingan untuk mulai berbagi dalam atau di luar organisasi Anda.
Pengguna cloud berpengalaman
  • Bagikan data streaming real-time dengan topik Pub/Sub.
  • Membagikan dan berkolaborasi pada data sensitif dengan ruang bersih data.
  • Lindungi lebih lanjut pemindahan data yang tidak sah dengan mengonfigurasi Kontrol Layanan VPC di sekitar aset bersama Anda.
  • Komersialkan dan jual aset Anda di Google Cloud Marketplace

Langkah berikutnya