Data Insights in BigQuery generieren
Data Insights bietet eine automatische Möglichkeit, Ihre Daten zu analysieren, zu verstehen und zu kuratieren. Mit Data Insights generiert Gemini anhand von Tabellenmetadaten Fragen in natürlicher Sprache und die SQL-Abfragen, mit denen sie beantwortet werden. Mit diesen Erkenntnissen können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen ausführen.
Sie können auch Tabellen- und Spaltenbeschreibungen auf Grundlage von Tabellenmetadaten generieren lassen (Vorschau). Mit dieser Funktion können Sie Ihre Daten für aussagekräftige Analysen dokumentieren und die Auffindbarkeit von Datasets verbessern.
Auf dieser Seite werden die wichtigsten Funktionen von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.
Hinweise
Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.
Erforderliche Rollen
Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen:
Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor
) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin
) für das Projekt, in dem Sie Statistiken generieren möchten.BigQuery-Datenbetrachter (
roles/bigquery.dataViewer
) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.BigQuery-Dateneditor (
roles/bigquery.dataEditor
) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.BigQuery-Nutzer (
roles/bigquery.user
) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser
) für das Projekt, für das Sie Statistiken generieren möchten.
Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:
Erforderliche Berechtigungen
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
APIs aktivieren
Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:
Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Trusted Cloud Projekt aktivieren.
Informationen zu Data Insights
Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem. Das Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Einblicke in den Daten, was den Einstieg in das Schreiben von Abfragen erschwert.
Data Insights beheben das Kaltstartproblem, indem automatisch Abfragen in natürlicher Sprache und ihre SQL-Entsprechungen anhand der Metadaten einer Tabelle generiert werden. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten. Wenn Sie die Daten weiter untersuchen möchten, können Sie im Daten-Canvas Folgefragen stellen.
Beispiel für eine Ausführung von Statistiken
Angenommen, Sie haben eine Tabelle mit dem Namen telco_churn
mit den folgenden Metadaten:
Feldname | Typ |
---|---|
Kundennummer | STRING |
Geschlecht | STRING |
Zugehörigkeit zum Unternehmen | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Vertrag | STRING |
TechSupport | STRING |
Zahlungsmethode | STRING |
Monatliche Gebühren | FLOAT |
Abwanderung | BOOLEAN |
Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Abwanderungsraten nach Segment bei Kunden mit hohem Umsatzpotenzial ermitteln
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Best Practices zur Verbesserung der generierten Statistiken
Mit den folgenden Best Practices können Sie die Genauigkeit der generierten Statistiken verbessern:
Fundierung von Statistiken mit Ergebnissen der Datenprofilerstellung
Bei der generativen KI ist Fundierung die Fähigkeit, die Modellausgabe mit überprüfbaren Informationsquellen zu verbinden. Sie können die generierten Statistiken auf die Ergebnisse der Datenprofilerstellung stützen. Bei der Datenprofilerstellung werden die Spalten in Ihren BigQuery-Tabellen analysiert und allgemeine statistische Merkmale wie typische Datenwerte und Datenverteilung ermittelt. Wenn Sie einen Scan zur Datenprofilerstellung für eine Tabelle erstellen, können Sie die Scanergebnisse in der Trusted Cloud -Konsole auf den Seiten für BigQuery und Dataplex Universal Catalog veröffentlichen. BigQuery verwendet die Ergebnisse der Datenprofilerstellung, um genauere und relevantere Abfragen zu erstellen. Dazu wird Folgendes ausgeführt:
- Analysiert die Ergebnisse des Datenprofilings, um interessante Muster, Trends oder Ausreißer in den Daten zu identifizieren.
- Es werden Abfragen generiert, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Erkenntnisse zu gewinnen.
- Validiert die generierten Abfragen anhand der Ergebnisse der Datenprofilerstellung, um sicherzustellen, dass die Abfragen aussagekräftige Ergebnisse zurückgeben.
Ohne Scans zur Datenprofilerstellung passiert Folgendes:
- Die von Gemini generierten Anfragen enthalten mit höherer Wahrscheinlichkeit ungenaue Klauseln oder liefern sinnlose Ergebnisse.
- Die von Gemini generierten Spaltenbeschreibungen basieren nur auf dem Spaltennamen.
Achten Sie darauf, dass der Datenprofilscan für Ihre Tabelle aktuell ist und die Ergebnisse in BigQuery veröffentlicht werden.
Sie können die Einstellungen für die Datenprofilerstellung anpassen, um die Stichprobengröße zu erhöhen und Zeilen und Spalten herauszufiltern. Nachdem Sie einen neuen Datenprofilscan ausgeführt haben, generieren Sie Statistiken neu.
Tabellenbeschreibung hinzufügen
Detaillierte Tabellenbeschreibungen, in denen Sie angeben, was Sie in Ihrer Tabelle analysieren möchten, können Gemini in BigQuery helfen, relevantere Statistiken zu erstellen. Nachdem Sie eine Tabellenbeschreibung hinzugefügt haben, generieren Sie Statistiken neu.
Sie können beispielsweise die folgende Beschreibung zur Tabelle telco_churn
hinzufügen: „In dieser Tabelle werden Daten zum Kunden-Churn erfasst, einschließlich Abodetails, Laufzeit und Dienstnutzung, um das Kunden-Churn-Verhalten vorherzusagen.“
Wenn Sie die von Gemini generierte Tabellenbeschreibung speichern, verwendet Gemini diese Beschreibung, um zukünftige Statistiken zu generieren.
Spaltenbeschreibungen hinzufügen
Spaltenbeschreibungen, in denen erklärt wird, was die einzelnen Spalten enthalten oder wie sie zueinander in Beziehung stehen, können die Qualität Ihrer Statistiken verbessern. Nachdem Sie die Spaltenbeschreibungen in Ihrer Tabelle aktualisiert haben, generieren Sie Statistiken neu.
Sie können beispielsweise die folgenden Beschreibungen zu bestimmten Spalten der Tabelle telco_churn
hinzufügen:
Tenure
: „Die Anzahl der Monate, die der Kunde den Dienst genutzt hat.“Churn
: Gibt an, ob der Kunde die Nutzung des Dienstes eingestellt hat. TRUE gibt an, dass der Kunde den Dienst nicht mehr verwendet, FALSE gibt an, dass der Kunde aktiv ist.“
Wenn Sie die von Gemini generierten Spaltenbeschreibungen speichern, verwendet Gemini diese Beschreibungen, um zukünftige Statistiken zu generieren.
Statistiken für eine BigQuery-Tabelle generieren
Um Statistiken für eine BigQuery-Tabelle generieren zu können, müssen Sie mit BigQuery Studio auf den Tabelleneintrag in BigQuery zugreifen.
Wechseln Sie in der Trusted Cloud Console zu BigQuery Studio.
Wählen Sie im Bereich Explorer die Tabelle aus, für die Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.
Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.
Es dauert einige Minuten, bis die Statistiken erfasst werden.
Wenn veröffentlichte Ergebnisse der Datenprofilerstellung für die Tabelle verfügbar sind, werden sie verwendet, um Statistiken zu generieren. Andernfalls werden Statistiken anhand der Spaltennamen und -beschreibungen generiert.
Sehen Sie sich auf dem Tab Insights die generierten Fragen in natürlicher Sprache an.
Wenn Sie die SQL-Abfrage sehen möchten, mit der eine Frage beantwortet wird, klicken Sie auf die Frage.
Klicken Sie auf In Abfrage kopieren, um eine Abfrage in BigQuery zu öffnen.
So stellen Sie Folgefragen:
Klicken Sie auf Weiterführende Frage stellen. Die Abfrage wird in einem neuen Daten-Canvas geöffnet.
Klicken Sie auf Ausführen und dann auf Diese Ergebnisse abfragen.
Wenn Sie eine Folgefrage stellen möchten, geben Sie einen Prompt in das Feld Prompt in natürlicher Sprache ein oder bearbeiten Sie die SQL-Abfrage im Abfrageeditor.
Wenn Sie eine neue Reihe von Abfragen generieren möchten, klicken Sie auf Statistiken generieren und lösen Sie die Pipeline noch einmal aus.
Nachdem Sie Statistiken für eine Tabelle erstellt haben, können alle Nutzer mit der Berechtigung dataplex.datascans.getData
und Zugriff auf die Tabelle diese Statistiken aufrufen.
Statistiken für eine externe BigQuery-Tabelle generieren
BigQuery Data Insights unterstützt das Erstellen von Statistiken für externe BigQuery-Tabellen mit Daten in Cloud Storage.
Sie und das Dataplex Universal Catalog-Dienstkonto für das aktuelle Projekt müssen die Rolle Storage-Objekt-Betrachter (roles/storage.objectViewer
) für den Cloud Storage-Bucket haben, der die Daten enthält. Weitere Informationen finden Sie unter Hauptkonto zu einer Richtlinie auf Bucket-Ebene hinzufügen.
Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren, um Statistiken für eine externe BigQuery-Tabelle zu generieren.
Statistiken für eine BigLake-Tabelle generieren
So generieren Sie Statistiken für eine BigLake-Tabelle:
Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.
BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.
Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Betrachter“ (
roles/storage.objectViewer
) zu.Sie können die Dienstkonto-ID über die Verbindungsdetails abrufen.
Folgen Sie dazu der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.
Tabellen- und Spaltenbeschreibungen generieren
Gemini generiert automatisch Tabellen- und Spaltenbeschreibungen, wenn Sie Datenstatistiken erstellen. Sie können diese Beschreibungen nach Bedarf bearbeiten und dann in den Metadaten der Tabelle speichern. Gemini verwendet die gespeicherten Beschreibungen, um zukünftige Statistiken zu generieren.
So generieren Sie Tabellen- und Spaltenbeschreibungen:
Folgen Sie dazu der Anleitung im entsprechenden Abschnitt dieses Dokuments:
Klicken Sie auf dem Tab Statistiken auf Spaltenbeschreibungen ansehen.
Die von Gemini generierte Tabellenbeschreibung und die Spaltenbeschreibungen werden angezeigt.
Wenn Sie die Tabellenbeschreibung bearbeiten und speichern möchten, klicken Sie auf In Details speichern. Bearbeiten Sie die Tabellenbeschreibung nach Bedarf und klicken Sie dann auf Speichern.
Klicken Sie auf Im Schema speichern, um die Spaltenbeschreibungen zu bearbeiten und zu speichern. Bearbeiten Sie die Spaltenbeschreibungen nach Bedarf und klicken Sie dann auf Speichern.
Preise
Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.
Kontingente und Limits
Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.
Beschränkungen
- Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
- Für Kunden mit mehreren Clouds sind keine Daten aus anderen Clouds verfügbar.
- Data Insights unterstützen die Spaltentypen
Geo
undJSON
nicht. - Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
- Für Tabellen mit Zugriffssteuerung auf Spaltenebene (Access Control Lists, ACLs) und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.
- Gemini generiert Spaltenbeschreibungen für maximal 350 Spalten in einer Tabelle.
Standorte
Sie können Datenstatistiken an allen BigQuery-Standorten verwenden. Gemini in BigQuery ist weltweit verfügbar. Sie können die Datenverarbeitung also nicht auf eine bestimmte Region beschränken. Weitere Informationen zu den Standorten, an denen Daten von Gemini in BigQuery verarbeitet werden, finden Sie unter Gemini-Bereitstellungsstandorte.
Nächste Schritte
- Weitere Informationen zur Datenprofilerstellung im Dataplex Universal Catalog
- Abfragen mit Gemini-Unterstützung in BigQuery schreiben.
- Weitere Informationen zu Gemini in BigQuery