Einige oder alle Informationen auf dieser Seite gelten möglicherweise nicht für Cloud de Confiance von S3NS. Weitere Informationen finden Sie unter Unterschiede zu Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Geclusterte Tabellen erstellen

Sie können die von einer Abfrage verarbeitete Datenmenge reduzieren, indem Sie geclusterte Tabellen in BigQuery verwenden.

Bei geclusterten Tabellen werden die Tabellendaten anhand der Werte der angegebenen Spalten, auch Clustering-Spalten genannt, organisiert. BigQuery sortiert die Daten nach den geclusterten Spalten und speichert dann die Zeilen mit ähnlichen Werten in denselben oder benachbarten physischen Blöcken. Wenn bei einer Abfrage nach einer geclusterten Spalte gefiltert wird, scannt BigQuery nur die relevanten Blöcke und überspringt die Daten, die nicht dem Filter entsprechen.

Hier finden Sie weitere Informationen:

Weitere Informationen zu geclusterten Tabellen in BigQuery finden Sie unter Einführung in geclusterte Tabellen.
Informationen zum Arbeiten mit geclusterten Tabellen und zum Steuern des Zugriffs darauf finden Sie unter Geclusterte Tabellen verwalten.

Hinweis

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, damit Sie die nötigen Berechtigungen zum Erstellen einer Tabelle haben:

BigQuery Job User (roles/bigquery.jobUser) für das Projekt, wenn Sie eine Tabelle erstellen, indem Sie Daten laden oder Abfrageergebnisse in einer Tabelle speichern.
BigQuery-Dateneditor (roles/bigquery.dataEditor) für das Dataset, in dem Sie die Tabelle erstellen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen einer Tabelle erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind zum Erstellen einer Tabelle erforderlich:

bigquery.tables.create für das Dataset, in dem Sie die Tabelle erstellen.
bigquery.tables.getData für alle Tabellen und Ansichten, auf die Ihre Abfrage verweist, wenn Sie Abfrageergebnisse als Tabelle speichern.
bigquery.jobs.create im Projekt, wenn Sie die Tabelle durch Laden von Daten oder durch Speichern von Abfrageergebnissen in einer Tabelle erstellen.
bigquery.tables.updateData für die Tabelle, wenn Sie Daten in einer Tabelle mit Abfrageergebnissen anfügen oder überschreiben.

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Anforderungen an die Benennung von Tabellen

Wenn Sie eine Tabelle in BigQuery erstellen, muss der Tabellenname pro Dataset eindeutig sein. Der Tabellenname kann:

Zeichen mit insgesamt bis zu 1.024 UTF-8-Byte enthalten.
Unicode-Zeichen in Kategorie L (Buchstabe), M (Zeichen), N (Zahl), Pc (Verbindungselement, einschließlich Unterstrich), Pd (Strich), Zs (Leerzeichen) enthalten Weitere Informationen finden Sie unter Allgemeine Kategorie.

Beispiele für gültige Tabellennamen: table 01, ग्राहक, 00_お客様, étudiant-01.

Vorsichtsmaßnahmen:

Bei Tabellennamen wird standardmäßig zwischen Groß- und Kleinschreibung unterschieden. mytable und MyTable können im selben Dataset gleichzeitig vorhanden sein, es sei denn, sie sind Teil eines Datasets mit deaktivierter Berücksichtigung der Groß-/Kleinschreibung.
Einige Tabellennamen und Präfixe für Tabellennamen sind reserviert. Wenn Ihnen eine Fehlermeldung angezeigt wird, dass der Tabellenname oder das Präfix reserviert ist, wählen Sie einen anderen Namen aus und versuchen Sie es noch einmal.
Wenn Sie mehrere Punktoperatoren (.) in eine Sequenz aufnehmen, werden die doppelten Operatoren implizit entfernt.

Beispiel: project_name....dataset_name..table_name

Dieses Tag wird folgendermaßen geändert: project_name.dataset_name.table_name

Anforderungen an geclusterte Spalten

Sie können die Spalten angeben, die zum Erstellen der geclusterten Tabelle verwendet werden, wenn Sie eine Tabelle in BigQuery erstellen. Nachdem die Tabelle erstellt wurde, können Sie die Spalten ändern, die zum Erstellen der geclusterten Tabelle verwendet wurden. Weitere Informationen finden Sie unter Clustering-Spezifikation ändern.

Clustering-Spalten müssen Spalten der obersten Ebene sein, die nicht wiederholt werden. Sie müssen außerdem einem der folgenden Datentypen entsprechen:

BIGNUMERIC
BOOL
DATE
DATETIME
GEOGRAPHY
INT64
NUMERIC
RANGE
STRING
TIMESTAMP

Sie können bis zu vier Clustering-Spalten angeben. Wenn Sie mehrere Spalten angeben, wird anhand der Reihenfolge der Spalten festgelegt, wie die Daten sortiert werden. Wenn die Tabelle beispielsweise nach den Spalten a, b und c geclustert ist, werden die Daten in der gleichen Reihenfolge sortiert – zuerst nach Spalte a, dann nach Spalte b und dann nach Spalte c. Als Best Practice sollte die am häufigsten gefilterte oder aggregierte Spalte möglichst an erster Stelle stehen.

Die Reihenfolge Ihrer Clustering-Spalten wirkt sich auch auf die Abfrageleistung und die Preise aus. Weitere Informationen zu Best Practices für Abfragen von geclusterten Tabellen finden Sie unter Geclusterte Tabellen abfragen.

So erstellen Sie eine leere geclusterte Tabelle mit einer Schemadefinition:

Console

Rufen Sie in der Cloud de Confiance Console die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie im linken Bereich auf Explorer.
Maximieren Sie im Bereich Explorer Ihr Projekt, klicken Sie auf Datasets und wählen Sie dann ein Dataset aus.
Klicken Sie im Abschnitt Dataset-Informationen auf Tabelle erstellen.
Geben Sie im Bereich Tabelle erstellen die folgenden Details an:

Wählen Sie im Abschnitt Quelle in der Liste Tabelle erstellen aus die Option Leere Tabelle aus.
Geben Sie im Bereich Ziel die folgenden Details an:
1. Wählen Sie bei Dataset das Dataset aus, in dem Sie die Tabelle erstellen möchten.
2. Geben Sie im Feld Tabelle den Namen der Tabelle ein, die Sie erstellen möchten.
3. Achten Sie darauf, dass das Feld Tabellentyp auf Native Tabelle eingestellt ist.
Geben Sie im Abschnitt Schema die Schemadefinition ein. Sie können Schemainformationen manuell mit einer der folgenden Methoden eingeben:
- Option 1: Klicken Sie auf Als Text bearbeiten und fügen Sie das Schema in Form eines JSON-Arrays ein. Generieren Sie das Schema mit demselben Verfahren wie beim Erstellen einer JSON-Schemadatei, wenn Sie ein JSON-Array verwenden. Sie können das Schema einer vorhandenen Tabelle im JSON-Format ansehen. Geben Sie dafür folgenden Befehl ein:
```
    bq show --format=prettyjson dataset.table
    
```
- Option 2: Klicken Sie auf Feld hinzufügen und geben Sie das Tabellenschema ein. Geben Sie für jedes Feld Name, Typ und Modus an.
Geben Sie unter Clustering-Reihenfolge ein bis vier kommagetrennte Spaltennamen ein.
Optional: Wenn Sie im Abschnitt Erweiterte Optionen einen kundenverwalteten Verschlüsselungsschlüssel verwenden möchten, wählen Sie die Option Kundenverwalteten Verschlüsselungsschlüssel (CMEK) verwenden aus. Standardmäßig verschlüsselt BigQuery Kundendaten im Ruhezustand mit einem Google Cloud-powered encryption key.
Klicken Sie auf Tabelle erstellen.

SQL

Verwenden Sie den DDL-Anweisungsbefehl CREATE TABLE mit der Option CLUSTER BY. Im folgenden Beispiel wird in eine geclusterte Tabelle namens myclusteredtable in mydataset erstellt.

Rufen Sie in der Cloud de Confiance Console die Seite BigQuery auf.

BigQuery aufrufen

Geben Sie im Abfrageeditor die folgende Anweisung ein:

CREATE TABLE mydataset.myclusteredtable
(
  customer_id STRING,
  transaction_amount NUMERIC
)
CLUSTER BY
  customer_id
  OPTIONS (
    description = 'a table clustered by customer_id');

Klicken Sie auf Ausführen.

Informationen zum Ausführen von Abfragen finden Sie unter Interaktive Abfrage ausführen.

bq

Verwenden Sie den Befehl bq mk mit den folgenden Flags:

--table (oder die Tastenkombination -t).
--schema. Sie können die Schemadefinition der Tabelle inline oder über eine JSON-Schemadatei bereitstellen.
--clustering_fields. Sie können bis zu vier Clustering-Spalten angeben.

Zu den optionalen Parametern gehören --expiration, --description, --time_partitioning_type, --time_partitioning_field, --time_partitioning_expiration, --destination_kms_key und --label.

Wenn Sie eine Tabelle in einem anderen Projekt als dem Standardprojekt erstellen, fügen Sie dem Dataset die Projekt-ID im folgenden Format hinzu: project_id:dataset.

--destination_kms_key wird hier nicht angewendet. Weitere Informationen zu --destination_kms_key finden Sie unter Kundenverwaltete Verschlüsselungsschlüssel.

Geben Sie den folgenden Befehl ein, um eine leere geclusterte Tabelle mit einer Schemadefinition zu erstellen:

bq mk \
    --table \
    --expiration INTEGER1 \
    --schema SCHEMA \
    --clustering_fields CLUSTER_COLUMNS \
    --description "DESCRIPTION" \
    --label KEY:VALUE,KEY:VALUE \
    PROJECT_ID:DATASET.TABLE

Ersetzen Sie Folgendes:

INTEGER1: die Standardlebensdauer der Tabelle in Sekunden. Der Mindestwert beträgt 3.600 Sekunden bzw. eine Stunde. Die Ablaufzeit entspricht der aktuellen UTC-Zeit plus dem ganzzahligen Wert. Wenn Sie die Ablaufzeit beim Erstellen der Tabelle festlegen, wird die Standardeinstellung des Datasets für die Ablaufzeit der Tabelle ignoriert. Wenn Sie diesen Wert festlegen, wird die Tabelle nach der angegebenen Zeit gelöscht.
SCHEMA: eine Inline-Schemadefinition im Format COLUMN:DATA_TYPE,COLUMN:DATA_TYPE oder der Pfad zur JSON-Schemadatei auf Ihrem lokalen Computer.
CLUSTER_COLUMNS: eine durch Kommas getrennte Liste mit bis zu vier Clustering-Spalten. Die Liste darf keine Leerzeichen enthalten.
DESCRIPTION: eine Beschreibung der Tabelle in Anführungszeichen.
KEY:VALUE: das Schlüssel/Wert-Paar, das ein Label darstellt. Mit einer durch Kommas getrennten Liste können Sie mehrere Labels eingeben.
PROJECT_ID: Ihre Projekt-ID.
DATASET: ein Dataset in Ihrem Projekt.
TABLE: Der Name der Tabelle, die Sie erstellen.

Wenn Sie das Schema in der Befehlszeile angeben, können Sie den Typ RECORD (STRUCT) und die Spaltenbeschreibung nicht einfügen. Außerdem ist es dann nicht möglich, den Modus der Spalte anzugeben. Als Modus ist standardmäßig NULLABLE eingestellt. Wenn Sie Beschreibungen, Modi und RECORD-Typen einbinden möchten, müssen Sie stattdessen eine JSON-Schemadatei bereitstellen.

Beispiele:

Mit dem folgenden Befehl können Sie eine geclusterte Tabelle mit dem Namen myclusteredtable in mydataset in Ihrem Standardprojekt erstellen. Die Ablaufzeit der Tabelle ist auf 2.592.000 (ein 30-Tage-Monat), die Beschreibung auf This is my clustered table und das Label auf organization:development festgelegt. Der Befehl verwendet das Kürzel -t anstelle von --table.

So wird das Schema inline angegeben: timestamp:timestamp,customer_id:string,transaction_amount:float. Das angegebene Clustering-Feld customer_id wird verwendet, um die Tabelle zu clustern.

bq mk \
    -t \
    --expiration 2592000 \
    --schema 'timestamp:timestamp,customer_id:string,transaction_amount:float' \
    --clustering_fields customer_id \
    --description "This is my clustered table" \
    --label org:dev \
    mydataset.myclusteredtable

Geben Sie den folgenden Befehl ein, um eine geclusterte Tabelle mit dem Namen myclusteredtable in myotherproject und nicht in Ihrem Standardprojekt zu erstellen. Die Beschreibung ist auf This is my clustered table und das Label auf organization:development festgelegt. Der Befehl verwendet das Kürzel -t anstelle von --table. Dieser Befehl legt keinen Tabellenablauf fest. Wenn im Dataset ein Standardablaufwert für Tabellen festgelegt ist, wird dieser angewendet. Wenn im Dataset kein Standardtabellenablauf festgelegt ist, läuft die Tabelle nie ab.

Das Schema wird in der lokalen JSON-Datei /tmp/myschema.json angegeben. Das Feld customer_id dient zum Clustern der Tabelle.

bq mk \
    -t \
    --expiration 2592000 \
    --schema /tmp/myschema.json \
    --clustering_fields=customer_id \
    --description "This is my clustered table" \
    --label org:dev \
    myotherproject:mydataset.myclusteredtable

Nachdem die Tabelle erstellt wurde, können Sie die Beschreibung und die Labels der Tabelle aktualisieren.

Terraform

Verwenden Sie die Ressource google_bigquery_table:

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Im folgenden Beispiel wird eine Tabelle mit dem Namen mytable erstellt, die über die Spalten ID und Created geclustert ist:

resource "google_bigquery_dataset" "default" {
  dataset_id                      = "mydataset"
  default_partition_expiration_ms = 2592000000  # 30 days
  default_table_expiration_ms     = 31536000000 # 365 days
  description                     = "dataset description"
  location                        = "US"
  max_time_travel_hours           = 96 # 4 days

  labels = {
    billing_group = "accounting",
    pii           = "sensitive"
  }
}

resource "google_bigquery_table" "default" {
  dataset_id = google_bigquery_dataset.default.dataset_id
  table_id   = "mytable"

  clustering = ["ID", "Created"]

  schema = <<EOF
[
  {
    "name": "ID",
    "type": "INT64",
    "description": "Item ID"
  },
  {
    "name": "Item",
    "type": "STRING",
    "mode": "NULLABLE"
  },
 {
   "name": "Created",
   "type": "TIMESTAMP"
 }
]
EOF

}

Führen Sie die Schritte in den folgenden Abschnitten aus, um Ihre Terraform-Konfiguration auf ein Cloud de Confiance -Projekt anzuwenden.

Cloud Shell vorbereiten

Rufen Sie Cloud Shell auf.
Legen Sie das Standardprojekt Cloud de Confiance fest, auf das Sie Ihre Terraform-Konfigurationen anwenden möchten.

Sie müssen diesen Befehl nur einmal pro Projekt und in jedem beliebigen Verzeichnis ausführen.
```
export GOOGLE_CLOUD_PROJECT=PROJECT_ID
```
Umgebungsvariablen werden überschrieben, wenn Sie in der Terraform-Konfigurationsdatei explizite Werte festlegen.

Verzeichnis vorbereiten

Jede Terraform-Konfigurationsdatei muss ein eigenes Verzeichnis haben (auch als Stammmodul bezeichnet).

Erstellen Sie in Cloud Shell ein Verzeichnis und eine neue Datei in diesem Verzeichnis. Der Dateiname muss die Erweiterung .tf haben, z. B. main.tf. In dieser Anleitung wird die Datei als main.tf bezeichnet.
```
mkdir DIRECTORY && cd DIRECTORY && touch main.tf
```
Wenn Sie einer Anleitung folgen, können Sie den Beispielcode in jedem Abschnitt oder Schritt kopieren.

Kopieren Sie den Beispielcode in das neu erstellte main.tf.

Kopieren Sie optional den Code aus GitHub. Dies wird empfohlen, wenn das Terraform-Snippet Teil einer End-to-End-Lösung ist.
Prüfen und ändern Sie die Beispielparameter, die auf Ihre Umgebung angewendet werden sollen.
Speichern Sie die Änderungen.
Initialisieren Sie Terraform. Dies ist nur einmal für jedes Verzeichnis erforderlich.
```
terraform init
```
Fügen Sie optional die Option -upgrade ein, um die neueste Google-Anbieterversion zu verwenden:
```
terraform init -upgrade
```

Änderungen anwenden

Prüfen Sie die Konfiguration und prüfen Sie, ob die Ressourcen, die Terraform erstellen oder aktualisieren wird, Ihren Erwartungen entsprechen:
```
terraform plan
```
Korrigieren Sie die Konfiguration nach Bedarf.
Wenden Sie die Terraform-Konfiguration an. Führen Sie dazu den folgenden Befehl aus und geben Sie yes an der Eingabeaufforderung ein:
```
terraform apply
```
Warten Sie, bis Terraform die Meldung „Apply complete“ anzeigt.
Öffnen Sie Ihr Cloud de Confiance -Projekt, um die Ergebnisse aufzurufen. Rufen Sie in der Cloud de Confiance Console Ihre Ressourcen in der Benutzeroberfläche auf, um sicherzustellen, dass Terraform sie erstellt oder aktualisiert hat.

API

Rufen Sie die Methode tables.insert mit einer definierten Tabellenressource auf, die die Attribute clustering.fields und schema festlegt.

Python

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Python in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Python API.

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Legen Sie vor dem Ausführen von Codebeispielen die Umgebungsvariable GOOGLE_CLOUD_UNIVERSE_DOMAIN auf s3nsapis.fr fest.

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set table_id to the ID of the table to create.
# table_id = "your-project.your_dataset.your_table_name"

schema = [
    bigquery.SchemaField("full_name", "STRING"),
    bigquery.SchemaField("city", "STRING"),
    bigquery.SchemaField("zipcode", "INTEGER"),
]

table = bigquery.Table(table_id, schema=schema)
table.clustering_fields = ["city", "zipcode"]
table = client.create_table(table)  # Make an API request.
print(
    "Created clustered table {}.{}.{}".format(
        table.project, table.dataset_id, table.table_id
    )
)

Go

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Go in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Go API.

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Legen Sie vor dem Ausführen von Codebeispielen die Umgebungsvariable GOOGLE_CLOUD_UNIVERSE_DOMAIN auf s3nsapis.fr fest.

import (
	"context"
	"fmt"
	"time"

	"cloud.google.com/go/bigquery"
)

// createTableClustered demonstrates creating a BigQuery table with advanced properties like
// partitioning and clustering features.
func createTableClustered(projectID, datasetID, tableID string) error {
	// projectID := "my-project-id"
	// datasetID := "mydatasetid"
	// tableID := "mytableid"
	ctx := context.Background()

	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	sampleSchema := bigquery.Schema{
		{Name: "timestamp", Type: bigquery.TimestampFieldType},
		{Name: "origin", Type: bigquery.StringFieldType},
		{Name: "destination", Type: bigquery.StringFieldType},
		{Name: "amount", Type: bigquery.NumericFieldType},
	}
	metaData := &bigquery.TableMetadata{
		Schema: sampleSchema,
		TimePartitioning: &bigquery.TimePartitioning{
			Field:      "timestamp",
			Expiration: 90 * 24 * time.Hour,
		},
		Clustering: &bigquery.Clustering{
			Fields: []string{"origin", "destination"},
		},
	}
	tableRef := client.Dataset(datasetID).Table(tableID)
	if err := tableRef.Create(ctx, metaData); err != nil {
		return err
	}
	return nil
}

Java

Bevor Sie dieses Beispiel anwenden, folgen Sie den Schritten zur Einrichtung von Java in der BigQuery-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Angaben finden Sie in der Referenzdokumentation zur BigQuery Java API.

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Legen Sie vor dem Ausführen von Codebeispielen die Umgebungsvariable GOOGLE_CLOUD_UNIVERSE_DOMAIN auf s3nsapis.fr fest.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.Clustering;
import com.google.cloud.bigquery.Field;
import com.google.cloud.bigquery.Schema;
import com.google.cloud.bigquery.StandardSQLTypeName;
import com.google.cloud.bigquery.StandardTableDefinition;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableInfo;
import com.google.cloud.bigquery.TimePartitioning;
import com.google.common.collect.ImmutableList;

public class CreateClusteredTable {
  public static void runCreateClusteredTable() {
    // TODO(developer): Replace these variables before running the sample.
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    createClusteredTable(datasetName, tableName);
  }

  public static void createClusteredTable(String datasetName, String tableName) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(datasetName, tableName);

      TimePartitioning partitioning = TimePartitioning.of(TimePartitioning.Type.DAY);

      Schema schema =
          Schema.of(
              Field.of("name", StandardSQLTypeName.STRING),
              Field.of("post_abbr", StandardSQLTypeName.STRING),
              Field.of("date", StandardSQLTypeName.DATE));

      Clustering clustering =
          Clustering.newBuilder().setFields(ImmutableList.of("name", "post_abbr")).build();

      StandardTableDefinition tableDefinition =
          StandardTableDefinition.newBuilder()
              .setSchema(schema)
              .setTimePartitioning(partitioning)
              .setClustering(clustering)
              .build();
      TableInfo tableInfo = TableInfo.newBuilder(tableId, tableDefinition).build();

      bigquery.create(tableInfo);
      System.out.println("Clustered table created successfully");
    } catch (BigQueryException e) {
      System.out.println("Clustered table was not created. \n" + e.toString());
    }
  }
}

Geclusterte Tabelle aus einem Abfrageergebnis erstellen

Es gibt zwei Möglichkeiten, eine geclusterte Tabelle aus einem Abfrageergebnis anzulegen:

Schreiben Sie die Ergebnisse in eine neue Zieltabelle und geben Sie die Clustering-Spalten an.
Mithilfe einer DDL-Anweisung des Typs CREATE TABLE AS SELECT. Weitere Informationen zu dieser Methode finden Sie auf der Seite Datendefinitionssprache-Anweisungen verwenden unter Geclusterte Tabelle aus dem Ergebnis einer Abfrage erstellen.

Eine geclusterte Tabelle kann durch Abfrage einer partitionierten Tabelle oder einer nicht partitionierten Tabelle erstellt werden. Es ist nicht möglich, eine vorhandene Tabelle mithilfe von Abfrageergebnissen in eine geclusterte Tabelle zu ändern.

Wenn Sie eine geclusterte Tabelle aus einem Abfrageergebnis erstellen, müssen Sie Standard-SQL verwenden. Legacy-SQL wird nicht zum Abfragen geclusterter Tabellen oder zum Schreiben von Abfrageergebnissen in geclusterte Tabellen unterstützt.

SQL

Verwenden Sie die DDL-Anweisung CREATE TABLE mit der Option CLUSTER BY, um eine geclusterte Tabelle aus einem Abfrageergebnis zu erstellen. Im folgenden Beispiel wird eine neue Tabelle erstellt, die nach customer_id geclustert ist. Dazu wird eine vorhandene nicht geclusterte Tabelle abgefragt:

Rufen Sie in der Cloud de Confiance Console die Seite BigQuery auf.

BigQuery aufrufen

Geben Sie im Abfrageeditor die folgende Anweisung ein:

CREATE TABLE mydataset.clustered_table
(
  customer_id STRING,
  transaction_amount NUMERIC
)
CLUSTER BY
  customer_id
AS (
  SELECT * FROM mydataset.unclustered_table
);

Klicken Sie auf Ausführen.

Informationen zum Ausführen von Abfragen finden Sie unter Interaktive Abfrage ausführen.

bq

Geben Sie den folgenden Befehl ein, um eine neue geclusterte Zieltabelle aus einem Abfrageergebnis zu erstellen:

bq --location=LOCATION query \
    --use_legacy_sql=false 'QUERY'

Dabei gilt:

LOCATION: Name Ihres Standorts. Das Flag --location ist optional. Wenn Sie BigQuery beispielsweise in der Region Tokio verwenden, können Sie für das Flag den Wert asia-northeast1 festlegen. Mit der Datei .bigqueryrc können Sie einen Standardwert für den Standort festlegen.
QUERY: eine Abfrage in der GoogleSQL-Syntax. Sie können Legacy-SQL nicht zum Abfragen von geclusterten Tabellen oder zum Schreiben von Abfrageergebnissen in geclusterte Tabellen verwenden. Die Abfrage kann die DDL-Anweisung CREATE TABLE enthalten, mit der die Optionen zum Erstellen Ihrer geclusterten Tabelle angegeben werden. Sie können DDL anstelle der einzelnen Befehlszeilen-Flags verwenden.

Beispiele:

Mit dem folgenden Befehl schreiben Sie Abfrageergebnisse in eine Zieltabelle mit dem Namen myclusteredtable in mydataset. mydataset befindet sich in Ihrem Standardprojekt. Mit der Abfrage werden Daten aus "mytable", einer nicht partitionierten Tabelle, abgerufen. Die Spalte customer_id der Tabelle dient dazu, die Tabelle zu clustern. Die Spalte timestamp der Tabelle wird zum Erstellen einer partitionierten Tabelle verwendet.

bq query --use_legacy_sql=false \
    'CREATE TABLE
       mydataset.myclusteredtable
     PARTITION BY
       DATE(timestamp)
     CLUSTER BY
       customer_id
     AS (
       SELECT
         *
       FROM
         `mydataset.mytable`
     );'

API

Rufen Sie zum Speichern von Abfrageergebnissen in einer geclusterten Tabelle die Methode jobs.insert auf, konfigurieren Sie einen query-Job und fügen Sie die DDL-Anweisung CREATE TABLE ein, mit der die geclusterte Tabelle erstellt wird.

Geben Sie im Abschnitt jobReference der Jobressource Ihren Standort im Attribut location an.

Geclusterte Tabelle beim Laden von Daten erstellen

Sie können eine geclusterte Tabelle erstellen, indem Sie beim Laden von Daten in eine neue Tabelle Clustering-Spalten angeben. Sie müssen keine leere Tabelle erstellen, bevor Sie die Daten laden. Sie können die geclusterte Tabelle erstellen und gleichzeitig Daten in diese Tabelle laden.

Weitere Informationen zum Laden von Daten finden Sie unter Einführung in das Laden von Daten in BigQuery.

So definieren Sie Clustering, wenn Sie einen Ladejob definieren:

SQL

Verwenden Sie die Anweisung LOAD DATA. Im folgenden Beispiel werden AVRO-Daten geladen, um eine Tabelle zu erstellen, die nach dem Feld transaction_date partitioniert und nach dem Feld customer_id geclustert ist. Außerdem werden die Partitionen so konfiguriert, dass sie nach drei Tagen ablaufen.

Rufen Sie in der Cloud de Confiance Console die Seite BigQuery auf.

BigQuery aufrufen

Geben Sie im Abfrageeditor die folgende Anweisung ein:

LOAD DATA INTO mydataset.mytable
PARTITION BY transaction_date
CLUSTER BY customer_id
  OPTIONS (
    partition_expiration_days = 3)
FROM FILES(
  format = 'AVRO',
  uris = ['gs://bucket/path/file.avro']);

Klicken Sie auf Ausführen.

Informationen zum Ausführen von Abfragen finden Sie unter Interaktive Abfrage ausführen.

API

Wenn Sie beim Erstellen einer Tabelle über einen Ladejob die Clustering-Konfiguration definieren, können Sie die Clustering-Attribute für die Tabelle darstellen.

Go

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Legen Sie vor dem Ausführen von Codebeispielen die Umgebungsvariable GOOGLE_CLOUD_UNIVERSE_DOMAIN auf s3nsapis.fr fest.

import (
	"context"
	"fmt"

	"cloud.google.com/go/bigquery"
)

// importClusteredTable demonstrates creating a table from a load job and defining partitioning and clustering
// properties.
func importClusteredTable(projectID, destDatasetID, destTableID string) error {
	// projectID := "my-project-id"
	// datasetID := "mydataset"
	// tableID := "mytable"
	ctx := context.Background()
	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	gcsRef := bigquery.NewGCSReference("gs://cloud-samples-data/bigquery/sample-transactions/transactions.csv")
	gcsRef.SkipLeadingRows = 1
	gcsRef.Schema = bigquery.Schema{
		{Name: "timestamp", Type: bigquery.TimestampFieldType},
		{Name: "origin", Type: bigquery.StringFieldType},
		{Name: "destination", Type: bigquery.StringFieldType},
		{Name: "amount", Type: bigquery.NumericFieldType},
	}
	loader := client.Dataset(destDatasetID).Table(destTableID).LoaderFrom(gcsRef)
	loader.TimePartitioning = &bigquery.TimePartitioning{
		Field: "timestamp",
	}
	loader.Clustering = &bigquery.Clustering{
		Fields: []string{"origin", "destination"},
	}
	loader.WriteDisposition = bigquery.WriteEmpty

	job, err := loader.Run(ctx)
	if err != nil {
		return err
	}
	status, err := job.Wait(ctx)
	if err != nil {
		return err
	}

	if status.Err() != nil {
		return fmt.Errorf("job completed with error: %v", status.Err())
	}
	return nil
}

Java

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Legen Sie vor dem Ausführen von Codebeispielen die Umgebungsvariable GOOGLE_CLOUD_UNIVERSE_DOMAIN auf s3nsapis.fr fest.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.Clustering;
import com.google.cloud.bigquery.Field;
import com.google.cloud.bigquery.FormatOptions;
import com.google.cloud.bigquery.Job;
import com.google.cloud.bigquery.JobInfo;
import com.google.cloud.bigquery.LoadJobConfiguration;
import com.google.cloud.bigquery.Schema;
import com.google.cloud.bigquery.StandardSQLTypeName;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TimePartitioning;
import com.google.common.collect.ImmutableList;

public class LoadTableClustered {

  public static void runLoadTableClustered() throws Exception {
    // TODO(developer): Replace these variables before running the sample.
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    String sourceUri = "/path/to/file.csv";
    loadTableClustered(datasetName, tableName, sourceUri);
  }

  public static void loadTableClustered(String datasetName, String tableName, String sourceUri)
      throws Exception {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(datasetName, tableName);

      Schema schema =
          Schema.of(
              Field.of("name", StandardSQLTypeName.STRING),
              Field.of("post_abbr", StandardSQLTypeName.STRING),
              Field.of("date", StandardSQLTypeName.DATE));

      TimePartitioning partitioning = TimePartitioning.of(TimePartitioning.Type.DAY);

      Clustering clustering =
          Clustering.newBuilder().setFields(ImmutableList.of("name", "post_abbr")).build();

      LoadJobConfiguration loadJobConfig =
          LoadJobConfiguration.builder(tableId, sourceUri)
              .setFormatOptions(FormatOptions.csv())
              .setSchema(schema)
              .setTimePartitioning(partitioning)
              .setClustering(clustering)
              .build();

      Job loadJob = bigquery.create(JobInfo.newBuilder(loadJobConfig).build());

      // Load data from a GCS parquet file into the table
      // Blocks until this load table job completes its execution, either failing or succeeding.
      Job completedJob = loadJob.waitFor();

      // Check for errors
      if (completedJob == null) {
        throw new Exception("Job not executed since it no longer exists.");
      } else if (completedJob.getStatus().getError() != null) {
        // You can also look at queryJob.getStatus().getExecutionErrors() for all
        // errors, not just the latest one.
        throw new Exception(
            "BigQuery was unable to load into the table due to an error: \n"
                + loadJob.getStatus().getError());
      }
      System.out.println("Data successfully loaded into clustered table during load job");
    } catch (BigQueryException | InterruptedException e) {
      System.out.println("Data not loaded into clustered table during load job \n" + e.toString());
    }
  }
}

Python

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für Clientbibliotheken einrichten.

Legen Sie vor dem Ausführen von Codebeispielen die Umgebungsvariable GOOGLE_CLOUD_UNIVERSE_DOMAIN auf s3nsapis.fr fest.

from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set table_id to the ID of the table to create.
# table_id = "your-project.your_dataset.your_table_name"

job_config = bigquery.LoadJobConfig(
    skip_leading_rows=1,
    source_format=bigquery.SourceFormat.CSV,
    schema=[
        bigquery.SchemaField("timestamp", bigquery.SqlTypeNames.TIMESTAMP),
        bigquery.SchemaField("origin", bigquery.SqlTypeNames.STRING),
        bigquery.SchemaField("destination", bigquery.SqlTypeNames.STRING),
        bigquery.SchemaField("amount", bigquery.SqlTypeNames.NUMERIC),
    ],
    time_partitioning=bigquery.TimePartitioning(field="timestamp"),
    clustering_fields=["origin", "destination"],
)

job = client.load_table_from_uri(
    ["gs://cloud-samples-data/bigquery/sample-transactions/transactions.csv"],
    table_id,
    job_config=job_config,
)

job.result()  # Waits for the job to complete.

table = client.get_table(table_id)  # Make an API request.
print(
    "Loaded {} rows and {} columns to {}".format(
        table.num_rows, len(table.schema), table_id
    )
)

Nächste Schritte

Informationen zum Arbeiten mit geclusterten Tabellen finden Sie unter Geclusterte Tabellen verwalten.
Geclusterte Tabellen abfragen
Einführung in partitionierte Tabellen
Weitere Informationen finden Sie unter Partitionierte Tabellen erstellen.
Eine Übersicht über INFORMATION_SCHEMA finden Sie in der Einführung in INFORMATION_SCHEMA von BigQuery.