Arbeitslasten planen

BigQuery-Aufgaben sind normalerweise Teil größerer Arbeitslasten, wobei externe Aufgaben BigQuery-Vorgänge auslösen und dann von diesen ausgelöst werden. Die Arbeitslastplanung hilft Datenadministratoren, Analysten und Entwicklern, diese Aktionskette zu organisieren und zu optimieren, um eine nahtlose Verbindung zwischen Datenressourcen und Prozessen zu schaffen. Planungsmethoden und -tools unterstützen das Entwerfen, Erstellen, Implementieren und Überwachen dieser komplexen Datenarbeitslasten.

Planungsmethode auswählen

Bei der Auswahl einer Planungsmethode sollten Sie feststellen, ob Ihre Arbeitslasten ereignisgesteuert, zeitgesteuert oder beides sind. Ein Ereignis ist als Zustandsänderung definiert. Das kann eine Änderung an Daten in einer Datenbank oder das Hinzufügen einer Datei zu einem Speichersystem sein. Bei der ereignisgesteuerten Planung kann eine Aktion auf einer Website eine Datenaktivität auslösen, oder es kann erforderlich sein, dass ein Objekt in einem bestimmten Bucket sofort bei Empfang verarbeitet wird. Bei der zeitgesteuerten Planung müssen neue Daten möglicherweise einmal pro Tag oder häufig genug geladen werden, um stündliche Berichte zu erstellen. Sie können die ereignisgesteuerte und zeitgesteuerte Planung in Szenarien verwenden, in denen Sie Objekte in Echtzeit in einen Data Lake laden müssen, wobei Aktivitätsberichte für den Data Lake nur täglich generiert werden.

Planungstool auswählen

Planungstools unterstützen Sie bei Aufgaben, die an der Verwaltung komplexer Datenarbeitslasten beteiligt sind, darunter die Kombination mehrerer Cloud de Confiance by S3NS oder Drittanbieterdienste mit BigQuery-Jobs, oder die parallele Ausführung mehrerer BigQuery-Jobs. Jede Arbeitslast hat eindeutige Anforderungen für die Abhängigkeit und Parameterverwaltung, damit Aufgaben in der richtigen Reihenfolge mit den richtigen Daten ausgeführt werden. Cloud de Confiance bietet verschiedene Planungsoptionen, die auf der Planungsmethode und den Arbeitslastanforderungen basieren.

Wir empfehlen für die meisten Anwendungsfälle die Verwendung von Dataform, Workflows, Cloud Composer oder Vertex AI Pipelines. Das folgende Diagramm zeigt einen direkten Vergleich:

Dataform Workflows Cloud Composer Vertex AI Pipelines
Fokus Datenumwandlung Mikrodienste ETL oder ELT Maschinelles Lernen
Komplexität * ** *** **
Nutzerprofil Datenanalyst oder Administrator Datenarchitekt Data Engineer Datenanalyst
Codetyp JavaScript, SQL, Python-Notebooks YAML oder JSON Python Python
Serverlos? Ja Ja Vollständig verwaltet Ja
Nicht geeignet für Ketten externer Dienste Datenumwandlung und -verarbeitung Niedrige Latenz oder ereignisgesteuerte Pipelines Infrastrukturaufgaben

In den folgenden Abschnitten werden diese und weitere Tools zur Planung ausführlich beschrieben.

Geplante Abfragen

Die einfachste Form der Arbeitslastplanung ist das Planen wiederkehrender Abfragen direkt in BigQuery. Dies ist zwar der am wenigsten komplexe Ansatz für die Planung, wir empfehlen es jedoch nur für einfache Abfrageketten ohne externe Abhängigkeiten. Auf diese Weise geplante Abfragen müssen in GoogleSQL geschrieben werden und können Datendefinitionssprache (DDL) undDML-Anweisungen (Data Manipulation Language) enthalten.

Planungsmethode: zeitgesteuert

Dataform

Dataform ist ein kostenloses, SQL-basiertes, tendenziöses Transformations-Framework, das komplexe Datentransformationsaufgaben in BigQuery plant. Werden Rohdaten in BigQuery geladen, können Sie mit Dataform eine organisierte, getestete, versionsgesteuerte Sammlung von Datasets und Tabellen erstellen. Mit Dataform können Sie Ausführungen für Datenvorbereitungen, Notebooks und BigQuery-Pipelines planen.

Planungsmethode: zeitgesteuert

Workflows

Workflows ist ein serverloses Tool, mit dem HTTP-basierte Dienste mit sehr geringer Latenz geplant werden. Es eignet sich am besten zur Verkettung von Mikrodiensten, zur Automatisierung von Infrastrukturaufgaben, zur Einbindung in externe Systeme und zur Erstellung einer Abfolge an Vorgängen in Cloud de Confiance. Weitere Informationen zur Verwendung von Workflows mit BigQuery finden Sie unter Mehrere BigQuery-Jobs parallel ausführen.

Planungsmethode: ereignis- und zeitgesteuert

Cloud Composer

Cloud Composer ist ein vollständig verwaltetes Tool, das auf Apache Airflow basiert. Es eignet sich am besten für ETL- (Extrahieren, Transformieren, Laden) oder ELT- (Extrahieren, Laden, Transformieren)-Arbeitslasten, da es nicht nur mehrere Operatortypen und -muster unterstützt, sondern auch die Aufgabenausführung über andere Cloud de Confiance-Produkte und externe Ziele hinweg. Weitere Informationen zur Verwendung von Cloud Composer mit BigQuery finden Sie unter Datenanalyse-DAG in Cloud de Confiance ausführen.

Planungsmethode: zeitgesteuert

Vertex AI Pipelines

Vertex AI Pipelines ist ein serverloses Tool, das auf Kubeflow Pipelines basiert und speziell für die Planung von Arbeitslasten für maschinelles Lernen entwickelt wurde. Es automatisiert und verbindet alle Aufgaben Ihrer Modellentwicklung und -bereitstellung, von Trainingsdaten bis zum Code, sodass Sie einen vollständigen Überblick über die Funktionsweise Ihrer Modelle erhalten. Weitere Informationen zur Verwendung von Vertex AI Pipelines mit BigQuery finden Sie unter BigQuery-Modell für maschinelles Lernen zur Vorhersage exportieren und bereitstellen.

Planungsmethode: ereignisgesteuert

Apigee Integration

Apigee Integration ist eine Erweiterung der Apigee-Plattform, die Connectors und Tools zur Datentransformation umfasst. Es eignet sich am besten für die Einbindung in externe Unternehmensanwendungen wie Salesforce. Weitere Informationen zur Verwendung von Apigee Integration mit BigQuery finden Sie unter Erste Schritte mit der Apigee-Integration und einem Salesforce-Trigger.

Planungsmethode: ereignis- und zeitgesteuert

Cloud Data Fusion

Cloud Data Fusion ist ein Tool zur Datenintegration, das codefreie ELT/ETL-Pipelines und über 150 vorkonfigurierte Connectors und Transformationen bietet. Weitere Informationen zur Verwendung von Cloud Data Fusion mit BigQuery finden Sie unter Daten von MySQL in BigQuery replizieren.

Planungsmethode: ereignis- und zeitgesteuert

Cloud Scheduler

Cloud Scheduler ist ein vollständig verwalteter Planer für Jobs wie Batchstreaming oder Infrastrukturvorgänge, die in festgelegten Zeitintervallen stattfinden sollten. Weitere Informationen zur Verwendung von Cloud Scheduler mit Big Query finden Sie unter Workflows mit Cloud Scheduler planen.

Planungsmethode: zeitgesteuert

Cloud Tasks

Cloud Tasks ist ein vollständig verwalteter Dienst für die asynchrone Verteilung von Aufgaben, die unabhängig und außerhalb Ihrer Hauptarbeitslast ausgeführt werden können. Es eignet sich am besten zum Delegieren langsamer Hintergrundvorgänge oder zum Verwalten von API-Aufrufraten. Weitere Informationen zur Verwendung von Cloud Tasks mit BigQuery finden Sie unter Aufgabe einer Cloud Tasks-Warteschlange hinzufügen.

Planungsmethode: ereignisgesteuert

Drittanbieter-Tools

Sie können für die Verbindung mit BigQuery auch verschiedene gängigen Drittanbietertools wie CData und SnapLogic verwenden. Das BigQuery-fähige Programm bietet eine vollständige Liste der validierten Partnerlösungen.

Messaging-Tools

Viele Datenarbeitslasten erfordern zusätzliche Messaging-Verbindungen zwischen entkoppelten Mikrodiensten, die nur aktiviert werden müssen, wenn bestimmte Ereignisse auftreten.Cloud de Confiance bietet zwei Tools, die für die Einbindung in BigQuery entwickelt wurden.

Pub/Sub

Pub/Sub ist ein asynchrones Messaging-Tool für Pipelines zur Datenintegration. Es wurde für die Aufnahme und Verteilung von Daten wie Serverereignissen und Nutzerinteraktionen entwickelt. Außerdem kann es für die parallele Verarbeitung und für das Datenstreaming von IoT-Geräten verwendet werden. Weitere Informationen zur Verwendung von Pub/Sub mit BigQuery finden Sie unter Von Pub/Sub zu BigQuery streamen.

Eventarc

Eventarc ist ein ereignisgesteuertes Tool, mit dem Sie den Fluss von Statusänderungen in Ihrer Datenpipeline verwalten können. Dieses Tool kann für eine Vielzahl von Anwendungsfällen genutzt werden, darunter die automatisierte Fehlerbehebung, das Kennzeichnen von Ressourcen, das Bearbeiten von Bildern und vieles mehr. Weitere Informationen zur Verwendung von Eventarc mit BigQuery finden Sie unter BigQuery-Verarbeitungspipeline mit Eventarc erstellen.

Nächste Schritte