Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Cloud de Confiance di S3NS. Per maggiori dettagli, consulta Differenze rispetto a Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Connettersi ad Apache Spark

In qualità di amministratore BigQuery, puoi creare una connessione per consentire agli analisti dei dati di eseguire stored procedure per Apache Spark.

Prima di iniziare

Abilita l'API BigQuery Connection.

Abilitare l'API
Per ottenere le autorizzazioni necessarie per creare una connessione Spark, chiedi all'amministratore di concederti il ruolo IAM BigQuery Connection Admin (roles/bigquery.connectionAdmin) nel progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
(Facoltativo) Per gestire i metadati utilizzando Dataproc Metastore, assicurati di aver creato un servizio Dataproc Metastore.
(Facoltativo) Per visualizzare la cronologia dei job utilizzando le interfacce web di Spark History Server, assicurati di aver creato un server di cronologia permanente (PHS) Managed Service for Apache Spark.

Considerazioni sulla posizione

Quando scegli una posizione per i tuoi dati, considera quanto segue:

Più regioni

Devi specificare le risorse Cloud de Confiance che si trovano nella stessa area geografica di grandi dimensioni:

Una connessione nella multiregione BigQuery US può fare riferimento a un Spark History Server o a un Dataproc Metastore in qualsiasi singola regione dell'area geografica degli Stati Uniti, ad esempio us-central1, us-east4 o us-west2.
Una connessione nella multiregione BigQuery EU può fare riferimento a un server della cronologia Spark o a un metastore Dataproc negli stati membri dell'Unione Europea, come europe-north1 o europe-west3.

Regioni singole

Una connessione in una singola regione può fare riferimento solo a risorse nella stessa regione. Cloud de ConfianceAd esempio, una connessione nella singola regione us-east4 può fare riferimento solo a un server di cronologia Spark o a un Dataproc Metastore in us-east4.

Creare connessioni

Seleziona una delle seguenti opzioni:

Console

Vai alla pagina BigQuery.

Vai a BigQuery
Nel riquadro Explorer, fai clic su Aggiungi dati.

Si apre la finestra di dialogo Aggiungi dati.
Nel riquadro Filtra per, nella sezione Tipo di origine dati, seleziona Applicazioni aziendali.

In alternativa, nel campo Cerca origini dati, puoi inserire Spark.
Nella sezione Origini dati in evidenza, fai clic su Apache Spark.
Fai clic sulla scheda della soluzione Apache Spark: BigQuery Federation.
Nel riquadro Origine dati esterna, inserisci le seguenti informazioni:
- Nell'elenco Tipo di connessione, seleziona Apache Spark.
- Nel campo ID connessione, inserisci un nome per la connessione, ad esempio spark_connection.
- Nell'elenco Località dei dati, seleziona una regione.
Puoi creare una connessione nelle regioni e nelle multi-regioni che supportano BigQuery. Per ulteriori informazioni, consulta Considerazioni sulla località.
- (Facoltativo) Nell'elenco Servizio Metastore, seleziona un Dataproc Metastore.
- (Facoltativo) Nel campo Cluster server di cronologia, inserisci un server di cronologia permanente di Managed Service for Apache Spark.
Fai clic su Crea connessione.
Fai clic su Vai alla connessione.
Nel riquadro Informazioni sulla connessione, copia l'ID del account di servizio da utilizzare in un passaggio successivo.

bq

In un ambiente a riga di comando, utilizza il comando bq mk per creare una connessione:
```
bq mk --connection --connection_type='SPARK' \
 --properties=PROPERTIES \
 --project_id=PROJECT_ID \
 --location=LOCATION
 CONNECTION_ID
```
Sostituisci quanto segue:
- PROPERTIES: una coppia chiave-valore per fornire parametri specifici della connessione in formato JSON
  
  Ad esempio:
```
--properties='{
"metastoreServiceConfig": {"metastoreService": "METASTORE_SERVICE_NAME"},
"sparkHistoryServerConfig": {"dataprocCluster": "MANAGED_SERVICE_FOR_APACHE_SPARK_CLUSTER_NAME"}
}'
```
  Sostituisci quanto segue:
  - METASTORE_SERVICE_NAME: Dataproc Metastore con una configurazione di rete gRPC, ad esempio projects/my-project-id/locations/us-central1/services/my-service
    
    Per saperne di più, scopri come accedere ai metadati dell'archivio metadati Hive memorizzati utilizzando un protocollo endpoint.
  - MANAGED_SERVICE_FOR_APACHE_SPARK_CLUSTER_NAME: la configurazione del server di cronologia Spark, ad esempio projects/my-project-id/regions/us-central1/clusters/my-cluster
    
    Per saperne di più, consulta Crea un cluster Persistent History Server.
- PROJECT_ID: il tuo Cloud de Confiance ID progetto
- LOCATION: la posizione in cui vuoi archiviare la connessione, ad esempio US
- CONNECTION_ID: l'ID connessione, ad esempio myconnection
  
  Quando visualizzi i dettagli della connessione nella console Cloud de Confiance , l'ID connessione è il valore dell'ultima sezione dell'ID connessione completo visualizzato in ID connessione, ad esempio projects/.../locations/.../connections/myconnection

Recupera e copia l'ID del account di servizio perché ti servirà in un altro passaggio:

bq show --location=LOCATION --connection PROJECT_ID.LOCATION.CONNECTION_ID

L'output è simile al seguente:

Connection myproject.us.myconnection

       name           type                    properties
---------------------- ------- ---------------------------------------------------
myproject.us.myconnection  SPARK   {"serviceAccountId": "bqserver@example.s3ns.iam.gserviceaccount.com"}

Per informazioni su come gestire le connessioni, vedi Gestisci le connessioni.

Concedi l'accesso al service account

Per consentire a una stored procedure per Apache Spark di accedere alle tue risorse Cloud de Confiance, devi concedere all'account di servizio associato alla connessione della stored procedure le autorizzazioni IAM necessarie. In alternativa, puoi utilizzare il tuo service account personalizzato per l'accesso ai dati.

Per leggere e scrivere dati da e verso BigQuery, devi concedere alaccount di serviziot le seguenti autorizzazioni IAM:
- bigquery.tables.* nelle tabelle BigQuery
- bigquery.readsessions.* sul tuo progetto
Il ruolo IAM roles/bigquery.admin include le autorizzazioni di cui il account di servizio ha bisogno per leggere e scrivere dati da e verso BigQuery.

Nota :se la procedura archiviata scrive dati in un bucket Cloud Storage temporaneo e poi carica i dati di Cloud Storage in BigQuery, devi concedere all'account di servizio l'autorizzazione bigquery.jobs.create per il tuo progetto. Per saperne di più sui ruoli e sulle autorizzazioni IAM in BigQuery, consulta Controllo dell'accesso con IAM.
Per leggere e scrivere dati da e in Cloud Storage, devi concedere al account di servizio l'autorizzazione storage.objects.* per i tuoi oggetti Cloud Storage.

Il ruolo IAM roles/storage.objectAdmin include le autorizzazioni di cui il account di servizio ha bisogno per leggere e scrivere dati da e verso Cloud Storage.
Se specifichi Dataproc Metastore quando crei una connessione, affinché BigQuery recuperi i dettagli della configurazione del metastore, devi concedere all'account di servizio l'autorizzazione metastore.services.get su Dataproc Metastore.

Il ruolo predefinito roles/metastore.metadataViewer include l'autorizzazione di cui ilaccount di serviziot ha bisogno per recuperare i dettagli sulla configurazione del metastore.

Devi anche concedere al account di servizio il ruolo roles/storage.objectAdmin sul bucket Cloud Storage in modo che la procedura archiviata possa accedere alla directory del warehouse Hive di Dataproc Metastore (hive.metastore.warehouse.dir). Se la procedura archiviata esegue operazioni sul metastore, potresti dover concedere autorizzazioni aggiuntive. Per saperne di più sui ruoli e sulle autorizzazioni IAM in Dataproc Metastore, consulta Ruoli e autorizzazioni predefiniti di Dataproc Metastore.
Se specifichi un server di cronologia permanente Managed Service for Apache Spark quando crei una connessione, devi concedere al account di servizio i seguenti ruoli:
- Il ruolo roles/dataproc.viewer sul server di cronologia permanente Managed Service for Apache Spark che contiene l'autorizzazione dataproc.clusters.get.
- Il ruolo roles/storage.objectAdmin nel bucket Cloud Storage che specifichi per la proprietà spark:spark.history.fs.logDirectory quando crei il server di cronologia permanente Managed Service for Apache Spark.
Per ulteriori informazioni, consulta Managed Service for Apache Spark Persistent History Server e Ruoli e autorizzazioni di Managed Service for Apache Spark.

Condividere le connessioni con gli utenti

Puoi concedere i seguenti ruoli per consentire agli utenti di eseguire query sui dati e gestire le connessioni:

roles/bigquery.connectionUser: consente agli utenti di utilizzare le connessioni per connettersi a origini dati esterne ed eseguire query.
roles/bigquery.connectionAdmin: consente agli utenti di gestire le connessioni.

Per saperne di più sui ruoli e sulle autorizzazioni IAM in BigQuery, consulta Ruoli e autorizzazioni predefiniti.

Seleziona una delle seguenti opzioni:

Console

Vai alla pagina BigQuery.

Vai a BigQuery

Le connessioni sono elencate nel progetto, in un gruppo chiamato Connessioni.
Nel riquadro a sinistra, fai clic su Spazio di esplorazione:

Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.
Fai clic sul tuo progetto, poi su Connessioni e seleziona una connessione.
Nel riquadro Dettagli, fai clic su Condividi per condividere una connessione. Quindi:
1. Nella finestra di dialogo Autorizzazioni di connessione, condividi la connessione con altre entità aggiungendo o modificando le entità.
2. Fai clic su Salva.

bq

Non puoi condividere una connessione con lo strumento a riga di comando bq. Per condividere una connessione, utilizza la console Cloud de Confiance o il metodo dell'API BigQuery Connections.

API

Utilizza il metodo projects.locations.connections.setIAM nella sezione di riferimento dell'API REST BigQuery Connections e fornisci un'istanza della risorsa policy.

Java

Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API BigQuery Java.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configura l'autenticazione per le librerie client.

Prima di eseguire gli esempi di codice, imposta la variabile di ambiente GOOGLE_CLOUD_UNIVERSE_DOMAIN su s3nsapis.fr.

import com.google.api.resourcenames.ResourceName;
import com.google.cloud.bigquery.connection.v1.ConnectionName;
import com.google.cloud.bigqueryconnection.v1.ConnectionServiceClient;
import com.google.iam.v1.Binding;
import com.google.iam.v1.Policy;
import com.google.iam.v1.SetIamPolicyRequest;
import java.io.IOException;

// Sample to share connections
public class ShareConnection {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String location = "MY_LOCATION";
    String connectionId = "MY_CONNECTION_ID";
    shareConnection(projectId, location, connectionId);
  }

  static void shareConnection(String projectId, String location, String connectionId)
      throws IOException {
    try (ConnectionServiceClient client = ConnectionServiceClient.create()) {
      ResourceName resource = ConnectionName.of(projectId, location, connectionId);
      Binding binding =
          Binding.newBuilder()
              .addMembers("group:example-analyst-group@google.com")
              .setRole("roles/bigquery.connectionUser")
              .build();
      Policy policy = Policy.newBuilder().addBindings(binding).build();
      SetIamPolicyRequest request =
          SetIamPolicyRequest.newBuilder()
              .setResource(resource.toString())
              .setPolicy(policy)
              .build();
      client.setIamPolicy(request);
      System.out.println("Connection shared successfully");
    }
  }
}

Passaggi successivi

Scopri di più sui diversi tipi di connessione.
Scopri di più sulla gestione delle connessioni.
Scopri come creare una stored procedure per Apache Spark.
Scopri come gestire le stored procedure.