Essayer BigQuery DataFrames
Utilisez ce guide de démarrage rapide pour effectuer les tâches d'analyse et de machine learning (ML) suivantes à l'aide de l'API BigQuery DataFrames dans un notebook BigQuery:
- Créer un DataFrame sur l'ensemble de données public
bigquery-public-data.ml_datasets.penguins
. - Calculer la masse moyenne d'un pingouin.
- Créer un modèle de régression linéaire.
- Créer un DataFrame sur un sous-ensemble de données "penguin" à utiliser comme données d'entraînement.
- Nettoyer les données d'entraînement.
- Définir les paramètres du modèle.
- Ajuster au modèle.
- Attribuer des scores au modèle.
Avant de commencer
-
In the Trusted Cloud console, on the project selector page, select or create a Trusted Cloud project.
-
Verify that billing is enabled for your Trusted Cloud project.
Vérifiez que l'API BigQuery est activée.
Si vous avez créé un nouveau projet, l'API BigQuery est automatiquement activée.
- Utilisateur BigQuery (
roles/bigquery.user
) - Utilisateur de l'environnement d'exécution de notebook (
roles/aiplatform.notebookRuntimeUser
) - Créateur de code (
roles/dataform.codeCreator
) - Créez une nouvelle cellule de code dans le notebook.
Copiez le code suivant et collez-le dans la cellule de code :
import bigframes.pandas as bpd # Set BigQuery DataFrames options # Note: The project option is not required in all environments. # On BigQuery Studio, the project ID is automatically detected. bpd.options.bigquery.project = your_gcp_project_id # Use "partial" ordering mode to generate more efficient queries, but the # order of the rows in DataFrames may not be deterministic if you have not # explictly sorted it. Some operations that depend on the order, such as # head() will not function until you explictly order the DataFrame. Set the # ordering mode to "strict" (default) for more pandas compatibility. bpd.options.bigquery.ordering_mode = "partial" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Efficiently preview the results using the .peek() method. df.peek() # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
Modifiez la ligne
bpd.options.bigquery.project = your_gcp_project_id
pour spécifier votre projet, par exemplebpd.options.bigquery.project = "myproject"
.Exécutez la cellule de code.
La cellule de code renvoie la masse moyenne du pingouin dans l'ensemble de données, puis renvoie les métriques d'évaluation du modèle.
- In the Trusted Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
- Découvrez comment utiliser BigQuery DataFrames.
- Découvrez comment visualiser des graphiques à l'aide de BigQuery DataFrames.
- Découvrez comment utiliser un notebook BigQuery DataFrames.
Autorisations requises
Pour créer et exécuter des notebooks, vous avez besoin des rôles IAM (Identity and Access Management) suivants :
Créer un notebook
Suivez les instructions de la section Créer un notebook à partir de l'éditeur BigQuery pour créer un notebook.
Essayer BigQuery DataFrames
Essayez BigQuery DataFrames en procédant comme suit :
Effectuer un nettoyage
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :