Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Cloud de Confiance by S3NS. Per maggiori dettagli, consulta Differenze rispetto a Google Cloud.

Questa pagina è stata tradotta dall'API Cloud Translation.

Gestisci i modelli aperti Gemma utilizzando le TPU su GKE con Saxml

Questo tutorial mostra come eseguire il deployment e gestire un modello linguistico di grandi dimensioni (LLM) Gemma 2 utilizzando le TPU su GKE con il framework di gestione Saxml. Questo tutorial fornisce le basi per comprendere ed esplorare l'implementazione pratica di LLM per l'inferenza in un ambiente Kubernetes gestito. Esegui il deployment di un container predefinito con Saxml in GKE. Configuri anche GKE per caricare i pesi di Gemma 2B e 7B da Cloud Storage in fase di runtime.

Questo tutorial è rivolto a ingegneri di machine learning (ML), amministratori e operatori della piattaforma e a specialisti di dati e AI interessati a utilizzare le funzionalità di orchestrazione dei container Kubernetes per la pubblicazione di LLM. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti diCloud de Confiance by S3NS , consulta Ruoli utente e attività comuni di GKE.

Prima di leggere questa pagina, assicurati di avere familiarità con quanto segue:

Disponibilità della versione TPU attuale con l'architettura di sistema Cloud TPU
TPU in GKE

Se hai bisogno di una piattaforma di AI gestita unificata per creare e pubblicare rapidamente modelli ML in modo conveniente, ti consigliamo di provare la nostra soluzione di deployment Vertex AI.

Sfondo

Questa sezione descrive le tecnologie chiave utilizzate in questo tutorial.

Gemma

Gemma è un insieme di modelli di AI generativa leggeri e disponibili apertamente rilasciati con una licenza aperta. Questi modelli di AI sono disponibili per l'esecuzione nelle tue applicazioni, hardware, dispositivi mobili o servizi ospitati. Puoi utilizzare i modelli Gemma per la generazione di testo e puoi ottimizzarli per attività specializzate.

Per saperne di più, consulta la documentazione di Gemma.

TPU

Le TPU sono circuiti integrati specifici per le applicazioni (ASIC) sviluppati da Google e utilizzati per accelerare i framework di elaborazione dei dati come TensorFlow, PyTorch e JAX.

Questo tutorial mostra i modelli Gemma 2B e Gemma 7B. GKE ospita questi modelli nei seguenti pool di nodi TPU v5e a singolo host:

Gemma 2B: modello ottimizzato per le istruzioni ospitato in un pool di nodi TPU v5e con topologia 1x1 che rappresenta un chip TPU. Il tipo di macchina per i nodi è ct5lp-hightpu-1t.
Gemma 7B: modello ottimizzato per le istruzioni ospitato in un pool di nodi TPU v5e con topologia 2x2 che rappresenta quattro chip TPU. Il tipo di macchina per i nodi è ct5lp-hightpu-4t.

Saxml

Saxml è un sistema sperimentale che gestisce i modelli Paxml, JAX e PyTorch per l'inferenza. Il sistema Saxml include i seguenti componenti:

Cella SaxML o cluster Sax: un server di amministrazione e un gruppo di server di modelli. Il server di amministrazione tiene traccia dei server dei modelli, assegna i modelli pubblicati ai server dei modelli da pubblicare e aiuta i client a individuare i server dei modelli che pubblicano modelli specifici.
Client Saxml: l'interfaccia di programmazione rivolta agli utenti per il sistema Saxml. Il client Saxml include uno strumento a riga di comando (saxutil) e una suite di librerie client in Python, C++ e Go.

In questo tutorial utilizzi anche il server HTTP Saxml. Il server HTTP Saxml è un server HTTP personalizzato che incapsula la libreria client Python Saxml ed espone API REST per interagire con il sistema Saxml. Le API REST includono endpoint per pubblicare, elencare, annullare la pubblicazione di modelli e generare previsioni.

Prepara l'ambiente per Gemma

Avvia Cloud Shell

In questo tutorial utilizzerai Cloud Shell per gestire le risorse ospitate su Cloud de Confiance. Cloud Shell è preinstallato con il software necessario per questo tutorial, tra cui kubectl e gcloud CLI.

Nella console Cloud de Confiance , avvia un'istanza Cloud Shell:
Apri Cloud Shell
Imposta le variabili di ambiente predefinite:
```
gcloud config set project PROJECT_ID
export PROJECT_ID=$(gcloud config get project)
export LOCATION=LOCATION
export CLUSTER_NAME=saxml-tpu
```
Sostituisci i seguenti valori:
- PROJECT_ID: il tuo Cloud de Confiance ID progetto.
- LOCATION: il nome della zona Compute Engine in cui sono disponibili i tipi di macchine TPU v5e.

Crea un cluster GKE Standard

In questa sezione, creerai il cluster GKE e il pool di nodi.

Gemma 2B-it

Utilizza Cloud Shell per svolgere le seguenti operazioni:

Crea un cluster Standard che utilizza Workload Identity Federation for GKE:

gcloud container clusters create ${CLUSTER_NAME} \
    --enable-ip-alias \
    --machine-type=e2-standard-4 \
    --num-nodes=2 \
    --release-channel=rapid \
    --workload-pool=${PROJECT_ID}.s3ns.svc.id.goog \
    --location=${LOCATION}

La creazione del cluster può richiedere diversi minuti.

Crea un pool di nodi TPU v5e con una topologia 1x1 e un nodo:

gcloud container node-pools create tpu-v5e-1x1 \
    --cluster=${CLUSTER_NAME} \
    --machine-type=ct5lp-hightpu-1t \
    --num-nodes=1 \
    --location=${LOCATION}

In questo pool di nodi viene gestito il modello Gemma 2B.

Gemma 7B-it

Utilizza Cloud Shell per svolgere le seguenti operazioni:

Crea un cluster Standard che utilizza Workload Identity Federation for GKE:

gcloud container clusters create ${CLUSTER_NAME} \
    --enable-ip-alias \
    --machine-type=e2-standard-4 \
    --num-nodes=2 \
    --release-channel=rapid \
    --workload-pool=${PROJECT_ID}.s3ns.svc.id.goog \
    --location=${LOCATION}

La creazione del cluster può richiedere diversi minuti.

Crea un pool di nodi TPU v5e con una topologia 2x2 e un nodo:

gcloud container node-pools create tpu-v5e-2x2 \
    --cluster=${CLUSTER_NAME} \
    --machine-type=ct5lp-hightpu-4t \
    --num-nodes=1 \
    --location=${LOCATION}

In questo pool di nodi viene pubblicato il modello Gemma 7B.

Crea i bucket Cloud Storage

Crea due bucket Cloud Storage per gestire lo stato del server Saxml Admin e i checkpoint del modello.

In Cloud Shell, esegui questo comando:

Crea un bucket Cloud Storage per archiviare le configurazioni del server Saxml Admin.
```
gcloud storage buckets create gs://ADMIN_BUCKET_NAME
```
Sostituisci ADMIN_BUCKET_NAME con il nome del bucket Cloud Storage che archivia il server Saxml Admin.
Crea un bucket Cloud Storage per archiviare i checkpoint del modello:
```
gcloud storage buckets create gs://CHECKPOINTS_BUCKET_NAME
```
Sostituisci CHECKPOINTS_BUCKET_NAME con il nome del bucket Cloud Storage in cui sono archiviati i checkpoint del modello.

Configura l'accesso ai tuoi workload utilizzando Workload Identity Federation for GKE

Assegna un service account Kubernetes all'applicazione e configura questo service account Kubernetes in modo che funga da account di servizio IAM.

Configura kubectl per comunicare con il cluster:

gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${LOCATION}

Crea un service account Kubernetes da utilizzare per la tua applicazione:
```
gcloud iam service-accounts create wi-sax
```

Aggiungi un'associazione della policy IAM per il tuo account di servizio IAM per leggere e scrivere in Cloud Storage:

gcloud projects add-iam-policy-binding ${PROJECT_ID} \
    --member "serviceAccount:wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com" \
    --role roles/storage.objectUser

gcloud projects add-iam-policy-binding ${PROJECT_ID} \
    --member "serviceAccount:wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com" \
    --role roles/storage.insightsCollectorService

Consenti al service account Kubernetes di rappresentare l'account di servizio IAM aggiungendo un'associazione dei criteri IAM tra i due service account. Questa associazione consente al service account Kubernetes di agire come account di servizio IAM:
```
gcloud iam service-accounts add-iam-policy-binding wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com \
    --role roles/iam.workloadIdentityUser \
    --member "serviceAccount:${PROJECT_ID}.s3ns.svc.id.goog[default/default]"
```

Annota il account di servizio Kubernetes con l'indirizzo email del account di servizio IAM:

kubectl annotate serviceaccount default \
    iam.gke.io/gcp-service-account=wi-sax@${PROJECT_ID}.s3ns.iam.gserviceaccount.com

Ottenere l'accesso al modello

Per accedere ai modelli Gemma per il deployment su GKE, devi accedere alla piattaforma Kaggle, firmare il contratto di consenso alla licenza e ottenere un token API Kaggle. In questo tutorial utilizzi un secret Kubernetes per le credenziali Kaggle.

Per utilizzare Gemma devi firmare il contratto di consenso. Segui queste istruzioni:

Accedi alla pagina del consenso del modello su Kaggle.com.
Accedi a Kaggle, se non l'hai ancora fatto.
Fai clic su Richiedi l'accesso.
Nella sezione Scegli l'account per il consenso, seleziona Verifica tramite l'account Kaggle per utilizzare il tuo account Kaggle per concedere il consenso.
Accetta i Termini e condizioni del modello.

Generare un token di accesso

Per accedere al modello tramite Kaggle, è necessario un token API Kaggle.

Segui questi passaggi per generare un nuovo token, se non ne hai già uno:

Nel browser, vai alle impostazioni di Kaggle.
Nella sezione API, fai clic su Crea nuovo token.

Kaggle scarica un file denominato kaggle.json.

Carica il token di accesso su Cloud Shell

In Cloud Shell, puoi caricare il token API Kaggle nel tuo progetto Cloud de Confiance by S3NS:

In Cloud Shell, fai clic su Altro > Carica.
Seleziona File e fai clic su Scegli file.
Apri il file kaggle.json.
Fai clic su Carica.

Crea un secret Kubernetes per le credenziali Kaggle

In Cloud Shell, segui questi passaggi:

Configura kubectl per comunicare con il cluster:

gcloud container clusters get-credentials ${CLUSTER_NAME} --location=${LOCATION}

Crea un secret per archiviare le credenziali Kaggle:

kubectl create secret generic kaggle-secret \
    --from-file=kaggle.json

Esegui il deployment di Saxml

In questa sezione, esegui il deployment del server di amministrazione Saxml, dei server di modelli e del server HTTP. Questo tutorial utilizza i manifest di deployment di Kubernetes. Un deployment è un oggetto API Kubernetes che ti consente di eseguire più repliche di pod distribuite tra i nodi di un cluster.

Esegui il deployment del server di amministrazione Saxml

In questa sezione, esegui il deployment del server di amministrazione Saxml.

Crea il seguente manifest saxml-admin-server.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: sax-admin-server
spec:
  replicas: 1
  selector:
    matchLabels:
      app: sax-admin-server
  template:
    metadata:
      labels:
        app: sax-admin-server
    spec:
      hostNetwork: false
      containers:
      - name: sax-admin-server
        image: us-docker.pkg.dev/cloud-tpu-images/inference/sax-admin-server:v1.2.0
        securityContext:
          privileged: true
        ports:
        - containerPort: 10000
        env:
        - name: GSBUCKET
          value: ADMIN_BUCKET_NAME

Sostituisci ADMIN_BUCKET_NAME con il nome del bucket che hai creato nella sezione Crea bucket Cloud Storage. Non includere il prefisso gs://.

Applica il manifest:

kubectl apply -f saxml-admin-server.yaml

Verifica il deployment del server di amministrazione:

kubectl get deployment

L'output è simile al seguente:

NAME                              READY   UP-TO-DATE   AVAILABLE   AGE
sax-admin-server                  1/1     1            1           ##s

Esegui il deployment del server di modelli Saxml

Segui queste istruzioni per eseguire il deployment del server del modello per il modello Gemma 2B o Gemma 7B.

Gemma 2B-it

Crea il seguente manifest saxml-model-server-1x1.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: sax-model-server-v5e-1x1
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gemma-server
  strategy:
    type: Recreate
  template:
    metadata:
      labels:
        app: gemma-server
        ai.gke.io/model: gemma-2b-it
        ai.gke.io/inference-server: saxml
        examples.ai.gke.io/source: user-guide
    spec:
      nodeSelector:
        cloud.google.com/gke-tpu-topology: 1x1
        cloud.google.com/gke-tpu-accelerator: tpu-v5-lite-podslice
      hostNetwork: false
      restartPolicy: Always
      containers:
      - name: inference-server
        image: us-docker.pkg.dev/cloud-tpu-images/inference/sax-model-server:v1.2.0
        args:
        - "--jax_platforms=tpu"
        - "--platform_chip=tpuv5e"
        - "--platform_topology=1x1"
        - "--port=10001"
        - "--sax_cell=/sax/test"
        ports:
        - containerPort: 10001
        securityContext:
          privileged: true
        env:
        - name: SAX_ROOT
          value: "gs://ADMIN_BUCKET_NAME/sax-root"
        resources:
          requests:
            google.com/tpu: 1
          limits:
            google.com/tpu: 1

Sostituisci ADMIN_BUCKET_NAME con il nome del bucket che hai creato nella sezione Crea bucket Cloud Storage. Non includere il prefisso gs://.

Applica il manifest:

kubectl apply -f saxml-model-server-1x1.yaml

Verifica lo stato del deployment del server dei modelli:

kubectl get deployment

L'output è simile al seguente:

NAME                                              READY   STATUS    RESTARTS   AGE
sax-admin-server                                  1/1     Running   0          ##m
sax-model-server-v5e-1x1                          1/1     Running   0          ##s

Gemma 7B-it

Crea il seguente manifest saxml-model-server-2x2.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: sax-model-server-v5e-2x2
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gemma-server
  strategy:
    type: Recreate
  template:
    metadata:
      labels:
        app: gemma-server
        ai.gke.io/model: gemma-7b-it
        ai.gke.io/inference-server: saxml
        examples.ai.gke.io/source: user-guide
    spec:
      nodeSelector:
        cloud.google.com/gke-tpu-topology: 2x2
        cloud.google.com/gke-tpu-accelerator: tpu-v5-lite-podslice
      hostNetwork: false
      restartPolicy: Always
      containers:
      - name: inference-server
        image: us-docker.pkg.dev/cloud-tpu-images/inference/sax-model-server:v1.2.0
        args:
        - "--jax_platforms=tpu"
        - "--platform_chip=tpuv5e"
        - "--platform_topology=2x2"
        - "--port=10001"
        - "--sax_cell=/sax/test"
        ports:
        - containerPort: 10001
        securityContext:
          privileged: true
        env:
        - name: SAX_ROOT
          value: "gs://ADMIN_BUCKET_NAME/sax-root"
        resources:
          requests:
            google.com/tpu: 4
          limits:
            google.com/tpu: 4

Sostituisci ADMIN_BUCKET_NAME con il nome del bucket che hai creato nella sezione Crea bucket Cloud Storage. Non includere il prefisso gs://.

Applica il manifest:

kubectl apply -f saxml-model-server-2x2.yaml

Verifica lo stato del deployment del server dei modelli:

kubectl get deployment

L'output è simile al seguente:

NAME                                              READY   STATUS    RESTARTS   AGE
sax-admin-server                                  1/1     Running   0          ##m
sax-model-server-v5e-2x2                          1/1     Running   0          ##s

Esegui il deployment del server HTTP Saxml

In questa sezione, esegui il deployment del server HTTP Saxml e crea un servizio Cluster IP che utilizzi per accedere al server.

Crea il seguente manifest saxml-http.yaml:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: sax-http
spec:
  replicas: 1
  selector:
    matchLabels:
      app: sax-http
  template:
    metadata:
      labels:
        app: sax-http
    spec:
      hostNetwork: false
      containers:
      - name: sax-http
        image: us-docker.pkg.dev/cloud-tpu-images/inference/sax-http:v1.2.0
        imagePullPolicy: Always
        ports:
        - containerPort: 8888
        env:
        - name: SAX_ROOT
          value: "gs://ADMIN_BUCKET_NAME/sax-root"
---
apiVersion: v1
kind: Service
metadata:
  name: sax-http-svc
spec:
  selector:
    app: sax-http
  ports:
  - protocol: TCP
    port: 8888
    targetPort: 8888
  type: ClusterIP

Sostituisci ADMIN_BUCKET_NAME con il nome del bucket Cloud Storage che archivia il server Saxml Admin.

Applica il manifest:
```
kubectl apply -f saxml-http.yaml
```

Verifica lo stato del deployment del server HTTP Saxml:

kubectl get deployment

Gemma 2B-it

L'output è simile al seguente:

NAME                                              READY   STATUS    RESTARTS   AGE
sax-admin-server                                  1/1     Running   0          ##m
sax-model-server-v5e-1x1                          1/1     Running   0          ##m
sax-http                                          1/1     Running   0          ##s

Gemma 7B-it

L'output è simile al seguente:

NAME                                              READY   STATUS    RESTARTS   AGE
sax-admin-server                                  1/1     Running   0          ##m
sax-model-server-v5e-2x2                          1/1     Running   0          ##m
sax-http                                          1/1     Running   0          ##s

Scarica il checkpoint del modello

In questa sezione, esegui un job Kubernetes che recupera, scarica e archivia il checkpoint del modello. Un controller Job in Kubernetes crea uno o più pod e assicura che eseguano correttamente un'attività specifica.

Segui i passaggi per il modello Gemma che vuoi utilizzare:

Gemma 2B-it

Crea il seguente manifest job-2b.yaml:

apiVersion: v1
kind: ConfigMap
metadata:
  name: fetch-model-scripts
data:
  fetch_model.sh: |-
    #!/usr/bin/bash -x
    pip install kaggle --break-system-packages && \

    MODEL_NAME=$(echo ${MODEL_PATH} | awk -F'/' '{print $2}') && \
    VARIATION_NAME=$(echo ${MODEL_PATH} | awk -F'/' '{print $4}') && \

    mkdir -p /data/${MODEL_NAME}_${VARIATION_NAME} &&\
    kaggle models instances versions download ${MODEL_PATH} --untar -p /data/${MODEL_NAME}_${VARIATION_NAME} && \
    echo -e "\nCompleted extraction to /data/${MODEL_NAME}_${VARIATION_NAME}" && \

    gcloud storage rsync --recursive --no-clobber /data/${MODEL_NAME}_${VARIATION_NAME} gs://${BUCKET_NAME}/${MODEL_NAME}_${VARIATION_NAME} && \
    echo -e "\nCompleted copy of data to gs://${BUCKET_NAME}/${MODEL_NAME}_${VARIATION_NAME}"
---
apiVersion: batch/v1
kind: Job
metadata:
  name: data-loader-2b
  labels:
    app: data-loader-2b
spec:
  ttlSecondsAfterFinished: 120
  template:
    metadata:
      labels:
        app: data-loader-2b
    spec:
      restartPolicy: OnFailure
      containers:
      - name: gcloud
        image: gcr.io/google.com/cloudsdktool/google-cloud-cli:slim
        command:
        - /scripts/fetch_model.sh
        env:
        - name: BUCKET_NAME
          value: CHECKPOINTS_BUCKET_NAME
        - name: KAGGLE_CONFIG_DIR
          value: /kaggle
        - name: MODEL_PATH
          value: "google/gemma/pax/2b-it/2"
        volumeMounts:
        - mountPath: "/kaggle/"
          name: kaggle-credentials
          readOnly: true
        - mountPath: "/scripts/"
          name: scripts-volume
          readOnly: true
      volumes:
      - name: kaggle-credentials
        secret:
          defaultMode: 0400
          secretName: kaggle-secret
      - name: scripts-volume
        configMap:
          defaultMode: 0700
          name: fetch-model-scripts

Sostituisci CHECKPOINTS_BUCKET_NAME con il nome del bucket che hai creato nella sezione Crea bucket Cloud Storage. Non includere il prefisso gs://.

Applica il manifest:
```
kubectl apply -f job-2b.yaml
```

Attendi il completamento del job:

kubectl wait --for=condition=complete --timeout=180s job/data-loader-2b

L'output è simile al seguente:

job.batch/data-loader-2b condition met

Verifica che il job sia stato completato correttamente:

kubectl get job/data-loader-2b

L'output è simile al seguente:

NAME             COMPLETIONS   DURATION   AGE
data-loader-2b   1/1           ##s        #m##s

Visualizza i log del job:

kubectl logs --follow job/data-loader-2b

Il job carica il checkpoint su gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000.

Gemma 7B-it

Crea il seguente manifest job-7b.yaml:

apiVersion: v1
kind: ConfigMap
metadata:
  name: fetch-model-scripts
data:
  fetch_model.sh: |-
    #!/usr/bin/bash -x
    pip install kaggle --break-system-packages && \

    MODEL_NAME=$(echo ${MODEL_PATH} | awk -F'/' '{print $2}') && \
    VARIATION_NAME=$(echo ${MODEL_PATH} | awk -F'/' '{print $4}') && \

    mkdir -p /data/${MODEL_NAME}_${VARIATION_NAME} &&\
    kaggle models instances versions download ${MODEL_PATH} --untar -p /data/${MODEL_NAME}_${VARIATION_NAME} && \
    echo -e "\nCompleted extraction to /data/${MODEL_NAME}_${VARIATION_NAME}" && \

    gcloud storage rsync --recursive --no-clobber /data/${MODEL_NAME}_${VARIATION_NAME} gs://${BUCKET_NAME}/${MODEL_NAME}_${VARIATION_NAME} && \
    echo -e "\nCompleted copy of data to gs://${BUCKET_NAME}/${MODEL_NAME}_${VARIATION_NAME}"
---
apiVersion: batch/v1
kind: Job
metadata:
  name: data-loader-7b
  labels:
    app: data-loader-7b
spec:
  ttlSecondsAfterFinished: 120
  template:
    metadata:
      labels:
        app: data-loader-7b
    spec:
      restartPolicy: OnFailure
      containers:
      - name: gcloud
        image: gcr.io/google.com/cloudsdktool/google-cloud-cli:slim
        command:
        - /scripts/fetch_model.sh
        env:
        - name: BUCKET_NAME
          value: CHECKPOINTS_BUCKET_NAME
        - name: KAGGLE_CONFIG_DIR
          value: /kaggle
        - name: MODEL_PATH
          value: "google/gemma/pax/7b-it/2"
        volumeMounts:
        - mountPath: "/kaggle/"
          name: kaggle-credentials
          readOnly: true
        - mountPath: "/scripts/"
          name: scripts-volume
          readOnly: true
      volumes:
      - name: kaggle-credentials
        secret:
          defaultMode: 0400
          secretName: kaggle-secret
      - name: scripts-volume
        configMap:
          defaultMode: 0700
          name: fetch-model-scripts

Sostituisci CHECKPOINTS_BUCKET_NAME con il nome del bucket che hai creato nella sezione Crea bucket Cloud Storage. Includi il prefisso gs://.

Applica il manifest:
```
kubectl apply -f job-7b.yaml
```

Attendi il completamento del job:

kubectl wait --for=condition=complete --timeout=360s job/data-loader-7b

L'output è simile al seguente:

job.batch/data-loader-7b condition met

Verifica che il job sia stato completato correttamente:

kubectl get job/data-loader-7b

L'output è simile al seguente:

NAME             COMPLETIONS   DURATION   AGE
data-loader-7b   1/1           ##s        #m##s

Visualizza i log del job:

kubectl logs --follow job/data-loader-7b

Il job carica il checkpoint su gs://CHECKPOINTS_BUCKET_NAME/gemma_7b_it/checkpoint_00000000.

Esporre il server HTTP Saxml

Puoi accedere al server HTTP Saxml tramite il servizio ClusterIP che hai creato durante la deployment del server HTTP Saxml. I servizi ClusterIP sono raggiungibili solo dall'interno del cluster. Pertanto, per accedere al servizio dall'esterno del cluster, completa i seguenti passaggi:

Stabilisci una sessione di port forwarding:

kubectl port-forward service/sax-http-svc 8888:8888

Verifica di poter accedere al server HTTP Saxml aprendo un nuovo terminale ed eseguendo questo comando:
```
curl -s localhost:8888
```
L'output è simile al seguente:
```
{
    "Message": "HTTP Server for SAX Client"
}
```

Il server HTTP Saxml incapsula l'interfaccia client del sistema Saxml e la espone tramite un insieme di API REST. Utilizzi queste API per pubblicare, gestire e interagire con i modelli Gemma 2B e Gemma 7B.

Pubblicare il modello Gemma

Dopodiché, puoi pubblicare il modello Gemma su un server di modelli che viene eseguito in un pool di nodi di slice TPU. Per pubblicare un modello, utilizzi l'API publish del server HTTP Saxml. Segui questi passaggi per pubblicare il modello con parametri Gemma 2B o 7B.

Per scoprire di più sull'API del server HTTP Saxml, consulta API HTTP Saxml.

Gemma 2B-it

Assicurati che la sessione di port forwarding sia ancora attiva:
```
curl -s localhost:8888
```

Pubblica il parametro Gemma 2B:

curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/publish \
--data \
'{
    "model": "/sax/test/gemma2bfp16",
    "model_path": "saxml.server.pax.lm.params.gemma.Gemma2BFP16",
    "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000",
    "replicas": "1"
}'

L'output è simile al seguente:

{
    "model": "/sax/test/gemma2bfp16",
    "model_path": "saxml.server.pax.lm.params.gemma.Gemma2BFP16",
    "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000",
    "replicas": 1
}

Consulta il passaggio successivo per monitorare l'avanzamento dell'implementazione.

Monitora l'avanzamento osservando i log in un pod del server modello del deployment sax-model-server-v5e-1x1.

kubectl logs --follow deployment/sax-model-server-v5e-1x1

Il completamento del deployment può richiedere fino a cinque minuti. Attendi finché non viene visualizzato un messaggio simile al seguente:

I0125 15:34:31.685555 139063071708736 servable_model.py:699] loading completed.
I0125 15:34:31.686286 139063071708736 model_service_base.py:532] Successfully loaded model for key: /sax/test/gemma2bfp16

Verifica di poter accedere al modello visualizzando le informazioni del modello:

curl --request GET \
--header "Content-type: application/json" \
-s \
localhost:8888/listcell \
--data \
'{
    "model": "/sax/test/gemma2bfp16"
}'

L'output è simile al seguente:

{
    "model": "/sax/test/gemma2bfp16",
    "model_path": "saxml.server.pax.lm.params.gemma.Gemma2BFP16",
    "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_2b-it/checkpoint_00000000",
    "max_replicas": 1,
    "active_replicas": 1
}

Gemma 7B-it

Assicurati che la sessione di port forwarding sia ancora attiva:
```
curl -s localhost:8888
```

Pubblica il parametro Gemma 7B:

curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/publish \
--data \
'{
    "model": "/sax/test/gemma7bfp16",
    "model_path": "saxml.server.pax.lm.params.gemma.Gemma7BFP16",
    "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_7b-it/checkpoint_00000000",
    "replicas": "1"
}'

L'output è simile al seguente:

{
    "model": "/sax/test/gemma7bfp16",
    "model_path": "saxml.server.pax.lm.params.gemma.Gemma7BFP16",
    "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_7b-it/checkpoint_00000000",
    "replicas": 1
}

Consulta il passaggio successivo per monitorare l'avanzamento dell'implementazione.

Monitora l'avanzamento osservando i log in un pod del server modello del deployment sax-model-server-v5e-2x2.

kubectl logs --follow deployment/sax-model-server-v5e-2x2

Attendi finché non viene visualizzato un messaggio simile al seguente:

I0125 15:34:31.685555 139063071708736 servable_model.py:699] loading completed.
I0125 15:34:31.686286 139063071708736 model_service_base.py:532] Successfully loaded model for key: /sax/test/gemma7bfp16

Verifica che il modello sia stato pubblicato visualizzando le informazioni del modello:

curl --request GET \
--header "Content-type: application/json" \
-s \
localhost:8888/listcell \
--data \
'{
    "model": "/sax/test/gemma7bfp16"
}'

L'output è simile al seguente:

{
    "model": "/sax/test/gemma7bfp16",
    "model_path": "saxml.server.pax.lm.params.gemma.Gemma7BFP16",
    "checkpoint": "gs://CHECKPOINTS_BUCKET_NAME/gemma_7b-it/checkpoint_00000000",
    "max_replicas": 1,
    "active_replicas": 1
}

usa il modello

Puoi interagire con i modelli Gemma 2B o 7B. Utilizza l'API generate del server HTTP Saxml per inviare un prompt al modello.

Gemma 2B-it

Servi una richiesta di prompt utilizzando l'endpoint generate del server HTTP Saxml:

curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/generate \
--data \
'{
  "model": "/sax/test/gemma2bfp16",
  "query": "What are the top 5 most popular programming languages?"
}'

Di seguito è riportato un esempio di risposta del modello. L'output effettivo varia in base al prompt che fornisci:

[
    [
        "\n\n1. **Python**\n2. **JavaScript**\n3. **Java**\n4. **C++**\n5. **Go**",
        -3.0704939365386963
    ]
]

Puoi eseguire il comando con parametri query diversi. Puoi anche modificare parametri aggiuntivi come temperature, top_k, topc_p utilizzando l'API generate. Per scoprire di più sull'API del server HTTP Saxml, consulta API HTTP Saxml.

Gemma 7B-it

Servi una richiesta di prompt utilizzando l'endpoint generate del server HTTP Saxml:

curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/generate \
--data \
'{
  "model": "/sax/test/gemma7bfp16",
  "query": "What are the top 5 most popular programming languages?"
}'

Di seguito è riportato un esempio di risposta del modello. L'output potrebbe variare in ogni prompt che fornisci:

[
    [
        "\n\n**1. JavaScript**\n\n* Most widely used language on the web.\n* Used for front-end development, such as websites and mobile apps.\n* Extensive libraries and frameworks available.\n\n**2. Python**\n\n* Known for its simplicity and readability.\n* Versatile, used for various tasks, including data science, machine learning, and web development.\n* Large and active community.\n\n**3. Java**\n\n* Object-oriented language widely used in enterprise applications.\n* Used for web applications, mobile apps, and enterprise software.\n* Strong ecosystem and support.\n\n**4. Go**\n\n",
        -16.806324005126953
    ]
]

Annullare la pubblicazione del modello

Per annullare la pubblicazione del modello:

Gemma 2B-it

Per annullare la pubblicazione del modello Gemma 2B-it, esegui questo comando:

curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/unpublish \
--data \
'{
    "model": "/sax/test/gemma2bfp16"
}'

L'output è simile al seguente:

{
    "model": "/sax/test/gemma2bfp16"
}

Puoi eseguire il comando con prompt diversi passati nel parametro query.

Gemma 7B-it

Per annullare la pubblicazione del modello Gemma 7B-it, esegui questo comando:

curl --request POST \
--header "Content-type: application/json" \
-s \
localhost:8888/unpublish \
--data \
'{
    "model": "/sax/test/gemma7bfp16"
}'

L'output è simile al seguente:

{
    "model": "/sax/test/gemma7bfp16"
}

Puoi eseguire il comando con prompt diversi passati nel parametro query.

Risoluzione dei problemi

Se ricevi il messaggio Empty reply from server, è possibile che il container non abbia completato il download dei dati del modello. Controlla di nuovo i log del pod per il messaggio Connected che indica che il modello è pronto per la pubblicazione.
Se visualizzi Connection refused, verifica che l'inoltro delle porte sia attivo.

Gestisci i modelli aperti Gemma utilizzando le TPU su GKE con Saxml

Sfondo

Gemma

TPU

Saxml

Prepara l'ambiente per Gemma

Avvia Cloud Shell

Crea un cluster GKE Standard

Gemma 2B-it

Gemma 7B-it

Crea i bucket Cloud Storage

Configura l'accesso ai tuoi workload utilizzando Workload Identity Federation for GKE

Ottenere l'accesso al modello

Firmare il contratto di consenso alla licenza

Generare un token di accesso

Carica il token di accesso su Cloud Shell

Crea un secret Kubernetes per le credenziali Kaggle

Esegui il deployment di Saxml

Esegui il deployment del server di amministrazione Saxml

Esegui il deployment del server di modelli Saxml

Gemma 2B-it

Gemma 7B-it

Esegui il deployment del server HTTP Saxml

Gemma 2B-it

Gemma 7B-it

Scarica il checkpoint del modello

Gemma 2B-it

Gemma 7B-it

Esporre il server HTTP Saxml

Pubblicare il modello Gemma

Gemma 2B-it

Gemma 7B-it

usa il modello

Gemma 2B-it

Gemma 7B-it

Annullare la pubblicazione del modello

Gemma 2B-it

Gemma 7B-it

Risoluzione dei problemi