Il est possible qu'une partie ou l'ensemble des informations de cette page ne s'appliquent pas au Cloud de confiance S3NS.

Cette page a été traduite par l'API Cloud Translation.

Choisir une fonction de transcription

Ce document compare les fonctions de transcription disponibles dans BigQuery ML, à savoir ML.GENERATE_TEXT et ML.TRANSCRIBE.

Vous pouvez utiliser les informations de ce document pour vous aider à choisir la fonction à utiliser lorsque les fonctions se chevauchent.

De manière générale, la différence entre ces fonctions est la suivante :

ML.GENERATE_TEXT est un bon choix pour transcrire des extraits audio de 10 minutes ou moins. Vous pouvez également l'utiliser pour effectuer des tâches de traitement du langage naturel (TLN). La transcription audio avec ML.GENERATE_TEXT est moins chère qu'avec ML.TRANSCRIBE lorsque vous utilisez le modèle gemini-1.5-flash.
ML.TRANSCRIBE est un bon choix pour transcrire des extraits audio de plus de 10 minutes. Il est également compatible avec un plus grand nombre de langues que ML.GENERATE_TEXT.

Modèles compatibles

Les modèles compatibles sont les suivants :

ML.GENERATE_TEXT : vous pouvez utiliser un sous-ensemble des modèles Vertex AI Gemini pour générer du texte. Pour en savoir plus sur les modèles compatibles, consultez la page Syntaxe ML.GENERATE_TEXT.
ML.TRANSCRIBE : vous utilisez le modèle par défaut de l'API Speech-to-Text. L'utilisation de l'API Document AI vous donne accès à la transcription avec le modèle vocal Chirp.

Les tâches suivantes sont acceptées :

ML.GENERATE_TEXT : vous pouvez effectuer des tâches de transcription audio et de traitement du langage naturel (TLN).
ML.TRANSCRIBE : vous pouvez transcrire des contenus audio.

Les tarifs sont les suivants :

ML.GENERATE_TEXT : pour connaître la tarification des modèles Vertex AI que vous utilisez avec cette fonction, consultez Tarification de Vertex AI. Le réglage supervisé des modèles compatibles est facturé en dollars par nœud-heure. Pour en savoir plus, consultez les tarifs de l'entraînement personnalisé Vertex AI.
ML.TRANSCRIBE : pour connaître le prix du service Cloud AI que vous utilisez avec cette fonction, consultez les tarifs de l'API Speech-to-Text.

Voici les modèles compatibles avec le réglage supervisé :

Les limites de RPM sont les suivantes :

ML.GENERATE_TEXT : 60 RPM dans la région par défaut us-central1 pour les modèles gemini-1.5-pro et 200 RPM dans la région par défaut us-central1 pour les modèles gemini-1.5-flash. Pour en savoir plus, consultez Quotas de l'IA générative sur Vertex AI.
ML.TRANSCRIBE : 900 requêtes par minute et par projet. Pour en savoir plus, consultez la page Quotas et limites.

Pour augmenter votre quota, consultez Demander un ajustement de quota.

Les limites de jetons sont les suivantes :

ML.GENERATE_TEXT : 700 jetons d'entrée et 8 196 jetons de sortie. Cette limite de jetons de sortie signifie que ML.GENERATE_TEXT est limité à environ 39 minutes pour un extrait audio individuel.
ML.TRANSCRIBE : aucune limite de jetons. Cependant, cette fonction est limitée à 480 minutes par extrait audio.

Les langues compatibles sont les suivantes :

La disponibilité des régions est la suivante :

ML.GENERATE_TEXT : disponible dans toutes les régions Generative AI pour Vertex AI.
ML.TRANSCRIBE : disponible dans les emplacements multirégionaux EU et US pour tous les systèmes de reconnaissance vocale.