Alcune o tutte le informazioni in questa pagina potrebbero non essere applicabili a Trusted Cloud di S3NS.
Scegli una funzione di elaborazione dei documenti
Questo documento fornisce un confronto delle funzioni di elaborazione dei documenti disponibili in BigQuery ML, ovvero ML.GENERATE_TEXT
e ML.PROCESS_DOCUMENT
.
Puoi utilizzare le informazioni contenute in questo documento per decidere quale funzione utilizzare nei casi in cui le funzioni abbiano funzionalità sovrapposte.
A livello generale, la differenza tra queste funzioni è la seguente:
ML.GENERATE_TEXT
è una buona scelta per eseguire attività di elaborazione del linguaggio naturale (NLP) in cui alcuni contenuti si trovano in documenti. Questa funzione offre i seguenti vantaggi:
- Riduci i costi
- Supporto di più lingue
- Maggiore velocità in uscita
- Funzionalità di ottimizzazione del modello
- Disponibilità dei modelli multimodali
Per esempi di attività di elaborazione dei documenti che funzionano meglio con questo approccio, consulta Esplorare le funzionalità di elaborazione dei documenti con l'API Gemini.
ML.PROCESS_DOCUMENT
è una buona scelta per eseguire attività di elaborazione dei documenti che richiedono l'analisi del documento e una risposta strutturata predefinita.
Modelli supportati
I modelli supportati sono i seguenti:
ML.GENERATE_TEXT
: puoi utilizzare un sottoinsieme dei modelli Vertex AI
Gemini per
generare testo. Per ulteriori informazioni sui modelli supportati, consulta la sintassi ML.GENERATE_TEXT
.
ML.PROCESS_DOCUMENT
: utilizzi il modello predefinito dell'API Document AI. L'utilizzo dell'API Document AI consente di accedere a molti diversi elaboratori di documenti, come l'analizzatore sintattico delle fatture, l'analizzatore sintattico del layout e l'analizzatore sintattico dei moduli. Puoi utilizzare questi elaboratori di documenti per lavorare con file PDF con strutture molto diverse.
Attività supportate
Le attività supportate sono le seguenti:
ML.GENERATE_TEXT
: puoi eseguire qualsiasi attività di NLP in cui l'input è un
documento. Ad esempio, dato un documento finanziario di un'azienda,
puoi recuperare le informazioni del documento fornendo un prompt come What is
the quarterly revenue for each division?
.
ML.PROCESS_DOCUMENT
: puoi eseguire l'elaborazione di documenti specializzati per diversi tipi di documenti, come fatture, moduli fiscali e bilanci finanziari. Puoi anche eseguire il chunking dei documenti. Per ulteriori informazioni su come utilizzare la funzione ML.PROCESS_DOCUMENT
per questa attività, consulta Eseguire l'analisi dei PDF in una pipeline di generazione basata sul recupero.
Prezzi
I prezzi sono i seguenti:
Ottimizzazione supervisionata
L'ottimizzazione supervisionata è supportata come segue:
ML.GENERATE_TEXT
: l'ottimizzazione supervisionata è supportata per alcuni modelli.
ML.PROCESS_DOCUMENT
: l'ottimizzazione supervisionata non è supportata.
Limite di query al minuto (QPM)
I limiti di QPM sono i seguenti:
ML.GENERATE_TEXT
: 60 QPM nella regione us-central1
predefinita per i modelli gemini-1.5-pro
e 200 QPM nella regione us-central1
predefinita per i modelli gemini-1.5-flash
. Per ulteriori informazioni, consulta
Quota di IA generativa su Vertex AI.
ML.PROCESS_DOCUMENT
: 120 QPM per tipo di processore, con un limite complessivo di
600 QPM per progetto. Per ulteriori informazioni, consulta
Elenco delle quote.
Per aumentare la quota, consulta la sezione Richiedere un aggiustamento della quota.
Limite di token
I limiti per i token sono i seguenti:
ML.GENERATE_TEXT
: 700 token di input e 8196 token di output.
ML.PROCESS_DOCUMENT
: nessun limite di token. Tuttavia, questa funzione ha limiti di pagine diversi a seconda del processore utilizzato. Per ulteriori informazioni, consulta Limiti.
Lingue supportate
Le lingue supportate sono:
ML.GENERATE_TEXT
: supporta le stesse lingue di
Gemini.
ML.PROCESS_DOCUMENT
: il supporto delle lingue dipende dal tipo di elaboratore di documenti. La maggior parte supporta solo l'inglese. Per ulteriori informazioni, consulta
Elenco dei processori.
Disponibilità per regione
La disponibilità per regione è la seguente:
ML.GENERATE_TEXT
: disponibile in tutte le regioni di Generative AI per Vertex AI.
ML.PROCESS_DOCUMENT
: disponibile nelle regioni multiple EU
e US
per tutti i processori.
Alcuni processori sono disponibili anche in determinate regioni. Per ulteriori informazioni, consulta Supporto per una o più regioni.
Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.
Ultimo aggiornamento 2025-08-17 UTC.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-08-17 UTC."],[[["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e is suitable for natural language processing tasks within documents, offering benefits like lower costs, broader language support, faster processing, model tuning, and multimodal model options.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e excels in document processing tasks requiring structured responses and document parsing, and also supports working with different PDF file structures.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e uses a subset of Vertex AI Gemini models and supports a wide array of natural language processing tasks, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e utilizes the Document AI API, with specialized document processing for tasks like parsing invoices or tax forms.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e supports supervised tuning for certain models, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e does not have supervised tuning support.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e has higher language support and lower token limits, whereas \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e depends on the document processor for language support and has no token limit, only page limits.\u003c/p\u003e\n"]]],[],null,["# Choose a document processing function\n=====================================\n\nThis document provides a comparison of the document processing functions\navailable in BigQuery ML, which are\n[`ML.GENERATE_TEXT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text)\nand\n[`ML.PROCESS_DOCUMENT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-process-document).\n\nYou can use the information in this document to help you decide which function\nto use in cases where the functions have overlapping capabilities.\n\nAt a high level, the difference between these functions is as follows:\n\n- `ML.GENERATE_TEXT` is a good choice for performing natural\n language processing (NLP) tasks where some of the content resides in\n documents. This function offers the following benefits:\n\n - Lower costs\n - More language support\n - Faster throughput\n - Model tuning capability\n - Availability of multimodal models\n\n For examples of document processing tasks that work best with this\n approach, see\n [Explore document processing capabilities with the Gemini API](https://ai.google.dev/gemini-api/docs/document-processing).\n- `ML.PROCESS_DOCUMENT` is a good choice for performing document processing\n tasks that require document parsing and a predefined, structured response.\n\nSupported models\n----------------\n\nSupported models are as follows:\n\n- `ML.GENERATE_TEXT`: you can use a subset of the Vertex AI [Gemini](/vertex-ai/generative-ai/docs/learn/models#gemini-models) models to generate text. For more information on supported models, see the [`ML.GENERATE_TEXT` syntax](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text#syntax).\n- `ML.PROCESS_DOCUMENT`: you use the default model of the [Document AI API](/document-ai). Using the Document AI API gives you access to many different document processors, such as the invoice parser, layout parser, and form parser. You can use these document processors to work with PDF files with many different structures.\n\nSupported tasks\n---------------\n\nSupported tasks are as follows:\n\n- `ML.GENERATE_TEXT`: you can perform any NLP task where the input is a document. For example, given a financial document for a company, you can retrieve document information by providing a prompt such as `What is\n the quarterly revenue for each division?`.\n- `ML.PROCESS_DOCUMENT`: you can perform specialized document processing for different document types, such as invoices, tax forms, and financial statements. You can also perform document chunking. For more information, on how to use the `ML.PROCESS_DOCUMENT` function fo this task, see [Parse PDFs in a retrieval-augmented generation pipeline](/bigquery/docs/rag-pipeline-pdf).\n\nPricing\n-------\n\nPricing is as follows:\n\n- `ML.GENERATE_TEXT`: For pricing of the Vertex AI models that you use with this function, see [Vertex AI pricing](/vertex-ai/generative-ai/pricing). Supervised tuning of supported models is charged at dollars per node hour. For more information, see [Vertex AI custom training pricing](/vertex-ai/pricing#custom-trained_models).\n- `ML.PROCESS_DOCUMENT`: For pricing of the Cloud AI service that you use with this function, see [Document AI API pricing](/document-ai/pricing).\n\nSupervised tuning\n-----------------\n\nSupervised tuning support is as follows:\n\n- `ML.GENERATE_TEXT`: [supervised tuning](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-remote-model#supervised_tuning) is supported for some models.\n- `ML.PROCESS_DOCUMENT`: supervised tuning isn't supported.\n\nQueries per minute (QPM) limit\n------------------------------\n\nQPM limits are as follows:\n\n- `ML.GENERATE_TEXT`: 60 QPM in the default `us-central1` region for `gemini-1.5-pro` models, and 200 QPM in the default `us-central1` region for `gemini-1.5-flash` models. For more information, see [Generative AI on Vertex AI quotas](/vertex-ai/generative-ai/docs/quotas).\n- `ML.PROCESS_DOCUMENT`: 120 QPM per processor type, with an overall limit of 600 QPM per project. For more information, see [Quotas list](/document-ai/quotas#quotas_list).\n\nTo increase your quota, see\n[Request a quota adjustment](/docs/quotas/help/request_increase).\n\nToken limit\n-----------\n\nToken limits are as follows:\n\n- `ML.GENERATE_TEXT`: 700 input tokens, and 8196 output tokens.\n- `ML.PROCESS_DOCUMENT`: No token limit. However, this function does have different page limits depending on the processor you use. For more information, see [Limits](/document-ai/limits).\n\nSupported languages\n-------------------\n\nSupported languages are as follows:\n\n- `ML.GENERATE_TEXT`: supports the same languages as [Gemini](/vertex-ai/generative-ai/docs/learn/models#languages-gemini).\n- `ML.PROCESS_DOCUMENT`: language support depends on the document processor type; most only support English. For more information, see [Processor list](/document-ai/docs/processors-list).\n\nRegion availability\n-------------------\n\nRegion availability is as follows:\n\n- `ML.GENERATE_TEXT`: available in all Generative AI for Vertex AI [regions](/vertex-ai/generative-ai/docs/learn/locations#available-regions).\n- `ML.PROCESS_DOCUMENT`: available in the `EU` and `US` [multi-regions](/bigquery/docs/locations#multi-regions) for all processors. Some processors are also available in certain single regions. For more information, see [Regional and multi-regional support](/document-ai/docs/regions)."]]