このページの一部またはすべての情報は、S3NS の Trusted Cloud に適用されない場合があります。
ドキュメント処理関数を選択する
このドキュメントでは、BigQuery ML で使用可能なドキュメント処理関数(ML.GENERATE_TEXT
、ML.PROCESS_DOCUMENT
)の比較を行います。
関数の機能が重複している場合は、このドキュメントの情報を使用して、使用する関数を決定できます。
概略を示すと、これらの関数の違いは次のとおりです。
ML.GENERATE_TEXT
は、一部のコンテンツがドキュメントに存在する自然言語処理(NLP)タスクを実行する場合に適しています。この関数には次の利点があります。
- コストの削減
- 対応言語の追加
- スループットの高速化
- モデル チューニングの機能
- マルチモーダル モデルの可用性
このアプローチに適したドキュメント処理タスクの例については、Gemini API でドキュメント処理機能を試すをご覧ください。
ML.PROCESS_DOCUMENT
は、ドキュメントの解析と事前定義および構造化されたレスポンスを必要とするドキュメント処理タスクを実行するのに適しています。
サポートされているモデル
サポートされているモデルは次のとおりです。
ML.GENERATE_TEXT
: Vertex AI Gemini モデルのサブセットを使用してテキストを生成できます。サポートされているモデルの詳細については、ML.GENERATE_TEXT
構文をご覧ください。
ML.PROCESS_DOCUMENT
: Document AI API のデフォルト モデルを使用します。Document AI API を使用すると、Invoice パーサー、Layout パーサー、Form パーサーなど、さまざまなドキュメント プロセッサにアクセスできます。これらのドキュメント プロセッサを使用することで、さまざまな構造の PDF ファイルを操作できます。
サポートされているタスク
サポートされているタスクは次のとおりです。
ML.GENERATE_TEXT
: 入力がドキュメントである NLP タスクを実行できます。たとえば、企業の財務ドキュメントの場合、What is
the quarterly revenue for each division?
などのプロンプトを提供することで、ドキュメントの情報を取得できます。
ML.PROCESS_DOCUMENT
: 請求書、税務フォーム、財務諸表など、さまざまなドキュメント タイプに特化したドキュメント処理を行うことができます。ドキュメント チャンキングも実行できます。このタスクで ML.PROCESS_DOCUMENT
関数を使用する方法については、検索拡張生成パイプラインで PDF を解析するをご覧ください。
料金
料金は次のとおりです。
教師ありチューニング
教師ありチューニングのサポートは次のとおりです。
ML.GENERATE_TEXT
: 一部のモデルで教師ありチューニングがサポートされています。
ML.PROCESS_DOCUMENT
: 教師ありチューニングはサポートされていません。
1 分あたりのクエリ数(QPM)の上限
QPM の上限は次のとおりです。
ML.GENERATE_TEXT
: gemini-1.5-pro
モデルの場合はデフォルトの us-central1
リージョンで 60 QPM、gemini-1.5-flash
モデルの場合はデフォルトの us-central1
リージョンで 200 QPM。詳細については、Vertex AI での生成 AI の割り当てをご覧ください。
ML.PROCESS_DOCUMENT
: プロセッサ タイプごとに 120 QPM。プロジェクトごとの合計上限は 600 QPM。詳細については、割り当てリストをご覧ください。
割り当てを増やすには、割り当ての調整をリクエストするをご覧ください。
トークンの上限
トークンの上限は次のとおりです。
ML.GENERATE_TEXT
: 700 個の入力トークンと 8,196 個の出力トークン。
ML.PROCESS_DOCUMENT
: トークンの上限はありません。ただし、この関数には、使用しているプロセッサに応じて異なるページ数の上限があります。詳細については、上限をご覧ください。
サポートされている言語
サポートされている言語は次のとおりです。
ML.GENERATE_TEXT
: Gemini と同じ言語をサポートします。
ML.PROCESS_DOCUMENT
: サポートされる言語は、ドキュメント プロセッサのタイプによって異なります。ほとんどの場合、英語のみがサポートされています。詳細については、プロセッサのリストをご覧ください。
対象リージョン
ご利用対象のリージョンは次のとおりです。
ML.GENERATE_TEXT
: Vertex AI 向けのすべての生成 AI のリージョンで利用できます。
ML.PROCESS_DOCUMENT
: すべてのプロセッサの EU
と US
のマルチリージョンで利用できます。一部のプロセッサは、特定の単一リージョンでも使用できます。詳細については、リージョンとマルチリージョンのサポートをご覧ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-08-17 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-08-17 UTC。"],[[["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e is suitable for natural language processing tasks within documents, offering benefits like lower costs, broader language support, faster processing, model tuning, and multimodal model options.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e excels in document processing tasks requiring structured responses and document parsing, and also supports working with different PDF file structures.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e uses a subset of Vertex AI Gemini models and supports a wide array of natural language processing tasks, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e utilizes the Document AI API, with specialized document processing for tasks like parsing invoices or tax forms.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e supports supervised tuning for certain models, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e does not have supervised tuning support.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e has higher language support and lower token limits, whereas \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e depends on the document processor for language support and has no token limit, only page limits.\u003c/p\u003e\n"]]],[],null,["# Choose a document processing function\n=====================================\n\nThis document provides a comparison of the document processing functions\navailable in BigQuery ML, which are\n[`ML.GENERATE_TEXT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text)\nand\n[`ML.PROCESS_DOCUMENT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-process-document).\n\nYou can use the information in this document to help you decide which function\nto use in cases where the functions have overlapping capabilities.\n\nAt a high level, the difference between these functions is as follows:\n\n- `ML.GENERATE_TEXT` is a good choice for performing natural\n language processing (NLP) tasks where some of the content resides in\n documents. This function offers the following benefits:\n\n - Lower costs\n - More language support\n - Faster throughput\n - Model tuning capability\n - Availability of multimodal models\n\n For examples of document processing tasks that work best with this\n approach, see\n [Explore document processing capabilities with the Gemini API](https://ai.google.dev/gemini-api/docs/document-processing).\n- `ML.PROCESS_DOCUMENT` is a good choice for performing document processing\n tasks that require document parsing and a predefined, structured response.\n\nSupported models\n----------------\n\nSupported models are as follows:\n\n- `ML.GENERATE_TEXT`: you can use a subset of the Vertex AI [Gemini](/vertex-ai/generative-ai/docs/learn/models#gemini-models) models to generate text. For more information on supported models, see the [`ML.GENERATE_TEXT` syntax](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text#syntax).\n- `ML.PROCESS_DOCUMENT`: you use the default model of the [Document AI API](/document-ai). Using the Document AI API gives you access to many different document processors, such as the invoice parser, layout parser, and form parser. You can use these document processors to work with PDF files with many different structures.\n\nSupported tasks\n---------------\n\nSupported tasks are as follows:\n\n- `ML.GENERATE_TEXT`: you can perform any NLP task where the input is a document. For example, given a financial document for a company, you can retrieve document information by providing a prompt such as `What is\n the quarterly revenue for each division?`.\n- `ML.PROCESS_DOCUMENT`: you can perform specialized document processing for different document types, such as invoices, tax forms, and financial statements. You can also perform document chunking. For more information, on how to use the `ML.PROCESS_DOCUMENT` function fo this task, see [Parse PDFs in a retrieval-augmented generation pipeline](/bigquery/docs/rag-pipeline-pdf).\n\nPricing\n-------\n\nPricing is as follows:\n\n- `ML.GENERATE_TEXT`: For pricing of the Vertex AI models that you use with this function, see [Vertex AI pricing](/vertex-ai/generative-ai/pricing). Supervised tuning of supported models is charged at dollars per node hour. For more information, see [Vertex AI custom training pricing](/vertex-ai/pricing#custom-trained_models).\n- `ML.PROCESS_DOCUMENT`: For pricing of the Cloud AI service that you use with this function, see [Document AI API pricing](/document-ai/pricing).\n\nSupervised tuning\n-----------------\n\nSupervised tuning support is as follows:\n\n- `ML.GENERATE_TEXT`: [supervised tuning](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-remote-model#supervised_tuning) is supported for some models.\n- `ML.PROCESS_DOCUMENT`: supervised tuning isn't supported.\n\nQueries per minute (QPM) limit\n------------------------------\n\nQPM limits are as follows:\n\n- `ML.GENERATE_TEXT`: 60 QPM in the default `us-central1` region for `gemini-1.5-pro` models, and 200 QPM in the default `us-central1` region for `gemini-1.5-flash` models. For more information, see [Generative AI on Vertex AI quotas](/vertex-ai/generative-ai/docs/quotas).\n- `ML.PROCESS_DOCUMENT`: 120 QPM per processor type, with an overall limit of 600 QPM per project. For more information, see [Quotas list](/document-ai/quotas#quotas_list).\n\nTo increase your quota, see\n[Request a quota adjustment](/docs/quotas/help/request_increase).\n\nToken limit\n-----------\n\nToken limits are as follows:\n\n- `ML.GENERATE_TEXT`: 700 input tokens, and 8196 output tokens.\n- `ML.PROCESS_DOCUMENT`: No token limit. However, this function does have different page limits depending on the processor you use. For more information, see [Limits](/document-ai/limits).\n\nSupported languages\n-------------------\n\nSupported languages are as follows:\n\n- `ML.GENERATE_TEXT`: supports the same languages as [Gemini](/vertex-ai/generative-ai/docs/learn/models#languages-gemini).\n- `ML.PROCESS_DOCUMENT`: language support depends on the document processor type; most only support English. For more information, see [Processor list](/document-ai/docs/processors-list).\n\nRegion availability\n-------------------\n\nRegion availability is as follows:\n\n- `ML.GENERATE_TEXT`: available in all Generative AI for Vertex AI [regions](/vertex-ai/generative-ai/docs/learn/locations#available-regions).\n- `ML.PROCESS_DOCUMENT`: available in the `EU` and `US` [multi-regions](/bigquery/docs/locations#multi-regions) for all processors. Some processors are also available in certain single regions. For more information, see [Regional and multi-regional support](/document-ai/docs/regions)."]]