Beberapa atau semua informasi di halaman ini mungkin tidak berlaku untuk Trusted Cloud oleh S3NS.
Memilih fungsi pemrosesan dokumen
Dokumen ini memberikan perbandingan fungsi pemrosesan dokumen
yang tersedia di BigQuery ML, yaitu
ML.GENERATE_TEXT
dan
ML.PROCESS_DOCUMENT
.
Anda dapat menggunakan informasi dalam dokumen ini untuk membantu Anda memutuskan fungsi
yang akan digunakan jika fungsi tersebut memiliki kemampuan yang tumpang-tindih.
Pada tingkat tinggi, perbedaan antara fungsi ini adalah sebagai berikut:
ML.GENERATE_TEXT
adalah pilihan yang tepat untuk melakukan tugas
natural language processing (NLP) dengan sebagian konten berada dalam
dokumen. Fungsi ini menawarkan manfaat berikut:
- Biaya yang lebih rendah
- Dukungan bahasa lainnya
- Throughput yang lebih cepat
- Kemampuan penyesuaian model
- Ketersediaan model multimodal
Untuk contoh tugas pemrosesan dokumen yang paling cocok dengan pendekatan
ini, lihat
Menjelajahi kemampuan pemrosesan dokumen dengan Gemini API.
ML.PROCESS_DOCUMENT
adalah pilihan yang tepat untuk melakukan tugas pemrosesan dokumen
yang memerlukan penguraian dokumen dan respons terstruktur yang telah ditentukan sebelumnya.
Model yang didukung
Model yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: Anda dapat menggunakan sebagian model Vertex AI
Gemini untuk
membuat teks. Untuk informasi selengkapnya tentang model yang didukung, lihat
sintaksis ML.GENERATE_TEXT
.
ML.PROCESS_DOCUMENT
: Anda menggunakan model default dari
Document AI API. Menggunakan Document AI API
memberi Anda akses ke berbagai pemroses dokumen, seperti
parser invoice, parser tata letak, dan parser formulir. Anda dapat menggunakan pemroses dokumen ini untuk menggunakan file PDF dengan berbagai struktur.
Tugas yang didukung
Tugas yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: Anda dapat melakukan tugas NLP apa pun dengan input berupa dokumen. Misalnya, dengan dokumen keuangan untuk perusahaan,
Anda dapat mengambil informasi dokumen dengan memberikan perintah seperti What is
the quarterly revenue for each division?
.
ML.PROCESS_DOCUMENT
: Anda dapat melakukan pemrosesan dokumen khusus untuk
berbagai jenis dokumen, seperti invoice, formulir pajak, dan laporan
keuangan. Anda juga dapat melakukan pengelompokan dokumen. Untuk mengetahui informasi selengkapnya tentang cara menggunakan fungsi ML.PROCESS_DOCUMENT
untuk tugas ini, lihat Mengurai PDF dalam pipeline pembuatan yang ditingkatkan pengambilannya.
Harga
Harganya sebagai berikut:
ML.GENERATE_TEXT
: Untuk mengetahui harga model Vertex AI yang
Anda gunakan dengan fungsi ini, lihat
Harga Vertex AI.
Penyesuaian yang diawasi untuk model yang didukung dikenai biaya dolar per jam node.
Untuk mengetahui informasi selengkapnya, lihat
Harga pelatihan kustom Vertex AI.
ML.PROCESS_DOCUMENT
: Untuk mengetahui harga layanan Cloud AI yang Anda gunakan dengan fungsi ini, lihat Harga Document AI API.
Penyesuaian yang diawasi
Dukungan penyesuaian yang diawasi adalah sebagai berikut:
ML.GENERATE_TEXT
: penyesuaian terpantau
didukung untuk beberapa model.
ML.PROCESS_DOCUMENT
: penyesuaian yang diawasi tidak didukung.
Batas kueri per menit (QPM)
Batas QPM adalah sebagai berikut:
ML.GENERATE_TEXT
: 60 QPM di region us-central1
default untuk
model gemini-1.5-pro
, dan 200 QPM di region us-central1
default untuk
model gemini-1.5-flash
. Untuk mengetahui informasi selengkapnya, lihat
Kuota AI Generatif di Vertex AI.
ML.PROCESS_DOCUMENT
: 120 QPM per jenis prosesor, dengan batas keseluruhan
600 QPM per project. Untuk mengetahui informasi selengkapnya, lihat
Daftar kuota.
Untuk meningkatkan kuota, lihat
Meminta penyesuaian kuota.
Token limit (batas token)
Batas token adalah sebagai berikut:
ML.GENERATE_TEXT
: 700 token input, dan 8196 token output.
ML.PROCESS_DOCUMENT
: Tidak ada batas token. Namun, fungsi ini memiliki
batas halaman yang berbeda, bergantung pada prosesor yang Anda gunakan. Untuk mengetahui informasi
selengkapnya, lihat Batas.
Bahasa yang didukung
Bahasa yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: mendukung bahasa yang sama dengan
Gemini.
ML.PROCESS_DOCUMENT
: Dukungan bahasa bergantung pada jenis pemroses dokumen; sebagian besar hanya mendukung bahasa Inggris. Untuk mengetahui informasi selengkapnya, lihat
Daftar prosesor.
Ketersediaan wilayah
Ketersediaan wilayah adalah sebagai berikut:
ML.GENERATE_TEXT
: tersedia di semua region AI Generatif untuk Vertex AI.
ML.PROCESS_DOCUMENT
: tersedia di multi-region EU
dan US
untuk semua prosesor.
Beberapa prosesor juga tersedia di satu wilayah tertentu. Untuk informasi selengkapnya, lihat Dukungan regional dan multi-regional.
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-08-17 UTC.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-17 UTC."],[[["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e is suitable for natural language processing tasks within documents, offering benefits like lower costs, broader language support, faster processing, model tuning, and multimodal model options.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e excels in document processing tasks requiring structured responses and document parsing, and also supports working with different PDF file structures.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e uses a subset of Vertex AI Gemini models and supports a wide array of natural language processing tasks, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e utilizes the Document AI API, with specialized document processing for tasks like parsing invoices or tax forms.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e supports supervised tuning for certain models, while \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e does not have supervised tuning support.\u003c/p\u003e\n"],["\u003cp\u003e\u003ccode\u003eML.GENERATE_TEXT\u003c/code\u003e has higher language support and lower token limits, whereas \u003ccode\u003eML.PROCESS_DOCUMENT\u003c/code\u003e depends on the document processor for language support and has no token limit, only page limits.\u003c/p\u003e\n"]]],[],null,["# Choose a document processing function\n=====================================\n\nThis document provides a comparison of the document processing functions\navailable in BigQuery ML, which are\n[`ML.GENERATE_TEXT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text)\nand\n[`ML.PROCESS_DOCUMENT`](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-process-document).\n\nYou can use the information in this document to help you decide which function\nto use in cases where the functions have overlapping capabilities.\n\nAt a high level, the difference between these functions is as follows:\n\n- `ML.GENERATE_TEXT` is a good choice for performing natural\n language processing (NLP) tasks where some of the content resides in\n documents. This function offers the following benefits:\n\n - Lower costs\n - More language support\n - Faster throughput\n - Model tuning capability\n - Availability of multimodal models\n\n For examples of document processing tasks that work best with this\n approach, see\n [Explore document processing capabilities with the Gemini API](https://ai.google.dev/gemini-api/docs/document-processing).\n- `ML.PROCESS_DOCUMENT` is a good choice for performing document processing\n tasks that require document parsing and a predefined, structured response.\n\nSupported models\n----------------\n\nSupported models are as follows:\n\n- `ML.GENERATE_TEXT`: you can use a subset of the Vertex AI [Gemini](/vertex-ai/generative-ai/docs/learn/models#gemini-models) models to generate text. For more information on supported models, see the [`ML.GENERATE_TEXT` syntax](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-generate-text#syntax).\n- `ML.PROCESS_DOCUMENT`: you use the default model of the [Document AI API](/document-ai). Using the Document AI API gives you access to many different document processors, such as the invoice parser, layout parser, and form parser. You can use these document processors to work with PDF files with many different structures.\n\nSupported tasks\n---------------\n\nSupported tasks are as follows:\n\n- `ML.GENERATE_TEXT`: you can perform any NLP task where the input is a document. For example, given a financial document for a company, you can retrieve document information by providing a prompt such as `What is\n the quarterly revenue for each division?`.\n- `ML.PROCESS_DOCUMENT`: you can perform specialized document processing for different document types, such as invoices, tax forms, and financial statements. You can also perform document chunking. For more information, on how to use the `ML.PROCESS_DOCUMENT` function fo this task, see [Parse PDFs in a retrieval-augmented generation pipeline](/bigquery/docs/rag-pipeline-pdf).\n\nPricing\n-------\n\nPricing is as follows:\n\n- `ML.GENERATE_TEXT`: For pricing of the Vertex AI models that you use with this function, see [Vertex AI pricing](/vertex-ai/generative-ai/pricing). Supervised tuning of supported models is charged at dollars per node hour. For more information, see [Vertex AI custom training pricing](/vertex-ai/pricing#custom-trained_models).\n- `ML.PROCESS_DOCUMENT`: For pricing of the Cloud AI service that you use with this function, see [Document AI API pricing](/document-ai/pricing).\n\nSupervised tuning\n-----------------\n\nSupervised tuning support is as follows:\n\n- `ML.GENERATE_TEXT`: [supervised tuning](/bigquery/docs/reference/standard-sql/bigqueryml-syntax-create-remote-model#supervised_tuning) is supported for some models.\n- `ML.PROCESS_DOCUMENT`: supervised tuning isn't supported.\n\nQueries per minute (QPM) limit\n------------------------------\n\nQPM limits are as follows:\n\n- `ML.GENERATE_TEXT`: 60 QPM in the default `us-central1` region for `gemini-1.5-pro` models, and 200 QPM in the default `us-central1` region for `gemini-1.5-flash` models. For more information, see [Generative AI on Vertex AI quotas](/vertex-ai/generative-ai/docs/quotas).\n- `ML.PROCESS_DOCUMENT`: 120 QPM per processor type, with an overall limit of 600 QPM per project. For more information, see [Quotas list](/document-ai/quotas#quotas_list).\n\nTo increase your quota, see\n[Request a quota adjustment](/docs/quotas/help/request_increase).\n\nToken limit\n-----------\n\nToken limits are as follows:\n\n- `ML.GENERATE_TEXT`: 700 input tokens, and 8196 output tokens.\n- `ML.PROCESS_DOCUMENT`: No token limit. However, this function does have different page limits depending on the processor you use. For more information, see [Limits](/document-ai/limits).\n\nSupported languages\n-------------------\n\nSupported languages are as follows:\n\n- `ML.GENERATE_TEXT`: supports the same languages as [Gemini](/vertex-ai/generative-ai/docs/learn/models#languages-gemini).\n- `ML.PROCESS_DOCUMENT`: language support depends on the document processor type; most only support English. For more information, see [Processor list](/document-ai/docs/processors-list).\n\nRegion availability\n-------------------\n\nRegion availability is as follows:\n\n- `ML.GENERATE_TEXT`: available in all Generative AI for Vertex AI [regions](/vertex-ai/generative-ai/docs/learn/locations#available-regions).\n- `ML.PROCESS_DOCUMENT`: available in the `EU` and `US` [multi-regions](/bigquery/docs/locations#multi-regions) for all processors. Some processors are also available in certain single regions. For more information, see [Regional and multi-regional support](/document-ai/docs/regions)."]]