選擇文件處理函式

本文件比較了 BigQuery ML 提供的文件處理函式,分別是 ML.GENERATE_TEXTML.PROCESS_DOCUMENT

您可以參考本文件中的資訊,在函式功能重疊時決定要使用哪個函式。

這些函式的差異如下:

  • ML.GENERATE_TEXT 是執行自然語言處理 (NLP) 工作時的理想選擇,因為部分內容會位於文件中。這項功能具備下列優點:

    • 降低費用
    • 支援更多語言
    • 更快的處理量
    • 模型調整功能
    • 多模態模型的可用性

    如需搭配此方法最合適的文件處理工作範例,請參閱「探索 Gemini API 的文件處理功能」。

  • ML.PROCESS_DOCUMENT 是執行需要文件剖析和預先定義結構化回應的文件處理工作時的理想選擇。

支援的模型

支援的型號如下:

  • ML.GENERATE_TEXT:您可以使用 Vertex AI Gemini 模型的子集生成文字。如要進一步瞭解支援的模型,請參閱 ML.GENERATE_TEXT 語法
  • ML.PROCESS_DOCUMENT:您使用 Document AI API 的預設模型。使用 Document AI API 可讓您存取許多不同的文件處理器,例如發票剖析器、版面配置剖析器和表單剖析器。您可以使用這些文件處理器,處理具有多種不同結構的 PDF 檔案。

支援的工作

支援的任務如下:

  • ML.GENERATE_TEXT:您可以執行任何輸入內容為文件的 NLP 任務。舉例來說,如果您有一份公司的財務文件,可以提供 What is the quarterly revenue for each division? 等提示來擷取文件資訊。
  • ML.PROCESS_DOCUMENT:您可以針對不同文件類型 (例如發票、稅務表單和財務報表) 執行專門的文件處理作業。您也可以執行文件分割作業。如要進一步瞭解如何使用 ML.PROCESS_DOCUMENT 函式執行此項工作,請參閱「在檢索增強生成管道中剖析 PDF 檔案」。

定價

定價如下:

  • ML.GENERATE_TEXT:如要瞭解您搭配此函式使用的 Vertex AI 模型定價,請參閱 Vertex AI 定價。針對支援的模型進行受控調整時,系統會以每小時每節點美元計費。詳情請參閱「Vertex AI 自訂訓練定價」。
  • ML.PROCESS_DOCUMENT:如要瞭解與此函式搭配使用的 Cloud AI 服務價格,請參閱 Document AI API 價格

監督式調整

監督式調整支援功能如下:

  • ML.GENERATE_TEXT:部分模型支援監督式調整
  • ML.PROCESS_DOCUMENT:不支援監督式調整。

每分鐘查詢次數 (QPM) 上限

QPM 限制如下:

  • ML.GENERATE_TEXTgemini-1.5-pro 模型的預設 us-central1 區域為 60 QPM,gemini-1.5-flash 模型的預設 us-central1 區域為 200 QPM。詳情請參閱「Vertex AI 生成式 AI 配額」。
  • ML.PROCESS_DOCUMENT:每個處理器類型 120 個查詢/分鐘,每個專案的整體上限為 600 個查詢/分鐘。詳情請參閱配額清單

如要提高配額,請參閱「要求調整配額」一文。

詞元數量上限

符記限制如下:

  • ML.GENERATE_TEXT:700 個輸入符記和 8196 個輸出符記。
  • ML.PROCESS_DOCUMENT:沒有符記限制。不過,這項功能的頁面限制會因您使用的處理器而異。詳情請參閱「限制」一節。

支援的語言

支援的語言如下:

  • ML.GENERATE_TEXT:支援與 Gemini 相同的語言。
  • ML.PROCESS_DOCUMENT:語言支援功能取決於文件處理工具類型,大多數工具只支援英文。詳情請參閱處理器清單

適用地區

適用地區如下:

  • ML.GENERATE_TEXT:適用於所有 Vertex AI 生成式 AI 區域
  • ML.PROCESS_DOCUMENT:適用於所有處理器的 EUUS 多地區。某些處理器也適用於特定單一區域。詳情請參閱「單一區域與多區域支援」。