使用 Gemini 準備資料
本文說明如何在 BigQuery 中生成及管理資料準備作業的 SQL 程式碼建議。
詳情請參閱 BigQuery 資料準備簡介。
事前準備
在 BigQuery 中開啟資料準備編輯器
如要在 BigQuery 中開啟資料準備編輯器,請建立新的資料準備作業、從現有資料表建立資料準備作業,或開啟現有的資料準備作業。如要進一步瞭解建立資料準備作業時會發生什麼情況,請參閱「資料準備進入點」。
在 BigQuery 頁面中,您可以透過下列方式前往資料準備編輯器:
新建
如要在 BigQuery 中建立新的資料準備作業,請按照下列步驟操作:
- 前往 Trusted Cloud 控制台的「BigQuery」BigQuery頁面。
前往 BigQuery - 前往「建立新項目」清單,然後按一下「資料準備」。 資料準備編輯器會顯示在新的未命名資料準備分頁中。
- 在編輯器的搜尋列中輸入表格名稱或關鍵字,然後選取表格。系統會開啟表格的資料準備編輯器,並在「資料」分頁中顯示資料預覽畫面,以及 Gemini 提供的初始資料準備建議。
「Explorer」窗格會顯示「資料準備」資源,您日後可在此存取這項準備作業。 - 選用:如要簡化檢視畫面,請依序點選「全螢幕」,開啟全螢幕模式。
- 選用:如要查看資料準備詳細資料、版本記錄、新增註解或回覆現有註解,請使用工具列 (「預覽」)。

從資料表建立新項目
如要從現有資料表建立新的資料準備作業,請按照下列步驟操作:
- 前往 Trusted Cloud 控制台的「BigQuery」BigQuery頁面。
前往 BigQuery - 在「Explorer」窗格中,將指標懸停在資料表上。
- 依序點選「more_vert」more_vert
「選單」>「在『資料準備』中查詢」>「資料準備」。系統會開啟表格的資料準備編輯器,並在「資料」分頁中顯示資料預覽畫面,以及 Gemini 提供的初始資料準備建議。
「Explorer」窗格會顯示「資料準備」資源,您日後可在此存取這項準備作業。 - 選用:如要簡化檢視畫面,請依序點選「全螢幕」,開啟全螢幕模式。
- 選用:如要查看資料準備詳細資料、版本記錄、新增註解或回覆現有註解,請使用工具列 (「預覽」)。

開啟現有檔案
如要開啟現有資料準備作業的編輯器,請按照下列步驟操作:
- 前往 Trusted Cloud 控制台的「BigQuery」BigQuery頁面。
前往 BigQuery - 在「Explorer」窗格中,按一下專案名稱和資料準備。
- 選取現有的資料準備作業。系統會顯示資料準備管道的圖表檢視畫面。
- 選取圖表中的其中一個節點。系統會開啟資料準備編輯器,並在「資料」分頁中顯示資料預覽畫面,以及 Gemini 提供的初始資料準備建議。
- 選用:如要簡化檢視畫面,請依序點選「全螢幕」,開啟全螢幕模式。
- 選用:如要查看資料準備詳細資料、版本記錄、新增註解或回覆現有註解,請使用工具列 (「預覽」)。

新增資料準備步驟
您需要逐步準備資料。您可以預覽或套用 Gemini 建議的步驟。你也可以改善建議,或套用自己的步驟。
套用並改善 Gemini 提供的建議
開啟表格的資料準備編輯器時,Gemini 會檢查載入表格中的資料和結構定義,並生成篩選器和轉換建議。建議會顯示在「步驟」清單的資訊卡中。
下圖顯示您可以在何處套用及改善 Gemini 建議的步驟:
如要將 Gemini 的建議套用為資料準備步驟,請按照下列步驟操作:
- 在資料檢視畫面中,按一下資料欄名稱或特定儲存格。 Gemini 會產生篩選和轉換資料的建議。
選用:如要改善建議,請編輯表格中一到三個儲存格的值,示範資料欄中的值應為何種格式。舉例來說,請輸入您要套用至所有日期的格式。 Gemini 會根據您的變更生成新的建議。
下圖顯示如何編輯值,以改善 Gemini 建議的步驟:
選取建議卡片。
- 選用:如要預覽建議卡片的結果,請按一下「預覽」。
- 選用:如要使用自然語言修改建議資訊卡,請按一下「編輯」。
按一下 [套用]。
使用自然語言或 SQL 運算式新增步驟
如果現有建議不符合需求,請新增步驟。選擇資料欄或步驟類型,然後使用自然語言描述所需內容。
新增轉換
- 在資料或結構定義檢視中,選擇「轉換」選項。您也可以選擇資料欄或新增範例,協助 Gemini 瞭解資料轉換方式。
- 在「Description」(說明) 欄位中輸入提示,例如
Convert the state column to uppercase
。 按一下「傳送」 「傳送」。
Gemini 會根據提示產生 SQL 運算式和新的說明。
在「目標資料欄」清單中,選取或輸入資料欄名稱。
選用步驟:如要更新 SQL 運算式,請修改提示並按一下「傳送」,或手動輸入 SQL 運算式。
選用:按一下「預覽」,然後檢查步驟。
按一下 [套用]。
將 JSON 資料欄扁平化
您可以在準備資料時,簡化來源的 JSON 資料。這個程序稱為「平坦化」,會一次從 JSON 資料欄中擷取所有鍵/值組合,並將這些組合轉換成資料表中的資料欄。這有助於簡化複雜的 JSON 結構,方便您分析或與其他資料合併。
Gemini for BigQuery 建議的作業只會從 JSON 的頂層擷取欄位。如果這些擷取的欄位包含更多 JSON 物件,您可以在額外步驟中將其扁平化,以存取內容。
- 在 JSON 來源資料表的資料檢視畫面中,選擇資料欄或儲存格。
- 按一下「平面化」Flatten即可生成建議。
- 選用:如要更新 SQL 運算式,可以手動輸入 SQL 運算式。
- 選用:按一下「預覽」,然後檢查步驟。
- 按一下 [套用]。
扁平化具有下列行為:
- 選取含有 JSON 的儲存格或資料欄後,資料檢視畫面會顯示「扁平化」Flatten選項。點選「新增步驟」時,預設不會顯示這個選項。
- 如果所選資料列中沒有 JSON 金鑰,產生的建議就不會包含該金鑰。如果資料經過平坦化處理,這個問題可能會導致系統省略部分資料欄。
- 如果資料欄名稱在扁平化期間發生衝突,重複的資料欄名稱會以
_<i>
格式結尾。舉例來說,如果已有名稱為address
的資料欄,則新的扁平化資料欄名稱為address_1
。 - 扁平化資料欄名稱會遵循 BigQuery 的資料欄命名慣例。
- 如果將 JSON 金鑰欄位留空,預設的資料欄名稱格式為
f<i>_
。
篩選表格列
如要新增可移除資料列的篩選器,請按照下列步驟操作:
- 在資料或結構定義檢視畫面中,選擇「篩選器」選項。你也可以選擇欄,協助 Gemini 瞭解資料篩選條件。
- 在「Description」(說明) 欄位中輸入提示,例如
Column ID should not be NULL
。 - 按一下「生成」。 Gemini 會根據提示產生 SQL 運算式和新的說明。
- 選用:如要更新 SQL 運算式,請修改提示並按一下「傳送」,或手動輸入 SQL 運算式。
- 選用:按一下「預覽」,然後檢查步驟。
- 按一下 [套用]。
篩選運算式格式
篩選條件的 SQL 運算式會保留符合指定條件的資料列。這相當於 SELECT … WHERE SQL_EXPRESSION
陳述式。
舉例來說,如要保留資料欄 year
大於或等於 2000
的記錄,條件為 year >= 2000
。
運算式必須遵循 WHERE
子句的 BigQuery SQL 語法。
刪除資料欄
如要從資料準備作業中刪除一或多個資料欄,請按照下列步驟操作:
- 在資料或結構定義檢視畫面中,選取要捨棄的資料欄。
- 按一下「放棄」。系統會為已刪除的資料欄新增套用的步驟。
透過 Gemini 新增聯結作業
如要在資料準備期間,於兩個來源之間新增聯結作業步驟,請按照下列步驟操作:
- 在資料準備節點的資料檢視畫面中,前往「建議」清單,然後按一下「聯結」選項。
- 在「Add join」(新增聯結) 對話方塊中,按一下「Browse」(瀏覽),然後選取聯結作業涉及的其他資料表 (稱為聯結的右側)。
- 選用:選取要執行的彙整作業類型,例如內部彙整。
查看下列欄位中 Gemini 生成的聯結鍵資訊:
- 聯結說明:聯結作業的 SQL 運算式自然語言說明。編輯這段說明並點選「傳送」後,Gemini 會建議新的 SQL 聯結條件。
聯結條件:聯結作業的
ON
子句中的 SQL 運算式。您可以使用L
和R
限定符,分別參照左側和右側的來源資料表。舉例來說,如要將左方資料表的customer_id
欄與右方資料表的customer_id
欄彙整,請輸入L.customerId = R.customerId
。這些限定詞不區分大小寫。
選用:如要調整 Gemini 的建議,請編輯「加入說明」欄位,然後按一下「傳送」。
選用:如要預覽資料準備作業的聯結設定,請按一下「預覽」。
按一下 [套用]。
建立彙整作業步驟。您選取的來源資料表 (聯結的右側) 和聯結作業會反映在已套用步驟的清單中,以及資料準備作業的圖表檢視節點中。
匯總資料
- 在資料或架構檢視中,選擇「匯總」選項。
- 在「Description」(說明) 欄位中輸入提示,例如
Find the total revenue for a region
。 按一下 [傳送]。
Gemini 會根據提示生成分組鍵和匯總運算式。
選用:視需要編輯產生的分組鍵或彙整運算式。
選用:您可以手動新增分組鍵和匯總運算式。
- 在「分組鍵」欄位中,輸入資料欄名稱或運算式。如果留空,結果資料表會有一列。如果您輸入運算式,則必須有別名 (
AS
子句),例如EXTRACT(YEAR FROM order_date) AS order_year
。不得重複。 - 在「Aggregation expressions」(彙整運算式) 欄位中,輸入具有別名 (
AS
子句) 的彙整運算式,例如SUM(quantity) AS total_quantity
。您可以輸入多個以半形逗號分隔的運算式。請勿輸入重複的內容。如需支援的匯總運算式清單,請參閱匯總函式。
- 在「分組鍵」欄位中,輸入資料欄名稱或運算式。如果留空,結果資料表會有一列。如果您輸入運算式,則必須有別名 (
選用:按一下「預覽」,然後檢查步驟。
按一下 [套用]。
設定錯誤表格並新增驗證規則
您可以新增篩選器來建立驗證規則,將錯誤傳送至錯誤表格,或導致資料準備作業執行失敗。
設定錯誤表格
如要設定錯誤表格,請按照下列步驟操作:
- 在資料準備編輯器中,前往工具列並依序點選「更多」>「錯誤表格」。
- 按一下「啟用錯誤表格」。
- 定義資料表位置。
- 選用:定義錯誤保留時長上限。
- 按一下 [儲存]。
新增驗證規則
如要新增驗證規則,請按照下列步驟操作:
- 在資料或結構定義檢視畫面中,按一下「篩選器」選項。你也可以選擇資料欄,協助 Gemini 瞭解資料篩選條件。
- 輸入步驟說明。
- 以
WHERE
子句的形式輸入 SQL 運算式。 - 選用:如要讓 SQL 運算式做為驗證規則,請選取「驗證失敗的資料列移至錯誤表格」核取方塊。您也可以按一下「更多」> 錯誤表格,將資料準備工具列中的篩選器變更為驗證。
- 選用:按一下「預覽」,然後檢查步驟。
- 按一下 [套用]。
新增或變更目的地資料表
如要新增或變更資料準備輸出內容的目的地資料表,請按照下列步驟操作:
- 在資料或架構檢視畫面中,選擇「目的地」選項。
- 選取儲存目標資料表的專案。
- 選取其中一個資料集,或載入新的資料集。
- 輸入目的地資料表。如果資料表不存在,資料準備作業會在第一次執行時建立新資料表。詳情請參閱「寫入模式」。
- 選取資料集做為目的地資料集。
- 按一下 [儲存]。
查看已套用步驟的資料樣本和結構定義
如要在資料準備的特定步驟中查看範例和結構定義詳細資料,請按照下列步驟操作:
- 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」。
- 選取步驟。系統會顯示「資料」和「結構定義」分頁,顯示這個步驟的資料樣本和結構定義。
編輯套用的步驟
如要編輯套用的步驟,請按照下列步驟操作:
- 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」。
- 選取步驟。
- 依序按一下步驟旁邊的 more_vert 和「選單」>「編輯」。
- 在「編輯套用的步驟」對話方塊中,您可以執行下列操作:
- 編輯步驟說明。
- 編輯說明,然後按一下「傳送」,即可取得 Gemini 建議。
- 編輯 SQL 運算式。
- 在「目標資料欄」欄位中選取資料欄。
- 選用:按一下「預覽」,然後檢查步驟。
- 按一下 [套用]。
刪除套用的步驟
如要刪除套用的步驟,請按照下列步驟操作:
- 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」。
- 選取步驟。
- 依序點選「更多」圖示 more_vert 「選單」>「刪除」。
執行資料準備作業
新增資料準備步驟、設定目的地並修正所有驗證錯誤後,您可以對資料樣本執行測試,也可以部署步驟並排定資料準備作業的執行時間。詳情請參閱「安排資料準備作業」。
重新整理資料準備範例
系統不會自動重新整理範例中的資料。如果資料準備作業的來源表格資料已變更,但準備作業的資料樣本未反映這些變更,請按一下「更多」>「重新整理樣本」。
後續步驟
- 瞭解如何排定資料準備作業。
- 瞭解如何管理資料準備作業。
- 瞭解 Gemini in BigQuery 的配額和限制。
- 查看 Gemini in BigQuery 定價。