使用 Gemini 準備資料

本文說明如何在 BigQuery 中生成及管理資料準備作業的 SQL 程式碼建議。

詳情請參閱 BigQuery 資料準備簡介

事前準備

在 BigQuery 中開啟資料準備編輯器

如要在 BigQuery 中開啟資料準備編輯器,請建立新的資料準備作業、從現有資料表建立資料準備作業,或開啟現有的資料準備作業。如要進一步瞭解建立資料準備作業時會發生什麼情況,請參閱「資料準備進入點」。

BigQuery 頁面中,您可以透過下列方式前往資料準備編輯器:

新建

如要在 BigQuery 中建立新的資料準備作業,請按照下列步驟操作:

  1. 前往 Trusted Cloud 控制台的「BigQuery」BigQuery頁面。
    前往 BigQuery
  2. 前往「建立新項目」清單,然後按一下「資料準備」。 資料準備編輯器會顯示在新的未命名資料準備分頁中。
  3. 在編輯器的搜尋列中輸入表格名稱或關鍵字,然後選取表格。系統會開啟表格的資料準備編輯器,並在「資料」分頁中顯示資料預覽畫面,以及 Gemini 提供的初始資料準備建議。

    「Explorer」窗格會顯示「資料準備」資源,您日後可在此存取這項準備作業。
  4. 選用:如要簡化檢視畫面,請依序點選「全螢幕」,開啟全螢幕模式。
  5. 選用:如要查看資料準備詳細資料、版本記錄、新增註解或回覆現有註解,請使用工具列 (「預覽」)。
  6. 探索資料準備工具列。

從資料表建立新項目

如要從現有資料表建立新的資料準備作業,請按照下列步驟操作:

  1. 前往 Trusted Cloud 控制台的「BigQuery」BigQuery頁面。
    前往 BigQuery
  2. 在「Explorer」窗格中,將指標懸停在資料表上。
  3. 依序點選「more_vert」more_vert 「選單」>「在『資料準備』中查詢」>「資料準備」。系統會開啟表格的資料準備編輯器,並在「資料」分頁中顯示資料預覽畫面,以及 Gemini 提供的初始資料準備建議。

    「Explorer」窗格會顯示「資料準備」資源,您日後可在此存取這項準備作業。
  4. 選用:如要簡化檢視畫面,請依序點選「全螢幕」,開啟全螢幕模式。
  5. 選用:如要查看資料準備詳細資料、版本記錄、新增註解或回覆現有註解,請使用工具列 (「預覽」)。
  6. 探索資料準備工具列。

開啟現有檔案

如要開啟現有資料準備作業的編輯器,請按照下列步驟操作:

  1. 前往 Trusted Cloud 控制台的「BigQuery」BigQuery頁面。
    前往 BigQuery
  2. 在「Explorer」窗格中,按一下專案名稱和資料準備
  3. 選取現有的資料準備作業。系統會顯示資料準備管道的圖表檢視畫面。
  4. 選取圖表中的其中一個節點。系統會開啟資料準備編輯器,並在「資料」分頁中顯示資料預覽畫面,以及 Gemini 提供的初始資料準備建議。
  5. 選用:如要簡化檢視畫面,請依序點選「全螢幕」,開啟全螢幕模式。
  6. 選用:如要查看資料準備詳細資料、版本記錄、新增註解或回覆現有註解,請使用工具列 (「預覽」)。
  7. 探索資料準備工具列。

新增資料準備步驟

您需要逐步準備資料。您可以預覽或套用 Gemini 建議的步驟。你也可以改善建議,或套用自己的步驟。

套用並改善 Gemini 提供的建議

開啟表格的資料準備編輯器時,Gemini 會檢查載入表格中的資料和結構定義,並生成篩選器和轉換建議。建議會顯示在「步驟」清單的資訊卡中。

下圖顯示您可以在何處套用及改善 Gemini 建議的步驟:

資料準備編輯器中的資料檢視畫面,顯示預覽、編輯或套用 Gemini 建議的選項。

如要將 Gemini 的建議套用為資料準備步驟,請按照下列步驟操作:

  1. 在資料檢視畫面中,按一下資料欄名稱或特定儲存格。 Gemini 會產生篩選和轉換資料的建議。
  2. 選用:如要改善建議,請編輯表格中一到三個儲存格的值,示範資料欄中的值應為何種格式。舉例來說,請輸入您要套用至所有日期的格式。 Gemini 會根據您的變更生成新的建議。

    下圖顯示如何編輯值,以改善 Gemini 建議的步驟:

    編輯儲存格中的值,向系統示範資料欄中的值應為何種格式,藉此改善建議。

  3. 選取建議卡片。

    1. 選用:如要預覽建議卡片的結果,請按一下「預覽」
    2. 選用:如要使用自然語言修改建議資訊卡,請按一下「編輯」
  4. 按一下 [套用]

使用自然語言或 SQL 運算式新增步驟

如果現有建議不符合需求,請新增步驟。選擇資料欄或步驟類型,然後使用自然語言描述所需內容。

新增轉換

  1. 在資料或結構定義檢視中,選擇「轉換」選項。您也可以選擇資料欄或新增範例,協助 Gemini 瞭解資料轉換方式。
  2. 在「Description」(說明) 欄位中輸入提示,例如 Convert the state column to uppercase
  3. 按一下「傳送」 「傳送」

    Gemini 會根據提示產生 SQL 運算式和新的說明。

  4. 在「目標資料欄」清單中,選取或輸入資料欄名稱。

  5. 選用步驟:如要更新 SQL 運算式,請修改提示並按一下「傳送」,或手動輸入 SQL 運算式。

  6. 選用:按一下「預覽」,然後檢查步驟。

  7. 按一下 [套用]

將 JSON 資料欄扁平化

您可以在準備資料時,簡化來源的 JSON 資料。這個程序稱為「平坦化」,會一次從 JSON 資料欄中擷取所有鍵/值組合,並將這些組合轉換成資料表中的資料欄。這有助於簡化複雜的 JSON 結構,方便您分析或與其他資料合併。

Gemini for BigQuery 建議的作業只會從 JSON 的頂層擷取欄位。如果這些擷取的欄位包含更多 JSON 物件,您可以在額外步驟中將其扁平化,以存取內容。

  1. 在 JSON 來源資料表的資料檢視畫面中,選擇資料欄或儲存格。
  2. 按一下「平面化」Flatten即可生成建議。
  3. 選用:如要更新 SQL 運算式,可以手動輸入 SQL 運算式。
  4. 選用:按一下「預覽」,然後檢查步驟。
  5. 按一下 [套用]

扁平化具有下列行為:

  • 選取含有 JSON 的儲存格或資料欄後,資料檢視畫面會顯示「扁平化」Flatten選項。點選「新增步驟」時,預設不會顯示這個選項。
  • 如果所選資料列中沒有 JSON 金鑰,產生的建議就不會包含該金鑰。如果資料經過平坦化處理,這個問題可能會導致系統省略部分資料欄。
  • 如果資料欄名稱在扁平化期間發生衝突,重複的資料欄名稱會以 _<i> 格式結尾。舉例來說,如果已有名稱為 address 的資料欄,則新的扁平化資料欄名稱為 address_1
  • 扁平化資料欄名稱會遵循 BigQuery 的資料欄命名慣例
  • 如果將 JSON 金鑰欄位留空,預設的資料欄名稱格式為 f<i>_

篩選表格列

如要新增可移除資料列的篩選器,請按照下列步驟操作:

  1. 在資料或結構定義檢視畫面中,選擇「篩選器」選項。你也可以選擇欄,協助 Gemini 瞭解資料篩選條件。
  2. 在「Description」(說明) 欄位中輸入提示,例如 Column ID should not be NULL
  3. 按一下「生成」。 Gemini 會根據提示產生 SQL 運算式和新的說明。
  4. 選用:如要更新 SQL 運算式,請修改提示並按一下「傳送」,或手動輸入 SQL 運算式。
  5. 選用:按一下「預覽」,然後檢查步驟。
  6. 按一下 [套用]

篩選運算式格式

篩選條件的 SQL 運算式會保留符合指定條件的資料列。這相當於 SELECT … WHERE SQL_EXPRESSION 陳述式。

舉例來說,如要保留資料欄 year 大於或等於 2000 的記錄,條件為 year >= 2000

運算式必須遵循 WHERE 子句的 BigQuery SQL 語法。

刪除資料欄

如要從資料準備作業中刪除一或多個資料欄,請按照下列步驟操作:

  1. 在資料或結構定義檢視畫面中,選取要捨棄的資料欄。
  2. 按一下「放棄」。系統會為已刪除的資料欄新增套用的步驟。

透過 Gemini 新增聯結作業

如要在資料準備期間,於兩個來源之間新增聯結作業步驟,請按照下列步驟操作:

  1. 在資料準備節點的資料檢視畫面中,前往「建議」清單,然後按一下「聯結」選項。
  2. 在「Add join」(新增聯結) 對話方塊中,按一下「Browse」(瀏覽),然後選取聯結作業涉及的其他資料表 (稱為聯結的右側)。
  3. 選用:選取要執行的彙整作業類型,例如內部彙整
  4. 查看下列欄位中 Gemini 生成的聯結鍵資訊:

    • 聯結說明:聯結作業的 SQL 運算式自然語言說明。編輯這段說明並點選「傳送」後,Gemini 會建議新的 SQL 聯結條件。
    • 聯結條件:聯結作業的 ON 子句中的 SQL 運算式。您可以使用 LR 限定符,分別參照左側和右側的來源資料表。舉例來說,如要將左方資料表的 customer_id 欄與右方資料表的 customer_id 欄彙整,請輸入 L.customerId = R.customerId。這些限定詞不區分大小寫。

  5. 選用:如要調整 Gemini 的建議,請編輯「加入說明」欄位,然後按一下「傳送」

  6. 選用:如要預覽資料準備作業的聯結設定,請按一下「預覽」

  7. 按一下 [套用]

    建立彙整作業步驟。您選取的來源資料表 (聯結的右側) 和聯結作業會反映在已套用步驟的清單中,以及資料準備作業的圖表檢視節點中。

匯總資料

  1. 在資料或架構檢視中,選擇「匯總」選項。
  2. 在「Description」(說明) 欄位中輸入提示,例如 Find the total revenue for a region
  3. 按一下 [傳送]

    Gemini 會根據提示生成分組鍵和匯總運算式。

  4. 選用:視需要編輯產生的分組鍵或彙整運算式。

  5. 選用:您可以手動新增分組鍵和匯總運算式。

    • 在「分組鍵」欄位中,輸入資料欄名稱或運算式。如果留空,結果資料表會有一列。如果您輸入運算式,則必須有別名 (AS 子句),例如 EXTRACT(YEAR FROM order_date) AS order_year。不得重複。
    • 在「Aggregation expressions」(彙整運算式) 欄位中,輸入具有別名 (AS 子句) 的彙整運算式,例如 SUM(quantity) AS total_quantity。您可以輸入多個以半形逗號分隔的運算式。請勿輸入重複的內容。如需支援的匯總運算式清單,請參閱匯總函式
  6. 選用:按一下「預覽」,然後檢查步驟。

  7. 按一下 [套用]

設定錯誤表格並新增驗證規則

您可以新增篩選器來建立驗證規則,將錯誤傳送至錯誤表格,或導致資料準備作業執行失敗。

設定錯誤表格

如要設定錯誤表格,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往工具列並依序點選「更多」>「錯誤表格」
  2. 按一下「啟用錯誤表格」
  3. 定義資料表位置。
  4. 選用:定義錯誤保留時長上限。
  5. 按一下 [儲存]

新增驗證規則

如要新增驗證規則,請按照下列步驟操作:

  1. 在資料或結構定義檢視畫面中,按一下「篩選器」選項。你也可以選擇資料欄,協助 Gemini 瞭解資料篩選條件。
  2. 輸入步驟說明。
  3. WHERE 子句的形式輸入 SQL 運算式。
  4. 選用:如要讓 SQL 運算式做為驗證規則,請選取「驗證失敗的資料列移至錯誤表格」核取方塊。您也可以按一下「更多」> 錯誤表格,將資料準備工具列中的篩選器變更為驗證。
  5. 選用:按一下「預覽」,然後檢查步驟。
  6. 按一下 [套用]

新增或變更目的地資料表

如要新增或變更資料準備輸出內容的目的地資料表,請按照下列步驟操作:

  1. 在資料或架構檢視畫面中,選擇「目的地」選項。
  2. 選取儲存目標資料表的專案。
  3. 選取其中一個資料集,或載入新的資料集。
  4. 輸入目的地資料表。如果資料表不存在,資料準備作業會在第一次執行時建立新資料表。詳情請參閱「寫入模式」。
  5. 選取資料集做為目的地資料集。
  6. 按一下 [儲存]

查看已套用步驟的資料樣本和結構定義

如要在資料準備的特定步驟中查看範例和結構定義詳細資料,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」
  2. 選取步驟。系統會顯示「資料」和「結構定義」分頁,顯示這個步驟的資料樣本和結構定義。

編輯套用的步驟

如要編輯套用的步驟,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」
  2. 選取步驟。
  3. 依序按一下步驟旁邊的 more_vert 和「選單」>「編輯」
  4. 在「編輯套用的步驟」對話方塊中,您可以執行下列操作:
    • 編輯步驟說明。
    • 編輯說明,然後按一下「傳送」,即可取得 Gemini 建議。
    • 編輯 SQL 運算式。
  5. 在「目標資料欄」欄位中選取資料欄。
  6. 選用:按一下「預覽」,然後檢查步驟。
  7. 按一下 [套用]

刪除套用的步驟

如要刪除套用的步驟,請按照下列步驟操作:

  1. 在資料準備編輯器中,前往「步驟」清單,然後按一下「已套用的步驟」
  2. 選取步驟。
  3. 依序點選「更多」圖示 more_vert 「選單」>「刪除」

執行資料準備作業

新增資料準備步驟、設定目的地並修正所有驗證錯誤後,您可以對資料樣本執行測試,也可以部署步驟並排定資料準備作業的執行時間。詳情請參閱「安排資料準備作業」。

重新整理資料準備範例

系統不會自動重新整理範例中的資料。如果資料準備作業的來源表格資料已變更,但準備作業的資料樣本未反映這些變更,請按一下「更多」>「重新整理樣本」

後續步驟