このページの一部またはすべての情報は、S3NS の Cloud de Confiance に適用されない場合があります。詳細については、Google Cloud との違いをご確認ください。

データのバッチ読み込み

BigQuery には、Cloud Storage またはローカルファイルからバッチオペレーションとしてデータを読み込むことができます。ソースデータは次のいずれかの形式になります。

Avro
カンマ区切り値（CSV）
JSON（改行区切り）
ORC
Parquet
Cloud Storage に保存されている Datastore のエクスポート
Cloud Storage に保存されている Firestore のエクスポート

BigQuery Data Transfer Service を使用して、Cloud Storage から BigQuery への定期的な読み込みを設定することもできます。

始める前に

このドキュメントの各タスクを行うのに必要な権限をユーザーに与える Identity and Access Management（IAM）ロールを付与し、データを保存するためのデータセットを作成します。

必要な権限

BigQuery にデータを読み込むには、読み込みジョブを実行してデータを BigQuery のテーブルとパーティションに読み込む IAM 権限が必要です。Cloud Storage からデータを読み込む場合は、データを含むバケットに対する IAM アクセス権限も必要です。

BigQuery にデータを読み込む権限

新しい BigQuery テーブルやパーティションにデータを読み込む場合、または既存のテーブルやパーティションにデータの追加や上書きを行う場合は、次の IAM 権限が必要です。

bigquery.tables.create
bigquery.tables.updateData
bigquery.tables.update
bigquery.jobs.create

以下の各事前定義 IAM ロールには、BigQuery テーブルやパーティションにデータを読み込むために必要な権限が含まれています。

roles/bigquery.dataEditor
roles/bigquery.dataOwner
roles/bigquery.admin（bigquery.jobs.create 権限を含む）
bigquery.user（bigquery.jobs.create 権限を含む）
bigquery.jobUser（bigquery.jobs.create 権限を含む）

また、bigquery.datasets.create 権限がある場合は、作成するデータセットで読み込みジョブを使用してテーブルの作成と更新を行えます。

BigQuery での IAM のロールと権限については、事前定義ロールと権限をご覧ください。

Cloud Storage からデータを読み込む権限

Cloud Storage バケットからデータを読み込むために必要な権限を取得するには、バケットに対するストレージ管理者（roles/storage.admin）IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

この事前定義ロールには、Cloud Storage バケットからデータを読み込むために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

Cloud Storage バケットからデータを読み込むには、次の権限が必要です。

storage.buckets.get
storage.objects.get
storage.objects.list (required if you are using a URI wildcard)

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

データセットを作成する

データを保存する BigQuery データセットを作成します。

Cloud Storage からのデータの読み込み

BigQuery では以下の Cloud Storage ストレージクラスからデータを読み込むことができます。

Standard
Nearline
Coldline
アーカイブ

BigQuery にデータを読み込む方法については、以下のデータ形式のページをご覧ください。

Cloud Storage から BigQuery への定期的な読み込みを構成する方法については、Cloud Storage の転送をご覧ください。

ロケーションに関する留意事項

データセットの作成後にそのロケーションを変更することはできませんが、データセットのコピーは作成できます。また、手動で移動することもできます。詳細については、次をご覧ください。

Cloud Storage URI の取得

Cloud Storage データソースからデータを読み込むには、Cloud Storage URI を指定する必要があります。

Cloud Storage のリソースパスには、バケット名とオブジェクト（ファイル名）が含まれます。たとえば、Cloud Storage バケットの名前が mybucket でデータファイルの名前が myfile.csv の場合、リソースパスは gs://mybucket/myfile.csv になります。

BigQuery では、最初のダブルスラッシュの後に複数の連続スラッシュが含まれる Cloud Storage リソースパスはサポートされていません。Cloud Storage オブジェクトの名前には複数の連続スラッシュ（"/"）文字を含めることができます。一方、BigQuery では、複数の連続スラッシュは単一のスラッシュに変換されます。たとえば、リソースパス gs://bucket/my//object//name は Cloud Storage では有効ですが、BigQuery では機能しません。

Cloud Storage のリソースパスを取得するには:

Cloud Storage コンソールを開きます。

Cloud Storage コンソール
ソースデータを含むオブジェクト（ファイル）の場所に移動します。
オブジェクトの名前をクリックします。

[オブジェクトの詳細] ページが開きます。
[gsutil URI] フィールドに表示されている値（gs:// で始まる）をコピーします。

Google Datastore のエクスポートで指定できる URI は 1 つのみです。また、URI の末尾は .backup_info または .export_metadata である必要があります。

Cloud Storage の URI でのワイルドカードのサポート

データが複数のファイルに分かれている場合は、ワイルドカードとしてアスタリスク（*）を使用して複数のファイルを選択できます。ワイルドカードとしてアスタリスクを使用する場合は、次のルールに従う必要があります。

アスタリスクは、オブジェクト名の中または末尾に使用できます。
複数のアスタリスクは使用できません。たとえば、パス gs://mybucket/fed-*/temp/*.csv は無効です。
バケット名にはアスタリスクを使用できません。

例:

次の例では、gs://mybucket/fed-samples/fed-sample で始まるすべてのフォルダ内のすべてのファイルを選択する方法を示します。
```
gs://mybucket/fed-samples/fed-sample*
```
次の例では、fed-samples というフォルダと fed-samples のサブフォルダにある .csv という拡張子のファイルのみを選択する方法を示します。
```
gs://mybucket/fed-samples/*.csv
```
次の例では、fed-samples という名前のフォルダで fed-sample*.csv という命名パターンのファイルを選択する方法を示します。この例では、fed-samples のサブフォルダ内のファイルは選択されません。
```
gs://mybucket/fed-samples/fed-sample*.csv
```

一部のプラットフォームでは、bp コマンドラインツールの使用時に、アスタリスクをエスケープしなければならない場合があります。

Cloud Storage から Datastore または Firestore のエクスポートデータを読み込むときには、アスタリスクワイルドカードは使用できません。

制限事項

Cloud Storage バケットから BigQuery にデータを読み込む際には、次の制限があります。

BigQuery では外部データソースに対して整合性が保証されません。クエリの実行中に基になるデータを変更すると、予期しない動作が発生する可能性があります。
BigQuery では、Cloud Storage オブジェクトのバージョニングはサポートされていません。Cloud Storage URI に世代番号を含めると、読み込みジョブは失敗します。

Cloud Storage のソースデータの形式によっては、追加の制限が適用される場合があります。詳細については、次をご覧ください。

ローカルファイルからのデータの読み込み

次のいずれかを使用して、読み取り可能なデータソース（ローカルマシンなど）からデータを読み込むことができます。

Cloud de Confiance コンソール
bq コマンドラインツールの bq load コマンド
API
クライアントライブラリ

Cloud de Confiance コンソールまたは bq コマンドラインツールを使用してデータを読み込むと、読み込みジョブが自動的に作成されます。

データをローカルデータソースから読み込むには:

コンソール

Cloud de Confiance コンソールで [BigQuery] ページを開きます。

[BigQuery] ページに移動
左側のペインで、 [エクスプローラ] をクリックします。

左側のペインが表示されていない場合は、 [左ペインを開く] をクリックしてペインを開きます。
[エクスプローラ] ペインでプロジェクトを開き、[データセット] をクリックして、データセットを選択します。
詳細ペインで [テーブルを作成] をクリックします。
[テーブルの作成] ページの [ソース] セクションで、次の操作を行います。
- [テーブルの作成元] で [アップロード] を選択します。
- [ファイルを選択] で、[参照] をクリックします。
- 一覧からファイルを選択して [開く] をクリックします。ワイルドカードやカンマ区切りのリストは、ローカルファイルに対してはサポートされないことに注意してください。
- ファイル形式として、CSV、JSON（改行区切り）、Avro、Parquet または ORC を選択します。
[テーブルの作成] ページの [送信先] セクションで、次の操作を行います。
- [プロジェクト] で、該当するプロジェクトを選択します。
- [データセット] で、該当するデータセットを選択します。
- [テーブル] に、BigQuery で作成するテーブルの名前を入力します。
- [テーブルタイプ] が [ネイティブテーブル] に設定されていることを確認します。
[スキーマ] セクションでスキーマ定義を入力します。
- CSV や JSON ファイルの場合は、[自動検出] オプションをオンにしてスキーマの自動検出を有効にできます。スキーマ情報は、サポートされているその他のファイル形式のソースデータで自己記述されます。
- 次の方法でスキーマ情報を手動で入力することもできます。
  - [テキストとして編集] をクリックし、テーブルスキーマを JSON 配列として入力します。
    注: 既存のテーブルのスキーマを JSON 形式で表示するには、コマンド bq show --format=prettyjson dataset.table を入力します。
  - [フィールドを追加] を使用して、スキーマを手動で入力します。
[詳細オプション] セクションで該当する項目を選択します。使用可能なオプションについては、CSV のオプションと JSON のオプションをご覧ください。
省略可: [詳細オプション] で書き込み処理を選択します。
- 空の場合に書き込む: テーブルが空の場合にのみデータを書き込みます。
- テーブルに追加する: テーブルの末尾にデータを追加します。これがデフォルトの設定です。
- テーブルを上書きする: 新しいデータを書き込む前に、テーブル内の既存のデータをすべて削除します。
[テーブルを作成] をクリックします。

bq

bq load コマンドを使用して source_format を指定し、ローカルファイルへのパスも指定します。

（省略可）--location フラグを指定して、その値をロケーションに設定します。

デフォルトプロジェクト以外のプロジェクトのデータを読み込む場合は、PROJECT_ID:DATASET の形式でプロジェクト ID をデータセットに追加します。

bq --location=LOCATION load \
--source_format=FORMAT \
PROJECT_ID:DATASET.TABLE \
PATH_TO_SOURCE \
SCHEMA

次のように置き換えます。

LOCATION: ロケーション。--location フラグは省略可能です。たとえば、BigQuery を東京リージョンで使用している場合は、このフラグの値を asia-northeast1 に設定します。ロケーションのデフォルト値は、.bigqueryrc ファイルを使用して設定できます。
FORMAT: CSV、AVRO、PARQUET、ORC、NEWLINE_DELIMITED_JSON。
project_id: プロジェクト ID。
dataset: 既存のデータセット。
table: データの読み込み先のテーブル名。
path_to_source: ローカルファイルへのパス。
schema: 有効なスキーマ。スキーマはローカルの JSON ファイルにすることも、コマンドの一部としてインラインで入力することもできます。また、スキーマ定義を指定する代わりに、--autodetect フラグを使用することもできます。

その他にも、BigQuery によるデータの解析方法を制御するオプションに対応するフラグを追加できます。たとえば、--skip_leading_rows フラグを使用すると、CSV ファイル内のヘッダー行が無視されます。詳細については、CSV のオプションと JSON のオプションをご覧ください。

例:

次のコマンドは、ローカルの改行区切りの JSON ファイル（mydata.json）をデフォルトプロジェクトの mydataset 内にある mytable というテーブルに読み込みます。スキーマは、myschema.json という名前のローカルスキーマファイルで定義されています。

    bq load \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json \
    ./myschema.json

次のコマンドは、ローカルの CSV ファイル（mydata.csv）を myotherproject の mydataset 内にある mytable という名前のテーブルに読み込みます。スキーマは、FIELD:DATA_TYPE, FIELD:DATA_TYPE の形式でインラインで定義されます。

    bq load \
    --source_format=CSV \
    myotherproject:mydataset.mytable \
    ./mydata.csv \
    qtr:STRING,sales:FLOAT,year:STRING

次のコマンドは、ローカルの CSV ファイル（mydata.csv）をデフォルトプロジェクトの mydataset 内にある mytable というテーブルに読み込みます。スキーマはスキーマ自動検出を使用して定義されます。

    bq load \
    --autodetect \
    --source_format=CSV \
    mydataset.mytable \
    ./mydata.csv