데이터 로드, 변환, 내보내기 소개

이 문서에서는 추출, 로드, 변환(ELT) 또는 추출, 변환, 로드(ETL) 프로세스를 사용하여 BigQuery에서 데이터를 로드하고 변환하는 데이터 통합 접근 방식을 설명합니다. 또한 BigQuery에서 데이터를 내보내 다른 시스템에 인사이트를 적용하는 방법(역방향 ETL)도 설명합니다.

ELT와 ETL 중 결정하기

일반적으로 데이터를 BigQuery에 로드하기 전후에 변환합니다. 기본적으로 데이터를 BigQuery에 로드하기 전에 변환할지(추출-변환-로드(ETL) 접근 방식) 아니면 원시 데이터를 BigQuery에 로드하고 BigQuery를 사용하여 변환할지(추출-로드-변환(ELT) 접근 방식) 결정합니다.

다음 차트는 ELT 또는 ETL을 사용하여 BigQuery로 데이터를 통합하는 다양한 옵션을 보여줍니다.

BigQuery로의 데이터 통합을 위한 ELT 또는 ETL 워크플로에 사용되는 제품의 결정 트리

일반적으로 대부분의 고객에게 ELT 방식을 권장합니다. ELT 워크플로에서는 복잡한 데이터 통합을 추출 및 로드와 이후의 변환이라는 관리 가능한 두 부분으로 분할합니다. 사용자는 필요에 맞는 다양한 데이터 로드 방법을 선택할 수 있습니다. 데이터가 BigQuery에 로드되면 SQL에 익숙한 사용자는 Dataform과 같은 도구를 사용하여 변환 파이프라인을 개발할 수 있습니다.

다음 섹션에서는 각 워크플로를 자세히 설명합니다.

데이터 로드 및 변환

일반적으로 데이터를 BigQuery에 로드하기 전후에 변환합니다. 데이터 통합에 관한 두 가지 일반적인 접근 방식인 ETL과 ELT는 다음 섹션에 설명되어 있습니다.

ELT 데이터 통합 접근 방식

추출-로드-변환(ELT) 접근 방식을 사용하면 두 가지 개별 단계로 데이터 통합을 수행할 수 있습니다.

  • 데이터 추출 및 로드
  • 데이터 변환

예를 들어 JSON 파일 소스에서 데이터를 추출하여 BigQuery 테이블로 로드할 수 있습니다. 그런 다음 파이프라인을 사용하여 필드를 추출하고 대상 테이블로 변환할 수 있습니다.

ELT 접근 방식을 사용하면 다음과 같은 방식으로 데이터 통합 워크플로를 간소화할 수 있습니다.

  • 다른 데이터 처리 도구를 사용할 필요가 없습니다.
  • 종종 복잡한 데이터 통합 프로세스를 관리 가능한 두 부분으로 분할합니다.
  • BigQuery의 기능을 최대한 활용하여 대규모로 데이터를 준비, 변환, 최적화합니다.

데이터 추출 및 로드

ELT 데이터 통합 접근 방식에서는 데이터 소스에서 데이터를 추출하고 지원되는 외부 데이터를 로드하거나 액세스하는 방법 중 하나를 사용하여 BigQuery로 로드합니다.

BigQuery에서 데이터 변환

데이터를 BigQuery에 로드한 후 다음 도구를 사용하여 데이터를 준비하고 변환할 수 있습니다.

  • 고급 SQL 데이터 변환 파이프라인을 공동으로 빌드, 테스트, 문서화, 예약하려면 Dataform을 사용하세요.
  • 예약된 일정에 따라 SQL 코드, Python 노트북 또는 데이터 준비를 실행하는 소규모 데이터 변환 워크플로의 경우 BigQuery 파이프라인을 사용하세요.
  • 분석을 위해 데이터를 정리하려면 AI 증강 데이터 준비를 사용하세요.

이러한 도구는 모두 Dataform API를 기반으로 합니다.

자세한 내용은 변환 소개를 참조하세요.

ETL 데이터 통합 접근 방식

추출-변환-로드(ETL) 접근 방식에서는 데이터가 BigQuery에 도달하기 전에 데이터를 추출하고 변환합니다. 이 접근 방식은 데이터 변환을 위한 기존 프로세스가 있거나 BigQuery의 리소스 사용량을 줄이려는 경우에 유용합니다.

Cloud Data Fusion을 사용하면 ETL 프로세스를 간소화할 수 있습니다. BigQuery는 데이터를 변환하고 BigQuery에 로드하는 타사 파트너와도 호환됩니다.

데이터 내보내기

BigQuery에서 데이터를 처리하고 분석한 후 결과를 내보내 다른 시스템에 적용할 수 있습니다. BigQuery는 다음과 같은 내보내기를 지원합니다.

  • 쿼리 결과를 로컬 파일, Google Drive, Google Sheets로 내보내기
  • Cloud Storage, Bigtable, Spanner, Pub/Sub로 테이블 또는 쿼리 결과 내보내기

이 프로세스를 역방향 ETL이라고 합니다.

자세한 내용은BigQuery의 데이터 내보내기 소개를 참조하세요.

다음 단계