Ringkasan analisis kontribusi

Gunakan dokumen ini untuk memahami kasus penggunaan analisis kontribusi, dan opsi untuk melakukan analisis kontribusi di BigQuery ML.

Apa yang dimaksud dengan analisis kontribusi?

Analisis kontribusi, yang juga disebut analisis faktor utama, adalah metode yang digunakan untuk menghasilkan insight tentang perubahan pada metrik utama dalam data multidimensi Anda. Misalnya, Anda dapat menggunakan analisis kontribusi untuk melihat data yang berkontribusi pada perubahan angka pendapatan di dua kuartal, atau untuk membandingkan dua set data pelatihan guna memahami perubahan performa model ML.

Analisis kontribusi adalah bentuk analisis yang ditingkatkan, yaitu penggunaan kecerdasan buatan (AI) untuk meningkatkan dan mengotomatiskan analisis dan pemahaman data. Analisis kontribusi memenuhi salah satu tujuan utama analisis yang ditingkatkan, yaitu membantu pengguna menemukan pola dalam data mereka.

Analisis kontribusi dengan BigQuery ML

Untuk menggunakan analisis kontribusi di BigQuery ML, buat model analisis kontribusi dengan pernyataan CREATE MODEL.

Model analisis kontribusi mendeteksi segmen data yang menunjukkan perubahan dalam metrik tertentu dengan membandingkan set data pengujian dengan set data kontrol. Misalnya, Anda dapat menggunakan snapshot tabel data penjualan yang diambil pada akhir tahun 2023 sebagai data pengujian dan snapshot tabel yang diambil pada akhir tahun 2022 sebagai data kontrol, lalu membandingkannya untuk melihat perubahan penjualan dari waktu ke waktu. Model analisis kontribusi dapat menunjukkan kepada Anda segmen data mana, seperti pelanggan online di wilayah tertentu, yang mendorong perubahan terbesar dalam penjualan dari satu tahun ke tahun berikutnya.

Metrik adalah nilai numerik yang digunakan model analisis kontribusi untuk mengukur dan membandingkan perubahan antara data pengujian dan kontrol. Anda dapat menentukan jenis metrik berikut dengan model analisis kontribusi:

  • Dapat dijumlahkan: menjumlahkan nilai kolom metrik yang Anda tentukan, lalu menentukan total untuk setiap segmen data.
  • Rasio yang dapat dijumlahkan: menjumlahkan nilai dua kolom numerik yang Anda tentukan, dan menentukan rasio di antara keduanya untuk setiap segmen data.
  • Dapat dijumlahkan menurut kategori: menjumlahkan nilai kolom numerik dan membaginya dengan jumlah nilai berbeda dari kolom kategoris.

Segmen adalah irisan data yang diidentifikasi oleh kombinasi nilai dimensi tertentu. Misalnya, untuk model analisis kontribusi berdasarkan dimensi store_number, customer_id, dan day, setiap kombinasi unik dari nilai dimensi tersebut mewakili segmen. Dalam tabel berikut, setiap baris mewakili segmen yang berbeda:

store_number customer_id day
toko 1
toko 1 pelanggan 1
toko 1 pelanggan 1 Senin
toko 1 pelanggan 1 Selasa
toko 1 pelanggan 2
toko 2

Untuk mengurangi waktu pembuatan model, tentukan nilai minimum dukungan apriori. Dengan nilai minimum dukungan apriori, Anda dapat memangkas segmen kecil dan kurang relevan sehingga model hanya menggunakan segmen terbesar dan paling relevan.

Setelah membuat model analisis kontribusi, Anda dapat menggunakan fungsi ML.GET_INSIGHTS untuk mengambil informasi metrik yang dihitung oleh model. Output model terdiri dari baris insight, di mana setiap insight sesuai dengan segmen dan memberikan metrik yang sesuai untuk segmen tersebut.

Langkah berikutnya