Sebagian atau seluruh informasi di halaman ini mungkin tidak berlaku untuk Cloud de Confiance dari S3NS. Lihat Perbedaan dengan Google Cloud untuk mengetahui detail selengkapnya.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sketsa

GoogleSQL untuk BigQuery mendukung sketsa data. Sketsa data adalah ringkasan singkat dari penggabungan data. Fungsi ini menangkap semua informasi yang diperlukan untuk mengekstrak hasil penggabungan, melanjutkan penggabungan data, atau menggabungkannya dengan sketsa lain, sehingga memungkinkan penggabungan ulang.

Menghitung metrik menggunakan sketsa jauh lebih murah daripada menghitung nilai pasti. Jika komputasi Anda terlalu lambat atau memerlukan terlalu banyak penyimpanan sementara, gunakan sketsa untuk mengurangi waktu dan resource kueri.

Selain itu, menghitung kardinalitas, seperti jumlah pengguna unik, atau kuantil, seperti durasi kunjungan median, tanpa sketsa biasanya hanya dapat dilakukan dengan menjalankan tugas pada data mentah karena data yang sudah digabungkan tidak dapat digabungkan lagi.

Pertimbangkan tabel dengan data berikut:

Produk	Jumlah pengguna	Durasi kunjungan median
Produk A	500 juta	10 menit
Produk B	20 juta	2 menit

Menghitung jumlah total pengguna untuk kedua produk tidak memungkinkan karena kami tidak tahu jumlah pengguna yang menggunakan kedua produk tersebut di tabel. Demikian pula, durasi kunjungan median tidak dapat dihitung karena distribusi durasi kunjungan telah hilang.

Solusinya adalah menyimpan sketsa dalam tabel. Setiap sketsa adalah representasi perkiraan dan ringkas dari properti input tertentu, seperti kardinalitas, yang dapat Anda simpan, gabungkan (atau digabungkan ulang), dan kueri untuk hasil yang hampir sama persis. Pada contoh sebelumnya, Anda dapat memperkirakan jumlah pengguna yang berbeda untuk Produk A dan Produk B dengan membuat dan menggabungkan (menggabungkan ulang) sketsa untuk setiap produk. Anda juga dapat memperkirakan durasi kunjungan median dengan sketsa kuantil yang juga dapat Anda gabungkan dan di-kueri.

Misalnya, kueri berikut menggunakan sketsa HLL++ dan KLL untuk memperkirakan pengguna unik dan durasi kunjungan median untuk YouTube (Produk A) dan Google Maps (Produk B):

-- Build sketches for YouTube stats.
CREATE TABLE user.YOUTUBE_ACCESS_STATS
AS
SELECT
  HLL_COUNT.INIT(user_id) AS distinct_users_sketch,
  KLL_QUANTILES.INIT_INT64(visit_duration_ms) AS visit_duration_ms_sketch,
  hour_of_day
FROM YOUTUBE_ACCESS_LOG()
GROUP BY hour_of_day;

-- Build sketches for Maps stats.
CREATE TABLE user.MAPS_ACCESS_STATS
AS
SELECT
  HLL_COUNT.INIT(user_id) AS distinct_users_sketch,
  KLL_QUANTILES.INIT_INT64(visit_duration_ms) AS visit_duration_ms_sketch,
  hour_of_day
FROM MAPS_ACCESS_LOG()
GROUP BY hour_of_day;

-- Query YouTube hourly stats.
SELECT
  HLL_COUNT.EXTRACT(distinct_users_sketch) AS distinct_users,
  KLL_QUANTILES.EXTRACT_POINT_INT64(visit_duration_ms_sketch, 0.5)
  AS median_visit_duration, hour_of_day
FROM user.YOUTUBE_ACCESS_STATS;

-- Query YouTube daily stats.
SELECT
  HLL_COUNT.MERGE(distinct_users_sketch),
  KLL_QUANTILES.MERGE_POINT_INT64(visit_duration_ms_sketch, 0.5)
  AS median_visit_duration, date
FROM user.YOUTUBE_ACCESS_STATS
GROUP BY date;

-- Query total stats across YouTube and Maps.
SELECT
  HLL_COUNT.MERGE(distinct_users_sketch) AS unique_users_all_services,
  KLL_QUANTILES.MERGE_POINT_INT64(visit_duration_ms_sketch, 0.5)
    AS median_visit_duration_all_services,
FROM
  (
    SELECT * FROM user.YOUTUBE_ACCESS_STATS
    UNION ALL
    SELECT * FROM user.MAPS_ACCESS_STATS
  );

Karena memiliki kompresi lossy terhadap data asli, sketsa menyebabkan error statistik yang dinyatakan oleh batas error atau interval keyakinan (CI). Untuk sebagian besar aplikasi, ketidakpastian ini cukup kecil. Misalnya, sketsa penghitungan kardinalitas umum memiliki error relatif sekitar 1% dalam 95% dari semua kasus. Sketsa mengorbankan sejumlah akurasi, atau presisi, untuk komputasi yang lebih cepat dan lebih murah, serta lebih sedikit menggunakan penyimpanan.

Singkatnya, sketsa memiliki sifat-sifat utama berikut:

Merepresentasikan perkiraan gabungan untuk metrik tertentu
Bentuknya ringkas
Adalah bentuk serial dari struktur data sublinear dalam memori
Biasanya berukuran tetap dan secara asimetris lebih kecil daripada input
Dapat menyebabkan error statistik yang Anda tentukan dengan tingkat presisi
Dapat digabungkan dengan sketsa lain untuk meringkas penyatuan set data yang mendasarinya

Penggabungan ulang dengan penggabungan sketsa

Sketsa memungkinkan Anda menyimpan dan menggabungkan data untuk penggabungan ulang secara efisien. Hal ini membuat sketsa sangat berguna untuk tampilan terwujud set data. Anda dapat menggabungkan sketsa untuk membuat ringkasan beberapa aliran data berdasarkan sebagian sketsa yang dibuat untuk setiap aliran.

Misalnya, jika Anda membuat sketsa untuk estimasi jumlah pengguna yang berbeda setiap hari, Anda bisa mendapatkan jumlah pengguna unik selama tujuh hari terakhir dengan menggabungkan sketsa harian. Menggabungkan ulang sketsa harian yang digabungkan membantu Anda menghindari membaca input penuh dari set data.

Penggabungan ulang sketsa juga berguna dalam pemrosesan analisis online (OLAP). Anda dapat menggabungkan sketsa untuk membuat tampilan gabungan dari Kubus OLAP, dengan sketsa tersebut merangkum data bersama satu atau beberapa dimensi kubus yang spesifik. Tampilan gabungan OLAP tidak mungkin dilakukan dengan jumlah berbeda yang sebenarnya.

Jenis sketsa apa yang harus saya gunakan?

Algoritma pembuatan sketsa yang berbeda dirancang untuk berbagai jenis metrik, seperti HLL++ untuk jumlah unik dan KLL untuk kuantil. GoogleSQL juga menyediakan Fungsi agregat perkiraan yang dapat Anda gunakan untuk membuat kueri jenis data ini tanpa harus menentukan detail kueri seperti tingkat presisi.

Sketsa yang Anda gunakan bergantung pada jenis data yang perlu Anda perkirakan.

Perkiraan kardinalitas

Jika Anda perlu memperkirakan kardinalitas, gunakan sketsa HLL++.

Misalnya, untuk mendapatkan jumlah pengguna unik yang secara aktif menggunakan produk dalam bulan tertentu (metrik MAU atau 28DAU), gunakan sketsa HLL++.

Menghitung kuantil

Jika Anda perlu mendapatkan kuantil set data, gunakan sketsa KLL.

Misalnya, untuk mendapatkan durasi kunjungan median pelanggan di toko, atau untuk melacak latensi persentil ke-95 saat tiket tetap dalam antrean sebelum ditangani, gunakan sketsa KLL.

Sketsa HLL++

HyperLogLog++ (HLL++) adalah algoritma pembuatan sketsa untuk memperkirakan kardinalitas. HLL++ didasarkan pada makalah HyperLogLog in Practice, dengan ++ menunjukkan augmentasi yang dilakukan pada algoritma HyperLogLog.

Kardinalitas adalah jumlah elemen berbeda dalam input untuk sketsa. Misalnya, Anda dapat menggunakan sketsa HLL++ untuk mendapatkan jumlah pengguna unik yang telah membuka aplikasi.

HLL++ memperkirakan kardinalitas yang sangat kecil dan sangat besar. HLL++ mencakup fungsi hash 64-bit, representasi renggang untuk mengurangi persyaratan memori untuk estimasi kardinalitas kecil, dan koreksi bias empiris untuk estimasi kardinalitas kecil.

Presisi

Sketsa HLL++ mendukung presisi kustom. Tabel berikut menunjukkan nilai presisi yang didukung, ukuran penyimpanan maksimum, dan interval keyakinan (CI) untuk tingkat presisi standar:

Presisi	Ukuran penyimpanan maksimum	65% CI	95% CI	99% CI
10	1 KiB + 28 B	±3.25%	±6.50%	±9.75%
11	2 KiB + 28 B	±2.30%	±4.60%	±6.89%
12	4 KiB + 28 B	±1.63%	±3.25%	±4.88%
13	8 KiB + 28 B	±1.15%	±2.30%	±3.45%
14	16 KiB + 30 B	±0.81%	±1.63%	±2.44%
15 (default)	32 KiB + 30 B	±0.57%	±1.15%	±1.72%
16	64 KiB + 30 B	±0.41%	±0.81%	±1.22%
17	128 KiB + 30 B	±0.29%	±0.57%	±0.86%
18	256 KiB + 30 B	±0.20%	±0.41%	±0.61%
19	512 KiB + 30 B	±0.14%	±0.29%	±0.43%
20	1024 KiB + 30 B	±0.10%	±0.20%	±0.30%
21	2048 KiB + 32 B	±0.07%	±0.14%	±0.22%
22	4096 KiB + 32 B	±0.05%	±0.10%	±0.15%
23	8192 KiB + 32 B	±0.04%	±0.07%	±0.11%
24	16384 KiB + 32 B	±0.03%	±0.05%	±0.08%

Anda dapat menentukan presisi untuk sketsa HLL++ saat menginisialisasinya dengan fungsi HLL_COUNT.INIT.

Penghapusan

Anda tidak dapat menghapus nilai dari sketsa HLL++.

Detail tambahan

Untuk daftar fungsi yang dapat Anda gunakan dengan sketsa HLL++, lihat fungsi HLL++.

Integrasi sketsa

Anda dapat mengintegrasikan sketsa HLL++ dengan sistem lain. Misalnya, Anda dapat membuat sketsa di aplikasi eksternal, seperti Dataflow, Apache Spark, dan ZetaSketch, lalu menggunakannya di GoogleSQL atau sebaliknya.

Selain GoogleSQL, Anda dapat menggunakan sketsa HLL++ dengan Java.

Sketsa KLL

KLL (singkatan dari Karnin-Lang-Liberty) adalah algoritma streaming untuk menghitung sketsa untuk kuantil perkiraan. Sketsa ini menghitung kuantil arbitrer jauh lebih efisien daripada penghitungan yang tepat dengan harga kesalahan perkiraan kecil.

Presisi

Sketsa KLL mendukung presisi kustom. Presisi menentukan keakuratan kuantil perkiraan q yang ditampilkan.

Secara default, peringkat kuantil perkiraan dapat berbeda paling banyak ±1/1000 * n dari ⌈Φ * n⌉, dengan n adalah jumlah baris dalam input dan ⌈Φ * n⌉ adalah peringkat kuantil yang tepat.

Jika Anda memberikan presisi kustom, peringkat kuantil perkiraan dapat paling banyak ±1/precision * n berbeda dari peringkat kuantil yang tepat. Error berada dalam batas error ini dalam 99,999% kasus. Jaminan error ini hanya berlaku untuk perbedaan antara peringkat yang tepat dan perkiraan. Perbedaan numerik antara nilai pasti dan nilai yang diperkirakan untuk kuantil dapat sangat besar.

Misalnya, anggaplah Anda ingin menemukan nilai median, Φ = 0.5, dan Anda menggunakan presisi default 1000. Kemudian, peringkat nilai yang ditampilkan oleh fungsi KLL_QUANTILES.EXTRACT_POINT berbeda dari peringkat sebenarnya paling banyak n/1000 dalam 99,999% kasus. Dengan kata lain, nilai yang ditampilkan hampir selalu berada di antara persentil ke-49,9 dan ke-50,1. Jika Anda memiliki 1.000.000 item dalam sketsa, maka peringkat median yang ditampilkan hampir selalu antara 499.000 dan 501.000.

Jika Anda menggunakan presisi kustom 100 untuk menemukan nilai median, maka peringkat nilai yang ditampilkan oleh fungsi KLL_QUANTILES.EXTRACT_POINT berbeda dari peringkat sebenarnya paling banyak n/100 dalam 99,999% kasus. Dengan kata lain, nilai yang ditampilkan hampir selalu antara persentil ke-49 dan ke-51. Jika Anda memiliki 1.000.000 item dalam sketsa, maka peringkat median yang ditampilkan hampir selalu antara 490.000 dan 510.000.

Anda dapat menentukan presisi untuk sketsa KLL saat menginisialisasinya dengan fungsi KLL_QUANTILES.INIT.

Ukuran

Ukuran sketsa KLL bergantung pada parameter presisi dan jenis input. Jika jenis input Anda adalah INT64, sketsa dapat menggunakan pengoptimalan tambahan yang sangat berguna jika nilai input berasal dari semesta kecil. Tabel berikut berisi dua kolom untuk INT64. Satu kolom memberikan batas atas ukuran sketsa untuk item dari semesta terbatas berukuran 1 miliar, dan kolom kedua memberikan batas atas untuk nilai input arbitrer.

Presisi	FLOAT64	INT64 (<1 Miliar)	INT64 (Apa Saja)
10	761 B	360 B	717 B
20	1,46 KB	706 B	1,47 KB
50	3,49 KB	1,72 KB	3,60 KB
100	6,94 KB	3,44 KB	7,12 KB
200	13,87 KB	6,33 KB	13,98 KB
500	35,15 KB	14,47 KB	35,30 KB
1000	71,18 KB	27,86 KB	71,28 KB
2000	144,51 KB	55,25 KB	144,57 KB
5000	368,87 KB	139,54 KB	368,96 KB
10000	749,82 KB	282,27 KB	697,80 KB
20000	1,52 MB	573,16 KB	1,37 MB
50000	3,90 MB	1,12 MB	3,45 MB
100000	7,92 MB	2,18 MB	6,97 MB

Phi

Phi (Φ) mewakili kuantil yang akan dihasilkan sebagai bagian dari jumlah total baris dalam input sketsa, yang dinormalisasi antara 0 dan 1. Jika fungsi mendukung phi, fungsi akan menampilkan nilai v sehingga sekitar Φ * n input kurang dari atau sama dengan v, dan (1-Φ) * n input lebih besar dari atau sama dengan v.

Detail tambahan

Untuk daftar fungsi yang dapat Anda gunakan dengan sketsa KLL, lihat fungsi kuantil KLL.

Algoritma KLL ditentukan dalam makalah Optimal Quantile Approximation in Streams, dan dinamai berdasarkan nama penulisnya, Karnin, Lang, dan Liberty, yang memublikasikan makalah tersebut pada tahun 2016. Algoritma KLL meningkatkan kualitas algoritma MP80 yang lebih lama dengan menggunakan buffer berukuran variabel untuk mengurangi penggunaan memori untuk set data besar, sehingga mengurangi ukuran sketsa dari O(log n) menjadi O(1). Karena algoritma bersifat non-deterministik, sketsa yang dibuat pada set data yang sama dengan presisi yang sama mungkin tidak identik.

Kuantil

Kuantil adalah titik potong yang membagi rentang distribusi probabilitas menjadi interval berkelanjutan dengan probabilitas yang sama, atau membagi pengamatan dalam sampel dengan cara yang sama. Sketsa yang mendukung kuantil memungkinkan Anda memperkirakan kuantil dengan meringkas interval dan probabilitas tersebut menjadi hasil kuantil yang hampir tepat.

Kuantil biasanya ditentukan dengan dua cara:

Untuk bilangan bulat positif q, kuantil q adalah sekumpulan nilai yang membagi kumpulan input menjadi q subset dengan ukuran yang hampir sama. Beberapa di antaranya memiliki nama tertentu: 2-kuantil tunggal adalah median, 4-kuantil adalah kuartil, 100-kuantil adalah persentil, dll. Fungsi KLL juga menampilkan nilai minimum dan maksimum (persis) dari input, sehingga saat membuat kueri untuk 2-kuantil, tiga nilai akan ditampilkan.

Tips: Untuk mengekstrak sekumpulan kuantil q dengan q adalah argumen number, gunakan fungsi MERGE dan EXTRACT dalam fungsi KLL_QUANTILES.*.
Atau, kuantil dapat dianggap sebagai Φ-kuantil individual, dengan Φ adalah bilangan riil dengan 0 <= Φ <= 1. Kuantil ke-Φ x adalah elemen input sedemikian rupa sehingga fraksi Φ dari input kurang dari atau sama dengan x, dan fraksi (1-Φ) lebih besar dari atau sama dengan x. Dalam notasi ini, median adalah kuantil 0,5, dan persentil ke-95 adalah kuantil 0,95.

Tips: Untuk mengekstrak setiap kuantil Φ, gunakan fungsi MERGE_POINT dan EXTRACT_POINT yang mendukung kuantil, dengan Φ adalah argumen phi.

Misalnya, Anda dapat menggunakan sketsa yang mendukung kuantil untuk mendapatkan median jumlah aplikasi yang dibuka oleh pengguna.

Fungsi perkiraan agregat

Sebagai alternatif fungsi perkiraan berbasis sketsa tertentu, GoogleSQL menyediakan fungsi agregat perkiraan yang telah ditetapkan sebelumnya. Fungsi agregat perkiraan ini mendukung sketsa untuk estimasi umum seperti jumlah, kuantil, dan jumlah teratas yang berbeda, tetapi tidak memungkinkan presisi kustom. Fungsi ini juga tidak mengekspos dan menyimpan sketsa untuk penggabungan ulang seperti jenis sketsa lainnya. Fungsi agregat perkiraan dirancang untuk menjalankan kueri cepat berbasis sketsa tanpa konfigurasi mendetail.

Untuk daftar fungsi agregat perkiraan yang dapat Anda gunakan dengan perkiraan berbasis sketsa, lihat Fungsi agregat perkiraan.