יכול להיות שחלק מהמידע בדף הזה או כולו לא רלוונטי ל-Cloud de Confiance by S3NS. פרטים נוספים מופיעים במאמר מה ההבדל מ-Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

יצירת המלצות על סמך משוב מפורש באמצעות מודל של פירוק מטריצות

במדריך הזה נלמד איך ליצור מודל של פירוק מטריצות ולאמן אותו על דירוגי הסרטים של הלקוחות במערך הנתונים movielens1m. לאחר מכן משתמשים במודל של פירוק מטריצות כדי ליצור המלצות לסרטים עבור משתמשים.

השימוש בדירוגים שהלקוחות מספקים כדי לאמן את המודל נקרא אימון עם משוב מפורש. מודלים של פירוק מטריצות עוברים אימון באמצעות אלגוריתם של ריבועים פחותים לסירוגין כשמשתמשים במשוב גלוי כנתוני אימון.

מטרות

במדריך הזה מוסבר איך לבצע את הפעולות הבאות:

יצירת מודל של פירוק מטריצות באמצעות ההצהרה CREATE MODEL.
הערכת המודל באמצעות הפונקציה ML.EVALUATE.
יצירת המלצות לסרטים למשתמשים באמצעות המודל עם הפונקציה ML.RECOMMEND.

עלויות

במדריך הזה נעשה שימוש ברכיבים של Cloud de Confiance by S3NSשחלים עליהם חיובים, כולל הרכיבים הבאים:

BigQuery
BigQuery ML

מידע נוסף על העלויות ב-BigQuery זמין בדף תמחור ב-BigQuery.

מידע נוסף על העלויות של BigQuery ML זמין במאמר תמחור ב-BigQuery ML.

לפני שמתחילים

In the Cloud de Confiance console, on the project selector page, select or create a Cloud de Confiance project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Cloud de Confiance project.
‫BigQuery מופעל באופן אוטומטי בפרויקטים חדשים. כדי להפעיל את BigQuery בפרויקט קיים, עוברים אל
מפעילים את BigQuery API.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים
להפעלת ה-API

ההרשאות הנדרשות

כדי ליצור את מערך הנתונים, אתם צריכים את ההרשאה bigquery.datasets.create ב-IAM.
כדי ליצור את המודל, צריך את ההרשאות הבאות:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
כדי להריץ הסקה, אתם צריכים את ההרשאות הבאות:
- bigquery.models.getData
- bigquery.jobs.create

במאמר מבוא ל-IAM יש מידע נוסף על תפקידים והרשאות ב-IAM ב-BigQuery.

יצירת מערך נתונים

יוצרים מערך נתונים ב-BigQuery לאחסון מודל ה-ML.

המסוף

במסוף Cloud de Confiance , עוברים לדף BigQuery.

לדף BigQuery
בחלונית Explorer, לוחצים על שם הפרויקט.
לוחצים על הצגת פעולות > יצירת מערך נתונים.
בדף Create dataset, מבצעים את הפעולות הבאות:
- בשדה Dataset ID (מזהה מערך הנתונים), מזינים bqml_tutorial.
- בקטע Location type, בוחרים באפשרות Multi-region ואז בוחרים באפשרות US.
- משאירים את הגדרות ברירת המחדל שנותרו כמו שהן ולוחצים על Create dataset (יצירת מערך נתונים).

BQ

כדי ליצור מערך נתונים חדש, משתמשים בפקודה bq mk --dataset.

יוצרים מערך נתונים בשם bqml_tutorial עם מיקום הנתונים שמוגדר ל-US.
```
bq mk --dataset \
  --location=US \
  --description "BigQuery ML tutorial dataset." \
  bqml_tutorial
```
בודקים שמערך הנתונים נוצר:
```
bq ls
```

API

מבצעים קריאה לשיטה datasets.insert עם משאב מוגדר של מערך נתונים.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי הוראות ההגדרה של BigQuery DataFrames במדריך לתחילת העבודה עם BigQuery באמצעות BigQuery DataFrames. מידע נוסף מופיע במאמרי העזרה בנושא BigQuery DataFrames.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת ADC לסביבת פיתוח מקומית.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

העלאת נתוני Movielens

מעלים את נתוני movielens1m ל-BigQuery.

CLI

כדי להעלות את נתוני movielens1m באמצעות כלי שורת הפקודה של BigQuery:

פותחים את Cloud Shell:

הפעלת Cloud Shell

מעלים את נתוני הדירוגים לטבלה ratings. בשורת הפקודה, מדביקים את השאילתה הבאה ומקישים על Enter:

curl -O 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'
unzip ml-1m.zip
sed 's/::/,/g' ml-1m/ratings.dat > ratings.csv
bq load --source_format=CSV bqml_tutorial.ratings ratings.csv \
  user_id:INT64,item_id:INT64,rating:FLOAT64,timestamp:TIMESTAMP

מעלים את נתוני הסרט לטבלה movies. בשורה של הפקודה, מדביקים את השאילתה הבאה ומקישים על Enter:

sed 's/::/@/g' ml-1m/movies.dat > movie_titles.csv
bq load --source_format=CSV --field_delimiter=@ \
bqml_tutorial.movies movie_titles.csv \
movie_id:INT64,movie_title:STRING,genre:STRING

BigQuery DataFrames

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת ADC לסביבת פיתוח מקומית.

קודם יוצרים אובייקט Client עם bqclient = google.cloud.bigquery.Client(), ואז טוענים את נתוני movielens1m למערך הנתונים שיצרתם בשלב הקודם.

import io
import zipfile

import google.api_core.exceptions
import requests

try:
    # Check if you've already created the Movielens tables to avoid downloading
    # and uploading the dataset unnecessarily.
    bqclient.get_table("bqml_tutorial.ratings")
    bqclient.get_table("bqml_tutorial.movies")
except google.api_core.exceptions.NotFound:
    # Download the https://grouplens.org/datasets/movielens/1m/ dataset.
    ml1m = requests.get("http://files.grouplens.org/datasets/movielens/ml-1m.zip")
    ml1m_file = io.BytesIO(ml1m.content)
    ml1m_zip = zipfile.ZipFile(ml1m_file)

    # Upload the ratings data into the ratings table.
    with ml1m_zip.open("ml-1m/ratings.dat") as ratings_file:
        ratings_content = ratings_file.read()

    ratings_csv = io.BytesIO(ratings_content.replace(b"::", b","))
    ratings_config = google.cloud.bigquery.LoadJobConfig()
    ratings_config.source_format = "CSV"
    ratings_config.write_disposition = "WRITE_TRUNCATE"
    ratings_config.schema = [
        google.cloud.bigquery.SchemaField("user_id", "INT64"),
        google.cloud.bigquery.SchemaField("item_id", "INT64"),
        google.cloud.bigquery.SchemaField("rating", "FLOAT64"),
        google.cloud.bigquery.SchemaField("timestamp", "TIMESTAMP"),
    ]
    bqclient.load_table_from_file(
        ratings_csv, "bqml_tutorial.ratings", job_config=ratings_config
    ).result()

    # Upload the movie data into the movies table.
    with ml1m_zip.open("ml-1m/movies.dat") as movies_file:
        movies_content = movies_file.read()

    movies_csv = io.BytesIO(movies_content.replace(b"::", b"@"))
    movies_config = google.cloud.bigquery.LoadJobConfig()
    movies_config.source_format = "CSV"
    movies_config.field_delimiter = "@"
    movies_config.write_disposition = "WRITE_TRUNCATE"
    movies_config.schema = [
        google.cloud.bigquery.SchemaField("movie_id", "INT64"),
        google.cloud.bigquery.SchemaField("movie_title", "STRING"),
        google.cloud.bigquery.SchemaField("genre", "STRING"),
    ]
    bqclient.load_table_from_file(
        movies_csv, "bqml_tutorial.movies", job_config=movies_config
    ).result()

יצירת המודל

יצירת מודל של פירוק מטריצות ואימון שלו על הנתונים בטבלה ratings. המודל מאומן לחזות דירוג לכל צמד של משתמש ופריט, על סמך דירוגי הסרטים שסופקו על ידי הלקוח.

SQL

ההצהרה הבאה CREATE MODEL משתמשת בעמודות האלה כדי ליצור המלצות:

‫user_id—מזהה המשתמש.
‫item_id – מזהה הסרט.
‫rating – הדירוג המפורש מ-1 עד 5 שהמשתמש נתן לפריט.

כדי ליצור את המודל:

במסוף Cloud de Confiance , עוברים לדף BigQuery.

כניסה ל-BigQuery
בעורך השאילתות, מדביקים את השאילתה הבאה ולוחצים על Run (הרצה):
```
CREATE OR REPLACE MODEL `bqml_tutorial.mf_explicit`
OPTIONS (
  MODEL_TYPE = 'matrix_factorization',
  FEEDBACK_TYPE = 'explicit',
  USER_COL = 'user_id',
  ITEM_COL = 'item_id',
  L2_REG = 9.83,
  NUM_FACTORS = 34)
AS
SELECT
user_id,
item_id,
rating
FROM `bqml_tutorial.ratings`;
```
השאילתה תושלם תוך 10 דקות בערך, ואז המודל mf_explicitיופיע בחלונית Explorer. השאילתה משתמשת בהצהרת CREATE MODEL כדי ליצור מודל, ולכן לא מוצגות תוצאות של השאילתה.

BigQuery DataFrames

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת ADC לסביבת פיתוח מקומית.

from bigframes.ml import decomposition
import bigframes.pandas as bpd

# Load data from BigQuery
bq_df = bpd.read_gbq(
    "bqml_tutorial.ratings", columns=("user_id", "item_id", "rating")
)

# Create the Matrix Factorization model
model = decomposition.MatrixFactorization(
    num_factors=34,
    feedback_type="explicit",
    user_col="user_id",
    item_col="item_id",
    rating_col="rating",
    l2_reg=9.83,
)
model.fit(bq_df)
model.to_gbq(
    your_model_id, replace=True  # For example: "bqml_tutorial.mf_explicit"
)

הקוד יפעל במשך כ-10 דקות, ולאחר מכן מודל mf_explicit יופיע בחלונית Explorer.

קבלת נתונים סטטיסטיים של הדרכות

אפשר גם לראות את נתוני האימון של המודל בCloud de Confiance מסוף.

אלגוריתם של למידת מכונה יוצר מודל על ידי יצירת איטרציות רבות של המודל באמצעות פרמטרים שונים, ואז בוחר את גרסת המודל שממזערת את ההפסד. התהליך הזה נקרא מזעור סיכון אמפירי. הנתונים הסטטיסטיים של אימון המודל מאפשרים לכם לראות את ההפסד שמשויך לכל איטרציה של המודל.

כדי לראות את נתוני האימון של המודל:

במסוף Cloud de Confiance , עוברים לדף BigQuery.

כניסה ל-BigQuery
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Datasets ואז לוחצים על מערך הנתונים bqml_tutorial.
לוחצים על הכרטיסייה מודלים.
לוחצים על מודל mf_explicit ואז על הכרטיסייה אימון.

בקטע הצגה כ, לוחצים על טבלה. התוצאות אמורות להיראות כך:

+-----------+--------------------+--------------------+
| Iteration | Training Data Loss | Duration (seconds) |
+-----------+--------------------+--------------------+
|  11       | 0.3943             | 42.59              |
+-----------+--------------------+--------------------+
|  10       | 0.3979             | 27.37              |
+-----------+--------------------+--------------------+
|   9       | 0.4038             | 40.79              |
+-----------+--------------------+--------------------+
|  ...      | ...                | ...                |
+-----------+--------------------+--------------------+

העמודה Training Data Loss מייצגת את מדד ההפסד שמחושב אחרי אימון המודל. מכיוון שמדובר במודל של פירוק מטריצות, בעמודה הזו מוצג השגיאה הריבועית הממוצעת.

אפשר גם להשתמש בפונקציה ML.TRAINING_INFO כדי לראות נתונים סטטיסטיים של אימון המודל.

הערכת המודל

כדי להעריך את הביצועים של המודל, משווים בין דירוגי הסרטים החזויים שמוחזרים על ידי המודל לבין דירוגי הסרטים בפועל של המשתמשים מנתוני האימון.

SQL

משתמשים בפונקציה ML.EVALUATE כדי להעריך את המודל:

במסוף Cloud de Confiance , עוברים לדף BigQuery.

כניסה ל-BigQuery

בעורך השאילתות, מדביקים את השאילתה הבאה ולוחצים על Run (הרצה):

SELECT
*
FROM
ML.EVALUATE(
  MODEL `bqml_tutorial.mf_explicit`,
  (
    SELECT
      user_id,
      item_id,
      rating
    FROM
      `bqml_tutorial.ratings`
  ));

התוצאות אמורות להיראות כך:

+---------------------+---------------------+------------------------+-----------------------+--------------------+--------------------+
| mean_absolute_error | mean_squared_error  | mean_squared_log_error | median_absolute_error |      r2_score      | explained_variance |
+---------------------+---------------------+------------------------+-----------------------+--------------------+--------------------+
| 0.48494444327829156 | 0.39433706592870565 |   0.025437895793637522 |   0.39017059802629905 | 0.6840033369412044 | 0.6840033369412264 |
+---------------------+---------------------+------------------------+-----------------------+--------------------+--------------------+

מדד חשוב בתוצאות ההערכה הוא ציון ^R2. ציון ה-R² הוא מדד סטטיסטי שקובע אם התחזיות של הרגרסיה הליניארית מתקרבות לנתונים בפועל. ערך של 0 מציין שהמודל לא מסביר אף אחד מהשינויים בנתוני התגובה סביב הממוצע. הערך 1 מציין שהמודל מסביר את כל השונות של נתוני התגובה סביב הממוצע.

מידע נוסף על הפלט של הפונקציה ML.EVALUATE זמין במאמר בנושא פלט.

אפשר גם להתקשר אל ML.EVALUATE בלי לספק את נתוני הקלט. הוא ישתמש במדדי ההערכה שחושבו במהלך האימון.

BigQuery DataFrames

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת ADC לסביבת פיתוח מקומית.

מבצעים קריאה ל-model.score() כדי להעריך את המודל.

# Evaluate the model using the score() function
model.score(bq_df)
# Output:
# mean_absolute_error	mean_squared_error	mean_squared_log_error	median_absolute_error	r2_score	explained_variance
# 0.485403	                0.395052	        0.025515	            0.390573	        0.68343	        0.68343

קבלת הדירוגים החזויים עבור קבוצת משנה של צמדי משתמש-פריט

קבלת הדירוג החזוי לכל סרט עבור חמישה משתמשים.

SQL

כדי לקבל דירוגים צפויים, משתמשים בפונקציה ML.RECOMMEND:

במסוף Cloud de Confiance , עוברים לדף BigQuery.

כניסה ל-BigQuery

בעורך השאילתות, מדביקים את השאילתה הבאה ולוחצים על Run (הרצה):

SELECT
*
FROM
ML.RECOMMEND(
  MODEL `bqml_tutorial.mf_explicit`,
  (
    SELECT
      user_id
    FROM
      `bqml_tutorial.ratings`
    LIMIT 5
  ));

התוצאות אמורות להיראות כך:

+--------------------+---------+---------+
| predicted_rating   | user_id | item_id |
+--------------------+---------+---------+
| 4.2125303962491873 | 4       | 3169    |
+--------------------+---------+---------+
| 4.8068920531981263 | 4       | 3739    |
+--------------------+---------+---------+
| 3.8742203494732403 | 4       | 3574    |
+--------------------+---------+---------+
| ...                | ...     | ...     |
+--------------------+---------+---------+

BigQuery DataFrames

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת ADC לסביבת פיתוח מקומית.

מתקשרים אל model.predict() כדי לקבל דירוגים צפויים.

# Use predict() to get the predicted rating for each movie for 5 users
subset = bq_df[["user_id"]].head(5)
predicted = model.predict(subset)
print(predicted)
# Output:
#   predicted_rating	user_id	 item_id	rating
# 0	    4.206146	     4354	  968	     4.0
# 1	    4.853099	     3622	  3521	     5.0
# 2	    2.679067	     5543	  920	     2.0
# 3	    4.323458	     445	  3175	     5.0
# 4	    3.476911	     5535	  235	     4.0