יצירת הטמעות טקסט באמצעות מודל פתוח והפונקציה AI.GENERATE_EMBEDDING
במדריך הזה נסביר איך ליצור מודל מרוחק שמבוסס על מודל הטמעת הטקסט בקוד פתוח Qwen3-Embedding-0.6B, ואז איך להשתמש במודל הזה עם הפונקציה AI.GENERATE_EMBEDDING כדי להטמיע ביקורות על סרטים מהטבלה הציבורית bigquery-public-data.imdb.reviews.
ההרשאות הנדרשות
כדי להפעיל את המדריך הזה, אתם צריכים את התפקידים הבאים בניהול הזהויות והרשאות הגישה (IAM):
- יצירה ושימוש במערכי נתונים, בחיבורים ובמודלים של BigQuery:
ניהול BigQuery (
roles/bigquery.admin). - נותנים הרשאות לחשבון השירות של החיבור: אדמין IAM של פרויקט (
roles/resourcemanager.projectIamAdmin). - פריסה וביטול פריסה של מודלים ב-Gemini Enterprise Agent Platform: אדמין של Agent Platform
(
roles/aiplatform.admin).
התפקידים המוגדרים מראש האלה מכילים את ההרשאות שנדרשות לביצוע המשימות שמתוארות במסמך הזה. כדי לראות את ההרשאות הנדרשות, מרחיבים את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
- יצירת מערך נתונים:
bigquery.datasets.create - יצירה, הקצאה ושימוש בחיבור:
bigquery.connections.* - הגדרת החיבור המוגדר כברירת מחדל:
bigquery.config.* - מגדירים את ההרשאות לחשבון השירות:
resourcemanager.projects.getIamPolicyו-resourcemanager.projects.setIamPolicy - פריסה וביטול פריסה של מודל ב-Agent Platform:
aiplatform.endpoints.deployaiplatform.endpoints.undeploy
- יצירת מודל והרצת הסקה:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateDatabigquery.models.updateMetadata
יכול להיות שתוכלו לקבל את ההרשאות האלה גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
עלויות
במסמך הזה משתמשים ברכיבים הבאים של Cloud de Confiance by S3NS, והשימוש בהם כרוך בתשלום:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
- Gemini Enterprise Agent Platform: You incur costs for calls to the Agent Platform model that's represented by the remote model.
מידע נוסף על התמחור של BigQuery זמין במאמר תמחור ב-BigQuery במסמכי התיעוד של BigQuery.
על מודלים פתוחים שפורסים ב-Agent Platform מחויבים לפי שעת מכונה. כלומר, החיוב מתחיל ברגע שהנקודה מסתיימת, וממשיך עד שמבטלים את הפריסה. מידע נוסף על התמחור של Agent Platform זמין בדף התמחור של Agent Platform.
לפני שמתחילים
-
בדף לבחירת הפרויקט במסוף Cloud de Confiance , בוחרים פרויקט ב- Cloud de Confiance או יוצרים אותו.
תפקידים שנדרשים כדי לבחור או ליצור פרויקט
- Select a project: כדי לבחור פרויקט לא צריך תפקיד IAM ספציפי – אפשר לבחור כל פרויקט שקיבלתם בו תפקיד.
-
יצירת פרויקט: כדי ליצור פרויקט, צריך את התפקיד Project Creator (יצירת פרויקטים) (
roles/resourcemanager.projectCreator), שכולל את ההרשאהresourcemanager.projects.create. איך מקצים תפקידים
-
מפעילים את ממשקי ה-API BigQuery, BigQuery Connection ו-Agent Platform.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (
roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאהserviceusage.services.enable. איך מקצים תפקידים
יצירת מערך נתונים
יוצרים מערך נתונים ב-BigQuery לאחסון מודל ה-ML.
המסוף
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בחלונית Explorer, לוחצים על שם הפרויקט.
לוחצים על הצגת פעולות > יצירת מערך נתונים.
בדף Create dataset, מבצעים את הפעולות הבאות:
בשדה Dataset ID (מזהה מערך הנתונים), מזינים
bqml_tutorial.בקטע Location type, בוחרים באפשרות Multi-region ואז בוחרים באפשרות US.
משאירים את הגדרות ברירת המחדל שנותרו כמו שהן ולוחצים על Create dataset (יצירת מערך נתונים).
BQ
כדי ליצור מערך נתונים חדש, משתמשים בפקודה bq mk --dataset.
יוצרים מערך נתונים בשם
bqml_tutorialעם מיקום הנתונים שמוגדר ל-US.bq mk --dataset \ --location=US \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
בודקים שמערך הנתונים נוצר:
bq ls
API
מבצעים קריאה לשיטה datasets.insert
עם משאב מוגדר של מערך נתונים.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
יצירת המודל המרוחק
יצירת מודל מרוחק שמייצג מודל של פלטפורמת סוכנים מתארחת:
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בעורך השאילתות, מריצים את ההצהרה הבאה:
CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS ( HUGGING_FACE_MODEL_ID = 'Qwen/Qwen3-Embedding-0.6B' );
השלמת השאילתה נמשכת עד 20 דקות, ואחריה מודל qwen3_embedding_model מופיע במערך הנתונים bqml_tutorial בחלונית Explorer. מכיוון שהשאילתה משתמשת בהצהרת CREATE MODEL כדי ליצור מודל, אין תוצאות לשאילתה.
ביצוע הטמעת טקסט
ביצוע הטמעה של טקסט בביקורות על סרטים ב-IMDB באמצעות המודל המרוחק והפונקציה AI.GENERATE_EMBEDDING:
במסוף Cloud de Confiance , עוברים לדף BigQuery.
בעורך השאילתות, מזינים את ההצהרה הבאה כדי לבצע הטמעה של טקסט בחמש ביקורות על סרטים:
SELECT * FROM AI.GENERATE_EMBEDDING( MODEL `bqml_tutorial.qwen3_embedding_model`, ( SELECT review AS content, * FROM `bigquery-public-data.imdb.reviews` LIMIT 5 ) );
התוצאות כוללות את העמודות הבאות:
-
embedding: מערך של ערכים מסוג double שמייצג את ההטמעות שנוצרו. -
status: סטטוס התגובה של ה-API לשורה המתאימה. אם הפעולה בוצעה בהצלחה, הערך הזה ריק. -
content: טקסט הקלט שממנו רוצים לחלץ הטמעות. - כל העמודות מהטבלה
bigquery-public-data.imdb.reviews.
-
ביטול הפריסה של מודל
אם תבחרו שלא למחוק את הפרויקט כמומלץ, תצטרכו לבטל את הפריסה של מודל ההטמעה Qwen3 ב-Agent Platform כדי שלא נמשיך לחייב אתכם על השימוש בו. BigQuery מבטל את הפריסה של המודל באופן אוטומטי אחרי תקופה מסוימת של חוסר פעילות (6.5 שעות כברירת מחדל). לחלופין, אתם יכולים לבטל את הפריסה של המודל באופן מיידי באמצעות ההצהרה ALTER MODEL, כמו שמוצג בדוגמה הבאה:
ALTER MODEL `bqml_tutorial.qwen3_embedding_model` SET OPTIONS (deploy_model = false);
מידע נוסף זמין במאמר בנושא ביטול פריסה אוטומטי או מיידי של מודל פתוח.
הסרת המשאבים
- במסוף Cloud de Confiance , נכנסים לדף Manage resources.
- ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על Delete.
- כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.