הבינה של גוגל בדרך לדפדפן כרום – ומתרחבת לתוכן חזותי

גוגל פתחה את כנס I/O 2025 עם שורת הכרזות בתחום הבינה המלאכותית • בין ההכרזות: מודלים חדשים, סוכנים חזותיים, יצירת וידיאו ותכונות חיפוש משודרגות

הבינה המלאכותית של גוגל, Gemini | צילום: Rokas Tenys, שאטרסטוק

הלילה (רביעי) פתחה גוגל את כנס המפתחים השנתי שלה והציגה שורת חידושים ועדכונים בתחומי הבינה המלאכותית, הפקת תוכן, ממשקי שיחה וחיפוש. ההכרזות התמקדו בהרחבת משפחת מודלי Gemini, בשדרוג יכולות של סוכנים מבוססי ראייה וזיכרון, בשיפורים בטיפול בטקסט ובתמונה, ובשילוב שכבות בינה מלאכותית במוצרים קיימים — תוך הרחבת השליטה למפתחים והנגשה למכשירי קצה.

בתחום המודלים הוצגו שני דגמים חדשים: Gemini 2.5 Pro ו־Gemini 2.5 Flash. דגם Pro פותח לטיפול במשימות מרובות שלבים, קידוד, ניתוח מסמכים והסקה לוגית. הוא מבוסס על תשתית חדשה המאפשרת עיבוד מקבילי והבנה עמוקה יותר של הקשר לאורך חלון של מיליון טוקנים. המודל תומך באופן מלא בקלט מולטימודלי — טקסט, תמונה, שמע ווידאו — ומשולב ב־Google AI Studio, Vertex AI ובאפליקציית Gemini. לדברי גוגל, הדגם מציג שיפור בביצועים במדדים כמו MMLU ו־HumanEval לעומת גרסת Gemini 1.5, אך טרם פורסמו תוצאות כמותיות מלאות או גרף שיפור רשמי.

דגם Flash, שהוצג לראשונה בגרסת תצוגה מוקדמת בדצמבר 2024, הושק כעת רשמית בגרסה 2.5. הוא מותאם למשימות מהירות ועתירות תעבורה כמו סיכום, חילוץ מידע ומענה בצ'אט — תוך שמירה על עלות נמוכה. החידוש המרכזי הוא מנגנון בשם "תקציב חשיבה" (Thinking Budget) — הגדרה דינמית של עומק reasoning עבור כל קריאה. כאשר reasoning מבוטל, העלות היא 0.60 דולר למיליון טוקנים; reasoning מלא מתומחר ב־3.50 דולר. ההגדרה מאפשרת איזון בזמן אמת בין עלות, תגובתיות ודיוק.

גוגל הציגה גם את Project Astra – הרחבה של סוכן אישי מבוסס ראייה ושיחה, שפותח בידי DeepMind. Astra כולל מצלמה לזיהוי עצמים, הבנה של תנועות והתרחשויות סביבתיות, זיכרון קצר־טווח של אירועים וזיהוי הקשרים בין סיטואציות. לדוגמה, הסוכן מסוגל לזכור היכן הונח חפץ שנצפה קודם לכן ולהשיב בהתאם. ההדגמה המחישה שילוב בין ראייה ממוחשבת, עיבוד שפה וזיכרון פעולה. הסוכן צפוי להשתלב במהלך השנה באפליקציית Gemini ובמכשירי Pixel, אך לא פורסם תאריך השקה מדויק.

בתחום התוכן החזותי הוצג Veo – מודל חדש ליצירת סרטונים מהוראות טקסטואליות. הוא תומך בהפקת וידאו ברזולוציית 1080p, עם שליטה בפרמטרים כמו סגנון צילום, קומפוזיציה, תנועה, צבע ותאורה. ניתן לבקש תסריטים כגון "צילום תיעודי של יערות גשם ממעוף הציפור" או "סצנה עתידנית בלילה גשום". Veo תומך גם בפקודות קוליות ליצירה אינטראקטיבית, ומהווה בסיס לפיתוח תכני וידאו מותאמים אישית.

לצידו הוצג Imagen 4 – עדכון למודל יצירת התמונות של גוגל. הגרסה מתמקדת ביכולת שילוב טקסט ברור וקריא בתוך תמונה — תכונה שהיו לה מגבלות בדגמים קודמים. המודל שופר בטיפול בטיפוגרפיה, בפריסת מרכיבי התמונה ובביצוע הוראות מורכבות. בשלב זה הוא זמין בפלטפורמת ImageFX בלבד.

בתחום החיפוש עובר שירות AI Overviews – שהושק בניסוי בשנת 2023 – הרחבה משמעותית והופך לברירת מחדל לכלל המשתמשים בארצות הברית. השירות מוסיף תמצית חכמה בראש תוצאות החיפוש, המבוססת על מודל שפה, ומשלב בין קישורים רלוונטיים למענה ישיר. גוגל הדגישה כי תוצאות החיפוש הרגילות יישארו זמינות במקביל.

במקביל, נבחנת הרחבה של תכונות אינטראקטיביות בממשק החיפוש, תחת מצב חדש בשם AI Mode. המצב כולל שורת חיפוש בדפדפן Chrome, המאפשרת לנהל שיחה עם המודל כחלק מתהליך החיפוש — בדומה לממשקי צ’אט מבוססי בינה מלאכותית.

הוכרזה גם הרחבה של שירות AI Agents – סוכנים דיגיטליים שיכולים לבצע פעולות בשם המשתמש, כמו ביטול מנוי, השוואת מחירים, מילוי טפסים או הזמנת שירות. השירות פועל על בסיס מידע שהוזן מראש ואינו דורש ממשק משתמש פעיל בזמן הביצוע. הסוכנים מנוהלים דרך אפליקציית Gemini ונמצאים בניסוי במדינות נבחרות.

Gemini Live הוא מצב שיחה חדש, המאפשר אינטראקציה קולית בזמן אמת עם המודל, תוך זיהוי הקשר חזותי, תנועה והבעות פנים — כאשר המצלמה פעילה. הממשק מדמה שיחה עם אדם, ללא השהיות בין משפטים. השירות זמין כרגע באנגלית בלבד ונבחן לתמיכה בשפות נוספות.

לבסוף, הושקה גרסה חדשה של Gemini Nano עם ראייה – דגם קל הפועל מקומית על מכשירי אנדרואיד נתמכים (ללא צורך בענן). הוא מסוגל לנתח תמונות, מסכים או מסמכים מצולמים. לדוגמה, ניתן לצלם תפריט באפליקציה, לבקש הסבר על כפתורים, לחלץ טקסט ולבצע עליו פעולה. הפיצ’ר זמין למכשירי Pixel ונמצא בשלבי הטמעה אצל יצרנים נוספים.