חוקרי גוגל פיתחו מערכת בינה מלאכותית חדשה שיכולה להנפיש תמונות רגילות ולגרום להן לדבר ולזוז גם עם תמונות ידיים. הטכנולוגיה, הנקראת VLOGGER מסתמכת על מודלים מתקדמים של AI כדי לסנתז קטעים ריאליסטיים, תוך פתיחת מגוון יישומים פוטנציאליים, תוך שהיא מעוררת חששות לגבי זיופים והפצה של מידע מוטעה.
מודל הבינה המלאכותית יכול לצלם תמונה של אדם וקליפ שמע כהקלטה, ולאחר מכן להוציא סרטון התואם לאודיו, המראה את האדם מדבר יחד עם ביצוע הבעות פנים מתאימות, תנועות ראש ומחוות ידיים. הסרטונים אינם מושלמים, אך מייצגים קפיצת מדרגה משמעותית ביכולת להנפיש תמונות סטילס.
מודלי AI המסוגלים “להפיח חיים” בתמונות הם לא בדיוק דבר חדש בשוק ה-AI, אך יש הבדל בין להפיח חיים בתמונה ובין האפשרות לפרשן את קלט האודיו המצורף אליה ולהתאים את הבעות הפנים ותנועות הגוף לנאמר.