מתחרה של ננו בננה: מיקרוסופט השיקה מודל טקסט-תמונה חדש

מחולל התמונות של מיקרוסופט מציע ריאליזם מרשים ויכולות רינדור טקסט גבוהות • הדבר הופך את מיקרוסופט לשחקנית לגיטימית בתחום • בצורה הזאת מיקרוסופט תפחית את התלות ב-OpenAI ותקצץ בעלויות

מיקרוסופט | צילום: שאטרסטוק

מחולל התמונות של מיקרוסופט מציע ריאליזם מרשים ויכולות רינדור טקסט גבוהות, אך מגבלות תוכן מחמירות ופורמט ריבועי בלבד מעכבים אותו.

מיקרוסופט הודיעה אתמול (חמישי) על השקת חולל תמונות משלה. המודל כבר הספיק להגיע למקום השלישי בטבלת המובילים של Arena.ai – אחרי גוגל ו-OpenAI בלבד.

הדבר הופך את מיקרוסופט לשחקנית לגיטימית בתחום, כאשר עד כה היא הוציאה למיקור חוץ אצל שותפותיה.

בצורה הזאת, מיקרוסופט תפחית את התלות ב-OpenAI, תקצץ עלויות ותפתח מודל ללא צורך באישור מאף אחד. כך שהמודל לא צריך לנצח את גוגל; הוא רק צריך להיות טוב מספיק.

יצויין כי מיקרוסופט משלמת ל-OpenAI מיליארדים כדי להפעיל את Copilot ואת Bing Image Creator. כך שבניית מודל מתחרה בתוך הבית היא צעד עסקי מעניין מאוד.

Nano Banana, כלי ה-AI של גוגל לייצור תמונות | צילום: שאטרסטוק

המודל זמין ב-MAI Playground, עם פריסה הדרגתית ל-Copilot ול-Bing. הגישה ל-API מוגבלת כרגע. צוות ה-"AI Superintelligence" של החברה מספר כי המודל נבנה תוך התייעצות עם צלמים ומעצבים, מה שהוביל לשיפור בפוטו-ריאליזם, טקסט אמין יותר בתוך התמונה ויכולת בניית סצנות מפורטות.

בדיקת MAI-Image-2

הדבר הראשון ששמים לב אליו ב-MAI Playground הוא הממשק נקי ומינימליסטי. הפוטו-ריאליזם הוא נקודת חוזק במודל. למודל יש הבנה מוצקה של אור טבעי, טקסטורות ויחסים מרחביים, אך לא משתווה עדיין ל-Nano Banana Pro של גוגל, שעדיין שולט בטבלה.

גם רינדור הטקסט יוצא דופן. המודל טיפל בטיפוגרפיה מורכבת בעקביות גבוהה מהמצופה והתגברה על הג'יבריש שקיים ברוב המודלים. הכלי אף הצליח לייצר חלקית תווים בסינית.

המגבלות

המודל מסונן בצורה קיצונית. המודל בעל רמת ניטור גבוהה ותסכל כל מי שעוסק בעבודה יצירתית "אפורה" או באיורי אימה.

בנוסף, המודל משהה ל-30 שניות את פעולתו בין יצירה ליצירה. אחרי 15 תמונות, המשתמש נחסם ל-24 שעות.

היחס גובה-רוחב מוגבל רק לרזולוציה של 1:1 (ריבוע). הדבר מהווה מגבלה ליצירת תוכן ברשתות חברתיות. לבסוף, זהו כלי של טקסט-לתמונה בלבד. אין אפשרות לעריכת תמונה קיימת או שימוש בתמונת רפרנס.

OpenAI גוגל מיקרוסופט