האם מטא זייפה את תוצאות מבחן הביצועים של מודל ה-AI החדש שלה?

חוקרים ומומחים טוענים שמטא פועלת בחוסר שקיפות לאחר שהתגלה כי גרסה מותאמת של מודל ה-AI "מאבריק" שימשה במבחן LM Arena • הגרסה הציבורית של המודל שונה באופן משמעותי

לאמה, מודל בינה מלאכותית של מטא, אילוסטרציה | קרדיט: Poetra.RH, שאטרסוק

גל חדש של מודלי בינה מלאכותית מתקדמים מבית ענקית הטכנולוגיה מטא הושק לאחרונה, וביניהם בולט מודל "מאבריק" (Maverick), אשר זכה למיקום גבוה במיוחד במבחן ההשוואתי המוכר LM Arena. אולם, עדויות מצטברות מצביעות על פער משמעותי בין הגרסה של המודל שהוצגה במבחן, לבין הגרסה ששוחררה לשימושם של מפתחים ומשתמשים ברחבי העולם.

המיקום המכובד של "מאבריק" במקום השני בדירוג LM Arena, אשר מתבסס על הערכות סובייקטיביות של בני אדם לגבי איכות הפלט של מודלים שונים, עורר עניין רב בקרב קהילת הבינה המלאכותית. עם זאת, עיון מדוקדק בהודעות הרשמיות של מטא ובמידע שפורסם באתר פרויקט Llama, חושף פרט חשוב: הגרסה שנבחנה ב-LM Arena הוגדרה כ"גרסת צ'אט ניסיונית" של "Llama 4 Maverick", אשר עברה אופטימיזציה ייעודית למטרות שיחה.

גילוי זה עורר תגובות נרחבות בקרב חוקרי ומומחי בינה מלאכותית, אשר הביעו ספקנות לגבי הפרקטיקה של שימוש בגרסה מותאמת של מודל לצורך שיפור תוצאות במבחן ביצועים פומבי. הטענה המרכזית היא כי התנהלות כזו עלולה להטעות את המפתחים, אשר מסתמכים על תוצאות המבחנים כדי לקבל החלטות לגבי השימוש במודלים השונים בפרויקטים שלהם. כאשר הגרסה הזמינה לשימוש שונה באופן מהותי מהגרסה שנבחנה, קשה למפתחים לצפות במדויק את הביצועים האמיתיים של המודל במגוון רחב של יישומים.

יתרה מכך, חוקרים שונים ששיתפו את תצפיותיהם ברשת X, הצביעו על הבדלים ניכרים בהתנהגות בין שתי הגרסאות של "מאבריק". בעוד שגרסת LM Arena הציגה נטייה מובהקת לתגובות ארוכות ומפורטות יתר על המידה, ולשימוש תדיר באמוג'י, הגרסה הציבורית הציגה התנהגות שונה באופן משמעותי, אשר נתפסה על ידי חלק מהמשתמשים כ"טובה יותר" או "מאוזנת יותר".

השימוש באמוג'י מוגזם ותגובות ארוכות במיוחד עלולים להעיד על התאמה ספציפית של המודל למבחן LM Arena, אשר מתבסס על העדפות אנושיות. ייתכן כי מאפיינים אלו נתפסו כחיוביים על ידי חלק מהמעריכים האנושיים במבחן, אך אינם בהכרח משקפים את הביצועים הרצויים ביישומים מעשיים.

חשוב לציין כי LM Arena, על אף היותו כלי פופולרי להשוואת מודלי שפה גדולים, מעולם לא נחשב למדד ביצועים מושלם. המבחן מתבסס על העדפות סובייקטיביות ויכול להיות מושפע מגורמים שונים שאינם קשורים ישירות ליכולות הליבה של המודל. עם זאת, מקובל בדרך כלל שחברות המפתחות מודלים לא מבצעות התאמות ייעודיות במטרה לשפר את תוצאותיהן במבחן ספציפי זה – או לפחות, לא מודות בכך בפומבי.

בינה מלאכותית לאמה מטא