בדיקות ה-AI הופכות יקרות מדי – החדשנות עלולה לדשדש

מודלים עם "יכולת חשיבה" מציגים ביצועים מרשימים, אך מחקר עצמאי שלהם יקר באופן חריג ומקשה על אימות תוצאות • אם מגמת המחירים תימשך, רק החברות הגדולות יוכלו למדוד את המודלים

ChatGPT | צילום: MrDm, פריפיק

בזירה הגועשת של בינה מלאכותית, המונח "מודלים חושבים" תפס לאחרונה מקום מרכזי. חברות כמו OpenAI ו-Anthropic משווקות את הגרסאות החדשות שלהן כמודלים בעלי יכולות "הסקה" – מודלים שמסוגלים לבצע ניתוחים של בעיות בשלבים, במעין תהליך מחשבה. עם זאת, מתברר כי דווקא אותם מודלים, שמציבים סטנדרטים חדשים של ביצועים בתחומים כמו מתמטיקה, פיזיקה ותכנות, הופכים קשים יותר לבחינה – יקרים יותר למדידה, ודורשים משאבים שאינם נגישים לרוב הגורמים החיצוניים.

חברת Artificial Analysis, גוף עצמאי לבחינת מודלי בינה מלאכותית, הציגה את העלויות העצומות הכרוכות בתהליך הבדיקה: עלות הערכת מודל "o1" של OpenAI על פני שבעה מבחני ביצועים – בהם MMLU-Pro, GPQA Diamond ו-LiveCodeBench – עמדה על 2,767 דולר. לעומת זאת, מודלים פשוטים או שאינם כוללים יכולת "הסקה" נבחנים במחירים נמוכים בהרבה – כמו GPT-4o, שעלותו להערכה הייתה 108 דולר בלבד.

הפער בעלויות נובע מהשוני המבני בין המודלים: מודלים "חושבים" אינם מסתפקים בתשובה קצרה או בהשלמת משפט פשוט – הם מייצרים כמויות עצומות של טקסט, תהליכי ניתוח ארוכים ובחינה של שלבים רבים, מה שמוביל לעלייה משמעותית בכמות הטוקנים – יחידות הטקסט שמודדים את השימוש בפועל במודל.

כך למשל, מודל o1 ייצר מעל 44 מיליון טוקנים במהלך הבחינה – פי שמונה מהמודל GPT-4o, המייצר תוצאה סופית דחוסה יותר. מאחר שכל החברות בתחום, וביניהן OpenAI ו-Anthropic, מחייבות את המשתמשים לפי כמות הטוקנים – מודלים מורכבים הם בהכרח יקרים בהרבה לשימוש, וקל וחומר להערכה מקצועית.

המבחנים המודרניים הפכו מאתגרים יותר – הם דורשים פתרון של בעיות מציאותיות כמו הרצת קוד או התמודדות עם משימות מבוססות אינטרנט – מה שדורש לא רק מחשבה אלא גם כמויות עיבוד עצומות.

והמחירים בהתאם: Claude 3 Opus עלה עם השקתו 75 דולר למיליון טוקנים. אחריו הגיע GPT-4.5 של OpenAI שעמד על 150 דולר לאותה כמות, וכעת o1-pro של החברה מציע את "הפרימיום" האמיתי – 600 דולר למיליון טוקנים. העלויות האלו מעמידות את ניתוחי הביצועים מחוץ להישג ידם של גופים אקדמיים או חברות קטנות.

לדוגמה, בודק מקצועי אחד השקיע 580 דולר בבחינת מודל Claude 3.7 עם 3,700 פרומפטים שונים – וסיפר כי בדיקה של סט אחד בלבד (MMLU-Pro) הייתה עלולה לעלות מעל 1,800 דולר. לדבריו, אנחנו מתקרבים למצב שבו תוצאות שמפרסמות המעבדות הגדולות אינן ניתנות לשחזור על ידי אף גורם אחר – לא באקדמיה ולא בתעשייה.

המשמעות רחבה: המדע עצמו נמצא בסכנה. כאשר מודלים נבחנים בסביבה מוגבלת, בה רק למעבדה שפיתחה את המודל יש את המשאבים לבחון אותו, עולה השאלה – האם ניתן לסמוך על התוצאות? גם כאשר המעבדה מעניקה גישה חינמית או מסובסדת לבחינה – הקשר הישיר בינה לבין הגוף הבוחן מערער את האובייקטיביות, ועיקרון שחזור הניסוי המדעי האובייקטיבי נפגע.

Anthropic ChatGPT Claude OpenAI בינה מלאכותית