6 דולר וחצי שעה לאימון בינה מלאכותית: המודל החדש ששובר את כל השיאים

מחקר חדש חושף שיטה לקיצור בזמן החשיבה של מודלי בינה מלאכותית, תוך שימוש בטכניקות פשוטות אך אפקטיביות • הממצאים מצביעים על כך שגם מודלים קטנים יכולים להשיג ביצועים גבוהים בעלויות נמוכות במיוחד ותוך זמני אימון קצרים בהרבה, מה שעשוי לשנות את תחום פיתוח ה-AI

בינה מלאכותית, אילוסטרציה | צילום: שאטרסטוק

נייר מחקר חדש שפורסם ביום שישי מעורר עניין רב בקהילת הבינה המלאכותית, לא בהכרח בשל המודל עצמו, אלא בשל ההשלכות הרחבות שלו על עתיד התחום. המחקר מציג מודל שאינו חוד החנית, אך ניתן להרצה על מחשב אישי. מעבר לכך, הוא מספק תובנות על אופן פעולתם של מודלים אלו, ומדגים כי הם עשויים להיות פשוטים יותר משחשבנו.

אחד הגילויים המרכזיים במחקר עוסק בשיפור ביצועי מודלים באמצעות הארכת זמן החשיבה שלהם. OpenAI הייתה בין הראשונות שהדגימו כי ככל שמודל LLM "חושב" יותר זמן לפני מתן תשובה, כך הביצועים משתפרים. עם זאת, השאלה הקריטית הייתה כיצד ניתן לשלוט במשך הזמן שהמודל משקיע במחשבה לפני מתן תשובתו. שינוי זה מאלץ את המודל להמשיך לבדוק ולשפר את תשובתו. מנגד, ניתן לקצר את משך החשיבה באמצעות החדרת ישירות. גישה זו מאפשרת שליטה גמישה על זמן ההסקה.

אחד ההיבטים המפתיעים במחקר הוא העלות הנמוכה של האימון: כ-6 דולרים בלבד. החוקרים השתמשו ב-16 יחידות NVIDIA H100 למשך 26 דקות בלבד לכל ריצת אימון, מה שמאפשר לבצע אימונים חוזרים רבים.

ההתקדמות במחקר מעלה שאלות בנוגע להשקעות הענק של OpenAI ו-Anthropic, ועד כמה מרכזי הנתונים העצומים והיקרים שלהם חיוניים. בעוד שחלק טוענים כי מודלים חסכוניים כמו S1 ו-DeepSeek V3 מוכיחים כי ניתן לפתח AI מתקדם בעלויות נמוכות, אחרים סבורים כי היכולת לבצע ניסויים בהיקף רחב – כמו זה שמתאפשר במערכות בעלות אלפי יחידות H100 – היא גורם קריטי להאצת הפיתוח.

המחקר מעלה גם שאלות אתיות וחוקיות בנוגע ליכולת למנוע תהליך של גניבת באמצעות זיקוק (דיסטילציה) מודלים – יצירת מודלים חדשים על בסיס מחשבות ותשובות של מודלים קיימים. S1, למשל, השתמש בדוגמאות שנוצרו על ידי Qwen2.5 אשר התבקש לנסח מחשבות לפני תשובות. סוגיה זו הופכת לבעייתית לאור טענות OpenAI כי DeepSeek V3 נוצר באמצעות דיסטילציה לא מורשית ממודל O1.

ככל שהדיסטילציה תתבסס על מאגרי מידע קטנים יותר, כך יהיה קשה יותר למנוע אותה. אם 1,000 דוגמאות מספיקות לאימון מודל איכותי, אין זה מופרך להניח כי משתמשים בודדים יוכלו ליצור מאגר שכזה באמצעות שימוש רגיל במודל. ייתכן כי אחת הדרכים למנוע זאת תהיה באמצעות שינוי הגישה להפצת מודלים – לדוגמה, מתן גישה ל"סוכנים" (Agents) המבצעים פעולות במקום מתן גישה ישירה למודל עצמו.

המחקר החדש מדגיש את הקצב המהיר שבו תחום הבינה המלאכותית מתקדם. העובדה כי ניתן להגיע להישגים משמעותיים באמצעות מודלים קטנים ומערכי נתונים מצומצמים מצביעה על כך שדרכי הפיתוח של AI נמצאות בתהליך שינוי משמעותי. שיטות כמו דיסטילציה והארכת זמן חשיבה בזמן ההסקה פותחות אפשרויות חדשות, והשלכותיהן צפויות להיות מרחיקות לכת בשנת 2025.

בינה מלאכותית