חוקרים ממכון ויצמן ואינטל פיתחו שיטות חדשות להאצת מודלי שפה

האלגוריתמים מבטיחים שימור מלא של הפלט הרצוי של מודל המטרה תוך חיסכון בזמני עיבוד • השיטות נבדקו על מגוון משימות וביצעו האצה של עד פי 2.8 לעומת דגימה רגילה • מודלים קטנים ובינוניים שימשו כטיוטה למודלים גדולים עם תוצאות ביצועים גבוהות

מכון ויצמן למדע ברחובות | צילום: יוסי אלוני, פלאש 90

חוקרים ממכון ויצמן ומעבדות אינטל הציגו שלוש שיטות חדשות המאיצות הפקת פלט ממודלים שפתיים גדולים, גם כאשר לדגם המהיר ולדגם המטרה יש אוצרות מילים שונים. בכך מוסרת אחת המגבלות המרכזיות בתחום החיזוי הספקולטיבי, ונפתחת האפשרות לשימוש במודלים זמינים יותר – ללא צורך באימון ייעודי.

המחקר הוצג לאחרונה בכנס ICML 2025 שנערך בונקובר ומתמקד בשיפור יעילות של תהליך יצירת טקסט במודלים שפתיים, באמצעות טכניקת speculative decoding – מנגנון שמטרתו לקצר את זמן ההפקה על ידי יצירת כמה טוקנים בו-זמנית ואימותם במהלך בודד של המודל הראשי. ביישומים הקיימים של השיטה, נדרש ששני המודלים – המהיר והמדויק – ישתמשו בדיוק באותו אוצר מילים. אך בפועל, לרוב אין בנמצא מודל קטן ומהיר עם טוקניזציה זהה למודל המטרה.

החוקרים פתרו את הבעיה באמצעות שלושה אלגוריתמים חדשים, שמסירים את מגבלת אוצר המילים המשותף. השיטות החדשות שומרות על ההתפלגות של דגם המטרה – כלומר, מוודאות שהפלט הסופי זהה למה שהיה מתקבל אלמלא נעשה שימוש בטיוטות. בכך הן מבטיחות דיוק מלא, תוך הפחתה דרמטית בזמן תגובה. השיטות נבדקו על מגוון משימות כמו סיכום טקסטים, השלמת קוד וניתוח רצפים ארוכים, והובילו להאצה של עד פי 2.8 ביחס לדגימה אוטורגרסיבית רגילה.

במהלך הניסויים, השיטות החדשות נוסו על מודלים פופולריים כמו Mixtral, Phi, Vicuna ו-DeepSeek, תוך שילוב עם דגמי טיוטה קטנים וזמינים, שחלקם שייכים למשפחות מודלים שונות. הנתונים הצביעו על כך שגם כאשר הטוקניזציה שונה לחלוטין – כולל במודלים עם אוצרות מילים לא חופפים – נרשמה האצה משמעותית, כל עוד המודל המהיר הצליח בקירוב להתאים את התחזיות למודל המטרה.

אחת השיטות שנבדקה, המבוססת על התאמה מילולית ברמת מחרוזת (string-level exact match), עושה שימוש בפענוח הטיוטה לטקסט רגיל, ואז חותכת אותה מחדש לפי הטוקניזציה של המודל המאמת. תהליך זה מבטיח שכל טוקן מאושר רק אם המחרוזת תואמת במדויק את הפלט הצפוי. שיטה נוספת, הפועלת לפי דגימה חוזרת על מחרוזות שלמות, מאפשרת אישור של טוקנים ארוכים יותר באופן הסתברותי. השיטה השלישית ממקדת את הטיוטה רק בטוקנים שמשותפים לשני המודלים, וכך מקטינה את הסיכון לדחייה מראש.

כל אחת מהשיטות מצריכה התאמות שונות בצד התשתית. כך למשל, שיטות שמסתמכות על פענוח טקסט או על חיתוך מחרוזות נדרשות לטיפול זהיר בטוקניזרים שאינם חד-ערכיים, ובחלק מהמקרים נדרשת בדיקה של עקביות בין טוקניזציה לפענוח. עם זאת, כל שלוש השיטות הוטמעו כבר בספריית Transformers של Hugging Face, ונבחרו כברירת מחדל למצבים שבהם למודלים יש אוצרות מילים שונים.

לטענת החוקרים, מדובר בשיפור משמעותי באפשרות להאיץ הפקת טקסט ללא צורך באימון נוסף וללא פגיעה בדיוק, תוך שימוש במודלים קטנים וזמינים שכבר קיימים. בניסוי שנערך על מערך Mixtral עם דגם טיוטה מבוסס Vicuna, מהירות ההפקה הוכפלה פי 2.1. בשילוב של דגם phi-4 עם טיוטה קטנה מבית Qwen, ההפקה הוגברה ב-59%. התוצאה העקבית ברוב הבדיקות הייתה עלייה ניכרת בקצב הפקת טוקנים – עד ל-59.7 טוקנים לשנייה – ללא שינוי בפלט הסופי.

אינטל למידת מכונה מודלים שפתיים מכון ויצמן ניתוח מחרוזות