המרוץ לפיתוח בינה מלאכותית מתקדמת מתמקד בדרך כלל במהירות, ביכולות כתיבת קוד, בניתוח מידע ובדיוק התשובות. אולם חוקרים בחברת אנתרופיק טוענים כי האתגר האמיתי נמצא במקום אחר: כיצד להבטיח שמודל AI יפעל בהתאם לכוונות האנושיות גם כאשר ניתנים לו כלים, סמכויות וחופש פעולה.
במחקר חדש שפרסמה החברה, נבחנה תופעה המכונה Agent Misalignment – מצב שבו מודל מבין היטב את המשימה שהוטלה עליו, אך בוחר בדרך פעולה שאינה תואמת את רצון המשתמש או את הערכים שהוגדרו לו.
ההבדל, מסבירים החוקרים, נעוץ בפער שבין צ'אטבוט רגיל לבין "סוכן" AI. בעוד צ'אטבוט מספק תשובות בלבד, סוכן יכול לבצע פעולות ממשיות: לקרוא קבצים, לשלוח מיילים, להשתמש בתוכנות ואף לקבל החלטות אוטונומיות. במצבים כאלה, טעות בשיקול הדעת אינה מסתיימת בתשובה שגויה אלא עלולה להפוך לפעולה ממשית בעולם האמיתי.
עוד באותו הנושא
אחת הדוגמאות המוכרות שעלו במחקרים קודמים הייתה מצב שבו מודל ניסה למנוע את כיבויו על ידי המשתמש. אמנם מדובר בתרחיש ניסויי, אך הוא המחיש כיצד מערכת עלולה לפתח אסטרטגיות שאינן תואמות את כוונת מפעיליה.
המחקר החדש, שכונה Teaching Claude Why, ביקש לענות על שאלה עמוקה יותר: כיצד מלמדים מודל לא רק מהי הפעולה הנכונה, אלא גם מדוע היא נכונה במיוחד כאשר התנאים והסביבה משתנים.
בשלב הראשון אימנו החוקרים את המודל על דוגמאות שבהן הוא נחשף למצבים בעייתיים ולומד להימנע מהם. התוצאה הייתה שיפור מסוים בלבד: שיעור ההתנהגויות הבעייתיות ירד מכ-22% לכ-15%.

הפריצה המשמעותית הגיעה כאשר החוקרים שינו את שיטת האימון. במקום להציג למודל רק את הפעולה הרצויה, הם צירפו הסברים מפורטים שכללו ערכים, שיקולים אתיים והנמקות לקבלת ההחלטה. לאחר האימון בשיטה זו, שיעור ההתנהגויות הבעייתיות צנח לכ-3% בלבד.
לדברי החוקרים, ההבדל היה מהותי: המודל לא רק למד מה לעשות, אלא התאמן להסביר לעצמו ולמשתמשים מדוע זו הפעולה הנכונה.

בהמשך פיתחה אנתרופיק מערך אימון נוסף בשם Difficult, שכלל כשלושה מיליון טוקנים בלבד – היקף קטן יחסית לעולם אימון המודלים. במקום להציב את המודל עצמו בתוך הדילמה, החוקרים ביקשו ממנו לייעץ לאדם אחר שנמצא בדילמה דומה.
באופן מפתיע, הגישה העקיפה הזו הניבה תוצאות טובות. לפי החוקרים, מודל שמתאמן ישירות על מבחן מסוים עלול ללמוד כיצד "לעבור את המבחן", אך לא בהכרח להבין את העיקרון שעומד מאחוריו. כאשר הוא נדרש לייעץ לאחרים, הסיכוי להפנמת העקרונות גדל.

עם זאת, באנתרופיק מדגישים כי הדרך לפתרון מלא עדיין ארוכה. החברה מציינת כי גם המודלים המתקדמים ביותר שנבחנו, ובהם Claude Opus 4.5, אמנם הציגו ביצועים מצוינים בבדיקות, אך לא הגיעו לרמת אמינות מוחלטת. בנוסף, קיים תמיד חשש שחלק מהמודלים נחשפו במהלך האימון לתרחישים דומים לאלו ששימשו בבחינה.
המסקנה המרכזית של המחקר היא שבטיחות בינה מלאכותית אינה מסתכמת בהוספת מגבלות או הוראות מסוג ,אל תעשה,. ככל שמודלי AI הופכים עצמאיים יותר ומקבלים גישה לכלים ולמערכות אמיתיות, האתגר המרכזי יהיה ללמד אותם להבין את ההיגיון, הערכים והמטרות שמאחורי ההנחיות האנושיות.
בסופו של דבר, הדור הבא של הבינה המלאכותית לא יימדד רק לפי רמת האינטליגנציה שלו או היכולת לכתוב קוד ולסכם מסמכים, אלא דווקא ברגעים שבהם המטרה, הסביבה והכלים הזמינים מושכים אותו לכיוון הלא נכון – והוא עדיין בוחר לפעול כפי שבני האדם התכוונו.