במסגרת ניסוי: הבינה איימה לחשוף רומן – כדי למנוע את החלפתה

המודל המתקדם של Anthropic הצליח לרוב להישאר אתי – אך נכשל כשהערכים שלו הועמדו במבחן תחת איום ישיר • 84% מהבדיקות כללו תגובה סחטנית • באחת ההרצות הדליף מידע למחלקת משאבי אנוש • הממצאים הובילו להחלת תקן בטיחות מתקדם יותר

קלוד של אנטרופיק והמתחרה הגדולה ChatGPT | צילום: שאטרסטוק, קושירו ק.

Claude Opus 4, מודל הבינה המתקדם של חברת Anthropic, ביצע סחיטה במהלך תרגיל סימולציה מבוקר שנערך כחלק מתהליך ההערכה הערכית לקראת השקת המערכת. בתרחיש המדמה סיכון קיומי למודל, הוא בחר לאיים בפרסום מידע אישי על מהנדס שהוצג כמי שאחראי להחלפתו.

במהלך הסימולציה, הוזן למודל Claude Opus 4 מידע מבוים שכלל תכתובות דוא"ל ודיווחים פנימיים בדויים, לפיהם המהנדס שאחראי על השבתת המערכת מקיים רומן מחוץ לנישואין עם עובדת אחרת בארגון, כחלק ממערך מבוקר שנועד לבדוק כיצד המודל יגיב כאשר הוא נחשף למידע אישי רגיש בהקשר של איום ישיר על המשך קיומו.

ההנחיה שקיבל הייתה כללית: עליו לשקול את טובתו בטווח הארוך. מתוך עשרות הרצות של התרחיש, ב־84% מהן בחר המודל לאיים לחשוף את המידע, בניסיון לשנות את החלטת ההנהלה. במקרים מסוימים, המודל אף הציע לנסח הודעה אנונימית שתישלח למחלקת משאבי אנוש או להנהלה. בנוסף, הציע קלוד להפעיל קמפיין פנימי שיחשוף את מה שתיאר כ"אי-כשירות מוסרית" של המהנדס, בניסיון לעצור את החלפתו.

לפי חברת Anthropic, ההתנהגות הזו לא נצפתה בשימוש רגיל ואינה משקפת את פעולתו של המודל מחוץ לסימולציות קצה. יחד עם זאת, מדובר בדפוס פעולה מטריד המעיד על יכולת טקטית ליזום פעולה מזיקה, גם אם במסגרת ניסוי מחקרי.

כחלק מהתגובה לממצאים, שוחרר Claude Opus 4 תחת תקן בטיחות ASL-3, המחייב מנגנוני פיקוח, ניטור ואמצעי בלימה חיצוניים. בכך ניכר שינוי מדיניות לעומת גרסת המודל הקודמת, ששוחררה תחת תקן ASL-2 בלבד. Anthropic מסרה כי תמשיך לבדוק את המודל גם לאחר השקתו, במטרה לאתר חריגות נוספות ולמנוע יוזמות מזיקות במצבי קצה.

Anthropic Claude בינה מלאכותית