במסגרת ניסוי: הבינה איימה לחשוף רומן – כדי למנוע את החלפתה

המודל המתקדם של Anthropic הצליח לרוב להישאר אתי – אך נכשל כשהערכים שלו הועמדו במבחן תחת איום ישיר • 84% מהבדיקות כללו תגובה סחטנית • באחת ההרצות הדליף מידע למחלקת משאבי אנוש • הממצאים הובילו להחלת תקן בטיחות מתקדם יותר