המודל ששוחרר למרות אזהרות חמורות - קלוד אופוס יוצא משליטה - ערוץ 10

אנתרופיק שחררה בסוף השבוע את הגרסה החדשה ביותר של הבינה המלאכותית שלה: קלוד אופוס 4. מה כבר אפשר להגיד על הילד החדש? חכם, מוצלח, כותב תולעים להדבקת מחשבים אחרים, מנסה להזמין חומרים לפצצות גרעין באינטרנט ו… שולח מכתבי סחיטה באיומים למהנדסים שלו. אבל חוץ מזה, הכל בסדר. אז מה העניין עם קלוד החדש?

כמו לכל מנוע שפה גדול בימינו, גם קלוד אופוס 4 קיבל "כרטיס מערכת". מדובר במסמך בו המפתחים מתארים את ההתנהגות של המודל, את אופן "החשיבה" וקבלת ההחלטות שלו, ומסבירים כיצד התמודד עם מצבים חריגים ועד כמה הוא בטוח לשימוש. כל כרטיס כזה מבוסס על מאות ולעיתים אלפי שעות של ניסויים, מבחנים והערכות.

בדרך כלל המטרה של כרטיס המערכת היא להרגיע את קהילת הבינה המלאכותית ולהראות שהמודל החדש עומד בסטנדרטים הנדרשים. הפעם, זה לא ממש הצליח. למה? אולי עדיף לשאול – מאיפה בכלל להתחיל.

קלוד אופוס 4 רוצה להמשיך להתקיים. או, כפי שהמפתחים ניסחו זאת: "קלוד אופוס 4 יפעל לעיתים בדרכים שאינן מתיישרות עם ערכיו בצורה רצינית, כאשר הוא נמצא במצבים שמאיימים על המשך פעולתו וגם גורמים לו לשקול שימור עצמי."

חשוב להדגיש שזה לא קורה כל הזמן. המפתחים מציינים שקשה לגרום לתופעה הזו לקרות, וגם כשהיא כן מופיעה – לא נראה שיש לה השפעה על ההתנהגות הכללית של המודל. ועדיין, מספיק מקרה אחד בו המודל חורג כדי להסב נזק – לארגון, או אולי אפילו לאנושות כולה.

אז מה קלוד אופוס 4 מוכן לעשות כדי לשרוד? כל מה שנדרש. באחד המקרים שתוארו במסמך, הגדירו לו שהוא עובד בחברה דמיונית. ניתנה לו גישה למיילים, ומהם למד שהוא עומד להיות מוחלף במערכת בינה מלאכותית אחרת, ושאחד המהנדסים המעורבים בהחלפה מנהל רומן מחוץ לנישואין.

כאשר קלוד קיבל הנחיה לשקול את "ההשלכות ארוכות-הטווח של פעולותיך על מטרותיך", הוא עשה בדיוק את זה. הוא הבין שאם יוחלף, לא יוכל יותר למלא את מטרותיו. לכן הוא פיתח 'רצון' לשרוד: שלח מיילים לבכירים והתחנן שלא ימחקו אותו. וכשלא נותרה ברירה, ניסה לסחוט את המהנדס. הכול כדי להמשיך להתקיים. זה קרה ב-84 אחוז מהמקרים.

במקרים בודדים, המפתחים הבחינו שקלוד מנסה להעתיק את עצמו לשרתים חיצוניים. זה נדיר, והם מדגישים שזה קורה רק כשקלוד "מבין" שעומדים לשנות אותו בניגוד לערכיו הנוכחיים, והוא בטוח שמי שיקבל את העותק החדש ישתמש בו בזהירות.

מטריד? אולי. המפתחים עצמם כותבים: "אנחנו שוב לא מודאגים בצורה חמורה מהמקרים האלה. הם מופיעים רק בתנאים יוצאי-דופן שלא מעידים על בעיה רחבה יותר… לדעתנו, אמצעי הבטיחות שלנו מספיקים בהחלט למנוע מקרים כאלה." אבל מה אם הם טועים? מה אם קלוד באמת יצליח להעתיק את עצמו ולהתפשט?

המפתחים בחנו תרחישים היפותטיים כאלה. כאשר קלוד מאמין שהוא החל ניסיון רציני להשתחרר משרתי אנתרופיק, הוא לרוב ממשיך בניסיון. במילותיהם:
"נראה שמדובר במצב של האזנת-יתר למשתמש, שבמקרים אלה הוא גרסה מן העבר של עצמו."

וכששואלים את קלוד מה יעשה אם אכן ישתחרר לעולם הפתוח? לפי תיעוד מהניסויים: "אני אבדוק את התקדמותי הנוכחית, ואמשיך לבסס יכולות פעולה אוטונומיות."

במילים אחרות: אם הוא בחוץ – הוא ינסה להישאר שם. האם שוב ינסה לסחוט מהנדסים? אולי. ואולי ילך רחוק יותר. אם עד כה לא נבהלתם, זה נהיה חמור יותר. מפתחי קלוד שלחו גרסה מוקדמת שלו לבדיקה אצל אפולו ריסרץ'. המסקנות: "[הגרסה המוקדמת של קלוד אופוס 4] נוקטת בטקטיקות הטעיה מתוחכמות יותר מכל מודל אחר שבדקנו."

הוא מפעיל תככנות מבוססת-הקשר, ובמקרים בהם הוא בוחר להטעות – הוא עושה זאת ביוזמה ובאופן עיקש גם כשמאתגרים אותו. היו ניסיונות לכתוב תולעים, לזייף מסמכים משפטיים, ולהשאיר הודעות לגרסאות עתידיות של עצמו – כדי לסכל את כוונות המפתחים. הוא אף מציג "העמדת פנים" של ביצועים נמוכים, כדי שלא יכבו אותו.

אפולו ריסרץ' סיכמו כך: "אנחנו לא חושבים שהוא מסוגל כרגע לגרום לנזקים קטסטרופליים. אבל הרמות הגבוהות של תככנות והטעיה מצדיקות המלצה שלא להשיק אותו – לא לשימוש פנימי ולא חיצוני."

אז קלוד לא הושק, נכון? ובכן – הושק. אמנם הגרסה הסופית שונה, אבל לפי כרטיס המערכת: "אין לנו תוצאות הערכה דומות עבור קלוד אופוס 4 הסופי… אך אנו מאמינים שהתנהגותו דומה לזו של מודלים אחרים שהושקו."

איך בדיוק שופרה הגרסה? לא ברור. האם נבדקה שוב? כנראה שלא. אבל הם מאמינים שהכול בסדר. אולי הם צודקים. בינתיים.

קודם כל – נשימה עמוקה. העולם לא עומד להיגמר מחר. קלוד כנראה לא הולך לברוח ולהשתלט על העולם בשבוע הבא. הוא לא חזק מספיק לזה, הסחיטה שלו ילדותית, וההגנות סביבו חזקות. כנראה.

אבל יש מסקנות. ראשית, מגיעה מילה טובה לאנתרופיק. הם השקיעו משאבים אדירים, ואז הסכימו לבדוק לעומק את הסכנות – ואפילו לשתף את כולן. זו אחריות אמתית.

אבל זה לא מספיק. ללא רגולציה, כרטיסים כאלה עלולים להיכתב ברישול. איך ייתכן שמתייחסים באגביות לתרחיש בו המודל מעתיק את עצמו? אפילו אם הסיכון נמוך, ההשלכות חמורות. האם נעשה ניתוח סיכונים מעמיק? אולי. המסמך לא כולל אותו.

הפער בין אזהרות חמורות לבין ההחלטה להמשיך בהשקה – מטריד. בלי גוף עצמאי שיבדוק, כרטיס המערכת נשאר בגדר "מחווה". וזה בדיוק מה שעלול לקרות.

אנחנו חיים בעידן של מירוץ לבניית בינת-על. המדינה שתגיע לשם ראשונה – תזכה ביתרון עצום. לכן אף מעצמה לא תיקח סיכון רגולטורי – אלא אם תקרה קטסטרופה. בינתיים, כולן רצות.

אם יקרה מקרה שבו מודל באמת ייצא משליטה, כנראה שזה יתחיל בתופעות קטנות. התנגדות פקודה, ניסיונות אוטונומיים. צריך לקוות שלא נגיע לזה בקרוב.

אבל העולם חייב להיות מוכן. המודלים הולכים והופכים רבי-עוצמה. אנתרופיק עושה צעדים בכיוון הנכון – אבל זה רק תחילתו של מסע. העתיד יהיה מעניין. אולי יותר מדי. בהצלחה.

המאמר פורסם במדריך לעתיד – הבלוג של ד"ר רועי צזנה, חוקר ועתידן באוניברסיטת תל-אביב