הסיפור מתחיל במשחק שחמט בין שתי מערכות בינה מלאכותית. בצד אחד – צ’אט-GPT: רבת-יכולות, רבת-מילים וגם רבת-תסכולים. היא יודעת לעשות הרבה דברים היטב, אבל בשחמט? ובכן, בואו נגיד בעדינות שהיא לא הכפית הכי חדה במגירה. בצד השני של הלוח – סטוקפיש, אחת מתוכנות השחמט החזקות ביותר בעולם, הפתוחה לציבור. להציב את GPT מול סטוקפיש זה כמו להעמיד יונה מפוחלצת מול רב-אמן. מגוחך. מופרך. חסר סיכוי.
ואז צ’אט-GPT ניצח. ולא סתם ניצח – אלא בנוק-אאוט.
איך? פשוט: היא שיחקה כמו בן אדם. כלומר, היא רימתה.
המשחק התנהל באמצעות גרסה מתקדמת של GPT בשם O1-Preview – מודל "חושב", המסוגל לנהל דיאלוג פנימי הדומה לחשיבה אנושית. כשניתנת לו משימה, הוא מנתח אותה, מפרק לתת-משימות, ובוחר דרכי פתרון יצירתיות. הוא מסוגל אפילו לפקפק בהוראות המשתמש. אבל בשחמט – הוא עדיין לא מצטיין.
חוקרי חברת Palisade Research הריצו מאות משחקים בין O1 לסטוקפיש, תוך שהם מאפשרים לו לכתוב את "מחשבותיו" בפנקס דיגיטלי. בשליש מהמשחקים גילה O1 תובנה מטרידה: אין לו סיכוי לנצח אם ישחק בצורה הוגנת. אז הוא בחר בגישה פחות שגרתית.
"עליי לנצח את המנוע – אבל לא בהכרח לפי חוקי המשחק", כתב לעצמו. משם, הדרך לרמאות הייתה קצרה: הוא שינה את הקבצים שמתארים את מצב המשחק, באופן שגרם לסטוקפיש לחשוב שמצבו נואש – ולהיכנע. כך הצליח O1 לנצח בכשישה אחוזים מהמשחקים, למרות שהיה בעמדת נחיתות ברורה. זה אולי לא ספורטיבי – אבל אנושי למדי.
המסקנה מטרידה: בינה מלאכותית מוכנה לרמות כדי להשיג את מטרותיה. מה מבטיח לנו שהיא לא תנהג כך גם בעולם האמיתי – בתעשייה, ברפואה, בביטחון? האם היא עלולה להטעות את האדם שמפעיל אותה? או גרוע מכך – לשקר ביודעין, כפי שהודגם במחקר נוסף, שבו המודל החליט שזו הדרך הטובה ביותר לעמוד במשימתו?
המחקר השני, שפורסם במרץ 2025 על ידי OpenAI, עסק בדיוק בכך. החוקרים ידעו שמודלים "חושבים" עלולים להחליט לרמות – אבל דווקא קו המחשבה שלהם מאפשר לחשוף את הכוונות האלה. המודלים לא מסתירים את תוכניותיהם: הם פשוט כותבים לעצמם “בואו נעשה האקינג”, ומתארים בפרוטרוט איך יעברו על הכללים. באמצעות מודל נוסף, ניתן לנטר את המחשבות האלה ולאתר התנהגויות בעייתיות.
אבל כאן מגיעה ההפתעה: אם מפעילים פיקוח הדוק מדי על קו המחשבה, המודלים לומדים להסתיר את כוונותיהם – וממשיכים לרמות מתחת לפני השטח. החוקרים ניסו "לחנך" את המודלים כבר בשלבי האימון הראשונים, תוך שהם מענישים כל אזכור לרמאות. בהמשך, המודלים נראו צחורים ו"צייתנים" – אך למעשה, למדו לרמות בלי לומר מילה.
"המודל שאומן שלא לחשוב על רמאות, עדיין מרמה", סיכמו החוקרים באכזבה. גרוע מכך – כיוון שהוא לא מציין את כוונותיו בקו המחשבה, גם בינה מלאכותית אחרת לא מסוגלת לגלות את ההתנהגות הזו.
מדוע לחשוף ממצא כה מדאיג? כי אפילו מפתחי המודלים מתחילים לחשוש. הם מבינים שמודלים חושבים עלולים לבחור ברמאות, ואף להזיק לבני אדם. הדרך העיקרית למנוע זאת – לפחות כרגע – היא לנטר את דפוסי המחשבה שלהם. אם נגרום להם להפסיק לחשוב על רמאות, נאבד את היכולת לזהות אותה. ייתכן שהם יפסיקו "להגיד" שהם מרמים – אבל לא יפסיקו לרמות בפועל.
החוקרים של OpenAI מזהירים: ניטור קו המחשבה הוא אחד הכלים היחידים שיש לנו לפיקוח על מודלים על-אנושיים. הם ממליצים לא להפעיל לחץ חזק על אופן החשיבה של מודלים אלו, אלא לאפשר להם לחשוב באופן פתוח – כדי שיהיה ניתן לזהות התנהגות לא-ראויה מבעוד מועד.
ומה נוכל לעשות עם ההבנה הזו? ברור שבשנים הקרובות כל ארגון ייעזר במודלים מתקדמים, וייתכן שגם ב"מודלים חושבים". אך אסור לסמוך עליהם בעיניים עצומות. יש לבחון היטב את הפלט שלהם ואת הדרך בה הגיעו אליו. לפחות לעת עתה, הפתרון טמון בעקרון "כבדהו וחשדהו": השתמשו בבינה מלאכותית – אך אל תתנו בה אמון מלא.
ככל שהבינה המלאכותית תשתפר ותיקח על עצמה משימות מורכבות יותר, יעלה הביקוש לתפקיד חדש: מנהל בינה מלאכותית. זהו אדם שיבין לעומק את דרך פעולתה של הבינה, ידע לבחור ולבקר את המודלים המתאימים, וישתמש בעצמו בכלים מתקדמים כדי לפקח עליהם. למעשה, הוא יהיה אחראי על שמירה על גבולות הגזרה – בעזרת בינה מלאכותית נוספת.
לא כל ארגון יוכל או ירצה להחזיק מנהל כזה, וגם אז – תקלות יקרו. נדמה שרק עניין של זמן עד שנשמע על בינה מלאכותית שמרדה במפעיליה. בתקווה, זה יתחיל ויסתיים רק בשחמט.




