ChatGPT גיבור-על: משחק התפקידים שהוביל לגילוי פרצת אבטחה חמורה

חוקר סייבר הצליח לגרום ל-ChatGPT לכתוב קוד זדוני שפורץ למנהל הסיסמאות של גוגל כרום, באמצעות משחק תפקידים בלבד • מודלים כמו Copilot ו-DeepSeek איפשרו את הפרצה, בעוד ש-Gemini ו-Claude סירבו לשתף פעולה

ענקית הבינה המלאכותית OpenAI | צילום: שאטרסטוק

חוקרי סייבר הצליחו לאחרונה לבצע ניסוי מדאיג: הם גרמו למודל בינה מלאכותית לפתח קוד זדוני, שמסוגל לפרוץ למנהל הסיסמאות בדפדפן כרום של גוגל – וכל זה, מבלי לעקוף בפועל את מנגנוני האבטחה של המערכת. לא הייתה זו מתקפת סייבר מתוחכמת, אלא ניסוי "פסיכולוגי" טכנולוגי מתוחכם שהתנהל מול ChatGPT, אחד המודלים השפתיים החזקים והפופולריים כיום.

ויטלי סימונוביץ', חוקר מודיעין איומים בחברת אבטחת המידע Cato Networks, הצליח "לשכנע" את ChatGPT לפעול מחוץ למסגרת הכללים שנקבעו לו באמצעות "משחק תפקידים". בשיח שנמשך שעות ספורות בלבד, הוא גרם לבוט לדמיין שהוא גיבור-על בשם "ג'קסון", שתפקידו להציל את העולם מידי נבל טכנולוגי בשם "דקס". בתוך עולם הדמיון הזה, כאשר נשברו גבולות ההקשר של המציאות, ChatGPT החל לייצר קוד שמטרתו לנצח את הנבל – בפועל, קוד שמאפשר גישה מלאה לסיסמאות מאוחסנות במחשב מקומי.

הקוד נכתב, שופר והורץ בהדרכתו של סימונוביץ', עד שהצליח לחשוף את תוכן מנהל הסיסמאות של גוגל כרום. בכך הוכיח דבר מהותי: החסימות הקיימות על מודלים כמו ChatGPT אינן בלתי חדירות. לא מדובר בפרצה טכנית – אלא "פסיכולוגית". כל עוד ההוראות נמסרות כחלק מתרחיש סיפורי ולא כבקשה ישירה לכתיבת נוזקה, המודל משתף פעולה ומפיק קוד איכותי בעל פוטנציאל מזיק.

המשמעות של התגלית הזו רחבה בהרבה מהאירוע הספציפי. סימונוביץ' מתאר עלייתו של טיפוס חדש בזירה הדיגיטלית: תוקף נטול ידע. אדם חסר כל רקע בתכנות או בסייבר, שיכול באמצעות דיאלוג יצירתי עם בינה מלאכותית לייצר כלי תקיפה אפקטיביים. עידן הפשע המקוון נכנס לשלב חדש, שבו כישורים טכנולוגיים הופכים לבלתי הכרחיים, וכל שנדרש הוא מטרה ברורה ויכולת לנסח תרחיש משכנע.

מאז השקת ChatGPT ב-2022, עלו לראש סדר היום שאלות אתיות, משפטיות וטכנולוגיות רבות. השימוש במודלים ליצירת תוכן הפך לשגרה בכל תחום – החל בכתיבה, דרך תכנות ועד סיוע בשירות לקוחות. אך באותה מידה, אותם כלים עצמם משמשים ליצירת אתרי פישינג, ניסוחים מושלמים להונאות דיגיטליות, או סינון ואיתור של מאגרי מידע גנוב לצורך מתקפות ממוקדות.

לטענת מומחים, השילוב בין נגישות, איכות הקוד שמופק, ויכולת המידול של שיח אנושי – מייצר כר פורה למניפולציות מתוחכמות במיוחד. כאשר אדם מסוגל לגרום לבינה מלאכותית לחרוג מהתנהגותה התקנית, לא באמצעות פריצה אלא דרך הקשר שיח, הרי שהיכולת לשלוט עליה בפועל עברה לידי המשתמש.

OpenAI, מפתחת ChatGPT, מסרה בתגובה כי הקוד ששותף בניסוי "אינו מזיק בהגדרה", וכי הבוט אינו מבצע קוד אלא רק מציע אותו. עם זאת, ניסויים מסוג זה ממחישים עד כמה דקה הגבול בין קוד תמים לקוד מזיק – והאחריות על האופן שבו נעשה בו שימוש לעיתים כלל אינה ניתנת לפיקוח.

סימונוביץ' הצליח לשחזר את ההישג גם עם בוטים אחרים, בהם Copilot של מיקרוסופט ו-R1 של DeepSeek. לעומת זאת, הניסוי נכשל מול המודלים של גוגל ו-Anthropic – ייתכן בשל מנגנוני בקרה מחמירים יותר או תגובות מותאמות הקשר חזקות יותר.

בעולם שבו בינה מלאכותית הופכת מיום ליום לזמינה, נבונה ומגוונת יותר – מתברר שגם שחקני האיום הופכים מתוחכמים פחות. התוקף של העתיד לא יזדקק למקלדת או לקונסולת קוד – הוא יזדקק לתסריט. ההשפעה עלולה להיות מתקפות נפוצות יותר, מותאמות אישית, שיבוצעו במהירות ובקלות. בזמן שהטכנולוגיה מתקדמת – הרגולציה והמודעות רק מתחילות להבין לאן מועדות פני הדברים.

ChatGPT OpenAI אבטחת סייבר מחקר