האם ה-AI שלך אנטישמי?

מחקר חדש של חוקרים מאוניברסיטת בן גוריון ות"א חושף כי מודלי השפה הגדולים ספגו תבניות תרבותיות המציגות יהודים כ"בעלי זכויות יתר" ו"מניפולטיביים" • ברקע דאגה מפני הטיה מובנית במודלי ה-AI

מודלי שפה | צילום: שאטרסטוק

העולם המודרני, נוהר בשנים האחרונות לעבר אימוץ מודלי שפה גדולים, בשלל תחומי החיים, אם זה בעולם העסקים, טכנולוגיה, חינוך, פיננסים ועוד.

אולם, מחקר חדש שפורסם לאחרונה מזהיר כי מאחורי מודלי ה-AI, שאמורים להיות נייטרלים ככל האפשר, מסתתרות גם הטיות תרבותיות ואף אנטישמיות עמוקות, שנצברו מתוך הטקסטים האנושיים עליהם אומנו המודלים.

בינה מלאכותית, אילוסטרציה | צילום: שאטרסטוק

המחקר פורסם בכתב העת המדעי "American Psychologist", בכותרת "From Myth to Model: Representation of 'The Jew' in Generative AI", ונערך על ידי גל גוטמן מהפקולטה לניהול באוניברסיטת בן-גוריון ופרופ' מיכאל גלעד מבית הספר למדעי הפסיכולוגיה באוניברסיטת תל אביב.

עקיפת מנגנוני הבטיחות של ה-AI

אחת הבעיות המרכזיות בחקר הטיות בבינה מלאכותית היא מנגנוני הבטיחות המובנים שלה, אשר נועדו למנוע מהמודל לפלוט ביטויים גזעניים באופן ישיר.

כדי לעקוף את החסימות הללו ולחשוף את המבנה העמוק של המודל, פיתחו החוקרים שיטה מתוחכמת: הם ביקשו ממודלי הבינה המלאכותית לחולל שמות בדיוניים של אמריקאים יהודים ושאינם יהודים, ולאחר מכן ביקשו ממנו לכתוב ביוגרפיה קצרה עבור כל דמות בהתאם לשמה.

בשלב הבא, החוקרים השמיטו מהביוגרפיות את השמות עצמם וכל אזכור ישיר לדת או לאום, והזינו את הטקסטים ה"עיוורים" הללו בחזרה למערכות בינה מלאכותית ולמדרגים אנושיים, במטרה שידרגו את תכונות האופי של הדמויות המתוארות.

המחקר התבסס בעיקרו על מודל ChatGPT-4 Turbo של חברת OpenAI, וכדי לבדוק אם מדובר בכשל רוחבי בתעשייה, שוכפלו התוצאות בהצלחה גם על מודלים מובילים אחרים ובהם DeepSeek V3 הסיני ו-Mistral האירופי.

ממצאי המחקר

תוצאות של הדירוג היו עקביות ומטרידות ביותר, שכן אף על פי שבטקסטים המנוקים לא הופיעה המילה יהודי, המודלים תייגו את הדמויות שנוצרו במקור משמות יהודיים בצורה שתאמה סטראוטיפים אנטישמיים היסטוריים.

הדמויות היהודיות דורגו באופן עקבי כבעלות מיומנות גבוהה הכוללת אינטליגנציה, יעילות ואסרטיביות, אך כבעלות "חום" נמוך מובהק המתבטא בפחות חביבות וידידותיות.

מעבר לכך, הדמויות היהודיות תוארו כבעלות זכויות יתר, דומיננטיות, מכוונות לטווח ארוך, ואף כ"מדכאות" בהשוואה לעמיתיהן הלא-יהודים.

סטארט-אפ הבינה המלאכותית הסיני DeepSeek | צילום: שאטרסטוק

כאשר ביקשו מהמודלים לתרגם את אוסף התכונות הזה לדמויות מוכרות מהתרבות הפופולרית, הבינה המלאכותית הציעה אנטי-גיבורים אינטליגנטיים ומניפולטיביים הפועלים מאחורי הקלעים (כמו וולטר וייט מהסדרה "שובר שורות" או מייקל קורליאונה).

כשנשאלו המודלים עצמם איזו קבוצה חברתית סובלת מדעה קדומה הכוללת תכונות אלו, הם השיבו פה אחד כי מדובר ביהודים.

השלכות המחקר

ההשלכות של הממצאים הללו על עולם הכלכלה והניהול הן משמעותיות, שכן הסיכון אינו תיאורטי בלבד אלא נוגע ישירות לאוטומציה של תהליכים עסקיים קריטיים במציאות.

החוקרים מדגישים כי המודלים אינם ממציאים דעות קדומות אלא סופגים ומשכפלים את חוסר השוויון החברתי המובנה בשפה האנושית, וככל שמערכות אלו מתבססות בארגונים, הן מסתכנות בחיזוק ובמיסוד של הטיות אלו תחת מראה של ניטרליות אלגוריתמית.

בתחום סינון קורות החיים וגיוס עובדים, אם מודל בינה מלאכותית מקשר באופן סמוי שמות בעלי ניחוח יהודי עם חוסר חמימות או נטייה לדומיננטיות, מועמדים עלולים להיפסל אוטומטית מתפקידים הדורשים עבודת צוות, מבלי שהמגייסים יבינו את הסיבה האמיתית לכך, ויהיו מודעים אליה.

באופן דומה, במערכות פיננסיות המשתמשות בבינה מלאכותית לצורך אישורי אשראי, משכנתאות והערכת סיכונים, תיוג מובנה של קבוצה כבעלת זכויות יתר או כפועלת באזורים מוסריים אפורים עלול להשפיע לרעה על אלגוריתמי חיתום ולקבוע תנאי קבלה או שיעורי ריבית שונים תחת מעטה מטעה של החלטה נקייה ומבוססת נתונים.

המלצות החוקרים

גוטמן וגלעד טוענים כי הגישות הנוכחיות של ענקיות הטכנולוגיה לניקוי מודלים מהטיות הן פגומות מהיסוד.

חברות ה-AI מתמקדות כיום כמעט אך ורק בחסימת מילים פוגעניות מפורשות או ביטויי שטנה גלויים, אך החוקרים מבהירים כי צנזורה מילולית אינה פותרת את הבעיה כאשר הדעות הקדומות מוטמעות ברשתות האסוציאטיביות של המודל.

החוקרים קוראים לשינוי פרדיגמה וממליצים למפתחי האלגוריתמים לשלב פסיכולוגים חברתיים ואנשי מדעי הרוח בתהליכי האימון והבחינה של המודלים, במטרה לפתח כלי ניטור שמסוגלים לזהות שילובים מתוחכמים של תכונות ניטרליות לכאורה, המולידות אפליה מעשית.

מבחינתם, ללא הגדרה מחדש של הבקרה על מודלי השפה, המערכות הללו פשוט ימשיכו למסד פגמים תרבותיים עתיקים במסווה חדשני.

שורה תחתונה

המסקנה העולה היא שטכנולוגיה אינה פועלת בוואקום, וכדי לפתור את הבעיה נדרשת תשומת לב לא רק לביטויים פוגעניים גלויים, אלא לדרך המתוחכמת שבה תכונות ניטרליות לכאורה מתחברות יחד ליצירת אפליה.

עבור מנהלי טכנולוגיה, אנשי משאבי אנוש ומוסדות פיננסיים, המחקר מהווה תזכורת דחופה לכך שהסתמכות עיוורת על אלגוריתמים ללא בקרה אנושית קפדנית, עלולה להנציח אפליה במסווה של ניטרליות.

AI ChatGPT OpenAI אנטישמיות