המהפכה בדרך: בינה מלאכותית כבר מאבחנת טוב יותר מרופאים

המחקר החדש של מיקרוסופט, שפורסם בשבוע האחרון, חושף כי בינה מלאכותית מסוגלת לאבחן מצבים רפואיים מורכבים ברמת הצלחה גבוהה – כ-85 אחוזים. לא מדובר בנזלת או פטרת ציפורניים, אלא במצבים שמאתגרים גם את טובי המומחים.

במשך 15 שנים ארוכות, ג'ון נהג להקיא כמעט כדרך קבע. לא לשם הנאה או רצון לרזות – הוא פשוט היה מקיא. הולך ברחוב, ופתאום – מקיא. אוכל ארוחת ערב ופתאום – הבנתם. הוא לא השלים עם מצבו בקלות.

"ביצעתי כל בדיקת קיבה וכל מבחן אלרגיה אפשרי," כתב בפוסט ברדיט. "ולמרות שאובחנתי לאחרונה בחרדה והתרופות עזרו, [ההקאות] מעולם לא הפסיקו."

בסופו של דבר, התייעץ עם בינה מלאכותית. בהמלצתה פנה למומחה אף-אוזן-גרון ולכירורגיה של ראש וצוואר, ועבר סריקת מוח. הבדיקה גילתה שהוא סובל מדלקת חמורה ומתמשכת באוזן – בעיה שניתנת לטיפול בקלות.

ג'ון הוא שם בדוי למשתמש ברדיט, אך הסיפור, עד כמה שניתן לוודא, אמיתי. אליו מצטרפים מקרים נוספים שהמשתמשים שיתפו. אחד מהם מתאר אדם שנדד במשך שנים בין מומחים רפואיים בחיפוש אחר הסבר למחלתו. רק לאחר שצ'אט-GPT העלה את האפשרות שמדובר במוטציה מסוימת, התברר בבדיקה גנטית שהמוטציה היא מקור הבעיה.

כבר עכשיו צריך להדגיש: שימוש בבינה מלאכותית לייעוץ רפואי דורש זהירות וחשיבה ביקורתית. היא מסוגלת להגיע לאבחנות מרשימות, אך עלולה גם לטעות ולהציג את שגיאותיה בשפה מקצועית ומשכנעת. למי שמפעיל אותה בתבונה, היא יכולה להציע תוצאות לא פחות ממופלאות.

המחקר של מיקרוסופט הדגים זאת היטב. הבינה המלאכותית הצליחה לאבחן מצבים רפואיים מורכבים, כאלה שמוצגים לרופאים בכירים כ"חידות לפתרון" בכנסים יוקרתיים. הרופאים שמצליחים לפתור חידות כאלה מתפרסמים בז'ורנלים וזוכים בהערכה מקצועית רחבה. כעת מתברר שהבינה המלאכותית מסוגלת להגיע לתוצאות דומות – וזמינה לכל אחד תמורת עשרים דולרים לחודש.

ועכשיו, אחרי שהתרשמתם, כדאי להבין את משמעות המחקר, את יתרונותיו וגם את מגבלותיו – ולחשוב איך הידע שנצבר בו צריך להשפיע על כל מקצוע ותחום עיסוק בעידן החדש.

לפני מספר שנים נאלצתי להגיע לבית החולים באמצע הלילה מסיבות אישיות. הרופא שניגש לבדוק אותי נראה כאילו לא ישן שלושים שעות, וכנראה שכך היה באמת. חשבתי לעצמי שאם אני רוצה טיפול רציני, כדאי להעיר אותו קצת.

"אגב, אני משתף פעולה עם חוקר בפקולטה," ציינתי כבדרך אגב, בזמן שגרר רגליו לעבר הדלת, "אנחנו מפרסמים בקרוב בז'ורנל לרפואה של ניו אינגלנד."

הוא נעצר מיד. השערות הדקות שעל אוזניו רטטו כשהפנה אליי את ראשו לאט. האחות הביטה בי ביראת כבוד. שני מתמחים, שכנראה פיתחו שמיעה חדה אחרי כוס הקפה השביעית, פרצו לחדר וביקשו לנתח את המקרה שלי. כשסיימתי את ענייניי, הצוות כמעט גלל בפניי שטיח אדום וביקש שאחזור שוב.

לפחות, כך זה הרגיש. במציאות, הטיפול היה פחות נלהב – אבל הכבוד היה שם.

מדוע? כי הרופאים קוראים את הז'ורנל הזה. מי שמפרסם בו, זוכה בהכרה וביוקרה. בעיתונים רגילים מופיעים תשבצים וחידות, בז'ורנל לרפואה של ניו אינגלנד מופיעות חידות רפואיות קשות במיוחד. הן מציגות סימפטומים חריגים ורופאים מתבקשים לאבחן במהירות וביעילות, תחת מגבלת עלויות הבדיקות שהם רשאים להזמין.

הניצחון באתגר כזה הוא עיטור כבוד מקצועי, כי המקרים מתוכננים מראש להיות מורכבים במיוחד.

מה רמת ההצלחה של בינה מלאכותית באתגר כזה? כאן נכנס המחקר של מיקרוסופט.

הבינה המלאכותית שפותחה שם היא למעשה "ועדה" של חמש ישויות נפרדות. כל אחת מהן מתפקדת כמו מומחה בתחום אחר: דוקטור היפותזה מדרג אפשרויות, דוקטור בוחר-בדיקות בוחר שלוש בדיקות מועילות, דוקטור מאתגר פועל כפרקליט שטן ומציע נקודות מבט מנוגדות, דוקטור כלכלן מוודא חסכון בעלויות ודוקטור רשימה דואג לדיוק הפרטים.

כל חמשת ה"דוקטורים" הם מופעים שונים של GPT-O3 – מודל חזק במיוחד. כל אחד מהם מקבל הגדרות נפרדות ומדגיש היבטים אחרים.

כך נוצרה ועדה אוטונומית שמנהלת דיון מסודר ושקול. החברים לא מתפרצים זה לדברי זה ומאזנים את ההחלטות. כשהגיעו להסכמה, העבירו את האבחנה לשופט שבחן אם צדקו.

באופן מרשים, הוועדה הצליחה לאבחן נכון 80 אחוזים מהמקרים – ובעלות בדיקות נמוכה מזו של רוב הרופאים. לשם השוואה, הרופא האנושי המוצלח ביותר הגיע ל-40 אחוזי הצלחה בלבד, והרופא הממוצע ל-20 אחוזים.

המשמעות ברורה: בעתיד הקרוב, לכל אחד עשויה להיות ועדה כזו, זמינה במחיר נמוך, המספקת ייעוץ רפואי ברמה גבוהה.

הרעיון מעורר מחשבה גם לגבי ועדות אנושיות. פעמים רבות, משתתפים בהן מונעים מאגו או אינטרסים אחרים. המודל של מיקרוסופט מציע אפשרות אחרת: דיון שקול וממוקד, ללא הסחות דעת. האם ניתן ליישם עקרונות דומים גם בתחומים כמו ביטחון, ניהול וממשל?

עדיין אין לנו תשובות טובות לשאלות כמו – איך צריכה להיבנות ועדה כזו? מי יהיו חבריה? האם לחלקם יהיה כוח רב יותר? איך יקבע סדר הדיון? הסוציולוגים וחוקרי הניהול יצטרכו לפתח תיאוריות חדשות לניהול אינטראקציה בין ישויות מלאכותיות.

לצד ההתלהבות, חשוב לזכור את מגבלות המחקר. הרופאים שהשתתפו היו כלליים בלבד, נאסר עליהם להיעזר במקורות חיצוניים ונדרש מהם לפתור עשרות מקרים ברצף – דבר שגרם בוודאי לעייפות.

יתרה מזו, גם מודלים יחידים כמו GPT-O3 הצליחו להגיע לדיוק של כמעט 80 אחוזים, אף שנעזרו בבדיקות יקרות יותר. ייתכן שחלק מיכולות "הוועדה" כבר מובנות במנועים עצמם.

ובכל זאת, גם אם לא כל השאלות נענו, ברור שהבינה המלאכותית מתקרבת ליכולת אבחון רפואי מרשימה – ומסמנת שינוי עמוק בדרך שבה נבין מקצועות מסורתיים כמו רפואה, עריכת דין וניהול.

זו המשמעות האמיתית של המחקר של מיקרוסופט.

המאמר פורסם במדריך לעתיד – הבלוג של ד"ר רועי צזנה, חוקר ועתידן באוניברסיטת תל-אביב