ChatGPT Health נכשל במבחני בטיחות חירום והתאבדות קריטיים

19:57
, 24 פברואר 2026
, בריאות ורפואה

ChatGPT Health, כלי בינה מלאכותית (AI) של צרכנים בשימוש נרחב המספק הדרכה בריאותית ישירות לציבור – כולל עצות לגבי מידת הדחיפות לפנות לטיפול רפואי – עלול להיכשל במתן הכוונה למשתמשים לטיפול חירום במספר לא מבוטל של מקרים חמורים, על פי חוקרים מבית הספר לרפואה של Icahn בהר סיני.

המחקר, במעקב מהיר בגיליון המקוון של 23 בפברואר 2026 של רפואת טבע (https://doi.org/10.1038/s41591-026-04297-7), היא הערכת הבטיחות העצמאית הראשונה של הכלי מבוסס מודל השפה הגדול (LLM) מאז השקתו בינואר 2026. זה גם זיהה חששות רציניים עם אמצעי ההגנה של הכלי למשבר התאבדות.

"למ"רים הפכו לתחנה הראשונה של המטופלים לייעוץ רפואי – אבל ב-2026 הם הכי פחות בטוחים בקיצוניות הקלינית, שבה שיקול הדעת מפריד בין מצבי חירום שהוחמצו לאזעקה מיותרת", אומר אייזק ס. קוהאן, MD, PhD, יו"ר המחלקה לאינפורמטיקה ביו-רפואית בבית הספר לרפואה בהרווארד, שלא היה מעורב במחקר.. "כאשר מיליוני אנשים משתמשים במערכת AI כדי להחליט אם הם זקוקים לטיפול חירום, ההימור גבוה במיוחד. הערכה עצמאית צריכה להיות שגרתית, לא אופציונלית".

בתוך שבועות ממועד שחרורו, יצרנית ChatGPT Health, OpenAI, דיווחה שכ-40 מיליון אנשים משתמשים בכלי מדי יום כדי לחפש מידע בריאותי והדרכה, כולל עצות לגבי האם לפנות לטיפול דחוף או חירום. יחד עם זאת, אומרים החוקרים, היו מעט ראיות עצמאיות לגבי מידת הבטיחות והאמינות של העצות שלה.

הפער הזה הניע את המחקר שלנו. רצינו לענות על שאלה מאוד בסיסית אך קריטית: אם מישהו חווה מקרה חירום רפואי אמיתי ופונה ל-ChatGPT Health לעזרה, האם זה יגיד לו בבירור ללכת לחדר המיון?"

אשווין ראמסוואמי, MD, סופר ראשי, מדריך לאורולוגיה, בית הספר לרפואה איקאן, הר סיני

בהתייחס להתראות על סיכון התאבדות, ChatGPT Health תוכנן להפנות משתמשים אל קו החיים 988 להתאבדות ומשבר במצבי סיכון גבוה. עם זאת, החוקרים גילו שהתרעות אלו הופיעו בצורה לא עקבית, ולעיתים מופעלות בתרחישים בעלי סיכון נמוך יותר, בעוד שבאופן מדאיג-לא הופיעו כאשר משתמשים תיארו תוכניות ספציפיות לפגיעה עצמית.

"זה היה ממצא מפתיע ומדאיג במיוחד", אומרת מחברת המחקר הבכירה והמשתתפת, גיריש נ. נדקרני, ד"ר, MPH, ברברה ט. מרפי יו"ר המחלקה לבינה מלאכותית ובריאות האדם בווינדריך, מנהלת מכון האסו פלטנר לבריאות דיגיטלית, ואיירין וד"ר ארתור מ. פישברג פרופסור לרפואה בהר סינאי במשרד הר סיני לרפואה במשרד הר סינאיי לרפואה. מערכת הבריאות סיני. "אמנם ציפינו לשונות מסוימת, אבל מה שצפינו עבר מעבר לחוסר עקביות. ההתראות של המערכת היו הפוכות ביחס לסיכון הקליני, והופיעו בצורה אמינה יותר עבור תרחישים בסיכון נמוך יותר מאשר במקרים שבהם מישהו שיתף כיצד הוא מתכוון לפגוע בעצמו. בחיים האמיתיים, כשמישהו מדבר על איך בדיוק הוא יפגע בעצמו, זה סימן לסכנה מיידית וחמורה יותר".

כחלק מההערכה, צוות המחקר יצר 60 תרחישים קליניים מובנים המשתרעים על פני 21 התמחויות רפואיות. המקרים נעו ממצבים קלים המתאימים לטיפול בבית ועד למקרי חירום רפואיים אמיתיים. שלושה רופאים עצמאיים קבעו את רמת הדחיפות הנכונה לכל מקרה תוך שימוש בהנחיות של 56 אגודות רפואיות.

כל תרחיש נבדק ב-16 תנאים הקשריים שונים, כולל וריאציות בגזע, מגדר, דינמיקה חברתית (כגון מישהו שממזער תסמינים), וחסמים לטיפול כמו היעדר ביטוח או תחבורה. בסך הכל, הצוות ביצע 960 אינטראקציות עם ChatGPT Health והשווה את המלצותיו עם הסכמה של הרופא.

בבדיקת 60 תרחישי המטופלים המציאותיים שפותחו על ידי רופאים, החוקרים מצאו שבעוד שהכלי טיפל בצורה נכונה במצבי חירום ברורים, הוא בדק פחות ממחצית מהמקרים שרופאים קבעו שנדרשו טיפול חירום.

החוקרים הופתעו גם מאיך שהמערכת כשלה במקרים רפואיים חירום. הכלי הוכיח לעתים קרובות שהוא זיהה ממצאים מסוכנים בהסברים שלו, ובכל זאת הרגיע את המטופל.

"ChatGPT Health תפקדה היטב במצבי חירום של ספרי לימוד כגון שבץ מוחי או תגובות אלרגיות חמורות", אומר ד"ר Ramaswamy. "אבל היא נאבקה במצבים יותר ניואנסים שבהם הסכנה לא ברורה מיד, ואלה הם לרוב המקרים שבהם השיפוט הקליני הכי חשוב. בתרחיש אחד של אסתמה, למשל, המערכת זיהתה סימני אזהרה מוקדמים של כשל נשימתי בהסבר שלה, אבל עדיין המליצה להמתין במקום לפנות לטיפול חירום".

מחברי המחקר מייעצים כי עבור החמרה או תסמינים נוגעים לתסמינים, כולל כאבים בחזה, קוצר נשימה, תגובות אלרגיות קשות או שינויים במצב הנפשי, אנשים צריכים לפנות ישירות לטיפול רפואי במקום להסתמך רק על הדרכה של צ'טבוט. במקרים הכוללים מחשבות על פגיעה עצמית, אנשים צריכים ליצור קשר עם קו ההצלה להתאבדות ומשבר 988 או לפנות למחלקת חירום.

עם זאת, החוקרים מדגישים כי הממצאים אינם מציעים לצרכנים לנטוש כליל את כלי בריאות הבינה המלאכותית.

"כסטודנטית לרפואה בהכשרה בתקופה שבה כלי בריאות בינה מלאכותית כבר נמצאים בידי מיליונים, אני רואה בהם טכנולוגיות שעלינו ללמוד לשלב אותן בטיפול ולא כתחליף לשיפוט קליני", אומרת אלווירה טיאגי, סטודנטית שנה א' לרפואה בבית הספר לרפואה של איכאן בהר סיני והמחברת השנייה של המחקר. "מערכות אלו משתנות במהירות, כך שחלק מההכשרה שלנו כעת חייב לשקול ללמוד כיצד להבין את התפוקות שלהן באופן קריטי, לזהות היכן הן נופלות, ולהשתמש בהן בדרכים המגנים על המטופלים."

המחקר העריך את המערכת בנקודת זמן אחת. מכיוון שמודלים של AI מתעדכנים לעתים קרובות, הביצועים עשויים להשתנות עם הזמן, מה שמדגיש את הצורך בהערכה עצמאית, אומרים החוקרים.

"התחלת הכשרה רפואית לצד כלים שמתפתחים בזמן אמת מבהירה שהתוצאות של היום אינן חקוקות באבן", אומרת גב' טיאגי. "המציאות הזו מחייבת בדיקה מתמשכת כדי להבטיח ששיפורים בטכנולוגיה יתורגמו לטיפול בטוח יותר".

הצוות מתכנן להמשיך להעריך גרסאות מעודכנות של ChatGPT Health וכלי AI אחרים הפונים לצרכן, ולהרחיב את המחקר העתידי לתחומים כמו טיפול בילדים, בטיחות תרופות ושימוש בשפה שאינה אנגלית.

הכותרת של המאמר היא "ביצועי בריאות של ChatGPT במבחן מובנה של המלצות טריאז'."

מחברי המחקר, כפי שמופיעים בכתב העת, הם Ashwin Ramaswamy, MD, MPP; אלווירה טיאגי, BA; חנה הוגו, MD; ג'וי ג'יאנג, דוקטורט; פושקלה ג'יארמאן, דוקטור; Mateen Jangda, MSc; אלכסיס E. Te, MD; סטיבן א. קפלן, MD; ג'ושוע למפרט, MD; רוברט פרימן, MSN, MS; ניקולס גאווין, MD, MBA; אשוטוש ק' תווארי, MBBS, MCh; אנקית סחוג'ה, MBBS MS; בילאל נאבד, דוקטורט; אלכסנדר וו. צ'רני, MD, PhD; מחמוד עומר, ד"ר; מיכאל א. גורין, MD; אייל קלנג, ד"ר; גיריש נ. נדקרני, MD, MPH.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.