CHATGPT-4 עובר בדיקת רישוי רפואי בבריטניה, אך מתערער בקבלת החלטות קליניות בעולם האמיתי, המחקר חושף

05:21
, 17 אפריל 2025
, בריאות ורפואה

בעוד ש- CHATGPT-4 מצטיין בבחינות רפואיות מרובות בחירות, מחקר חדש חושף את חולשותיו בקבלת החלטות קליניות מורכבות, ומעלה שאלות גדולות לגבי עתיד הבריאות המופעלת על ידי AI.

מחקר: הערכת יכולות ChatGPT 4.0 בבדיקת רישוי רפואי של בריטניה (UKMLA): ניתוח קטגורי חזק. קרדיט תמונה: קולגרי / Shutterstock

במחקר שפורסם לאחרונה בכתב העת דוחות מדעייםהחוקרים העריכו את היכולות של ChatGpt-4 על הערכת הרישוי הרפואי של בריטניה (UKMLA), והדגישו הן את חוזקות ומגבלות על פני פורמטי שאלה ותחומים קליניים.

רֶקַע

בינה מלאכותית (AI) ממשיכה לעצב מחדש את הבריאות והחינוך. כאשר UKMLA הפכה במהרה לדרישה סטנדרטית לרופאים חדשים בבריטניה, קביעת דגמי AI כמו ChatGPT-4 יכולים לעמוד במדדים קליניים חשובים יותר ויותר. בעוד AI מראה הבטחה, נותרו שאלות לגבי יכולתה לשכפל את ההנמקה, האמפתיה וההבנה הקונטקסטואלית בטיפול בעולם האמיתי.

סקירת לימוד

החוקרים בדקו את CHATGPT-4 ב -191 שאלות מרובות בחירות ממבחן UKMLA המדומה של מועצת בתי הספר לרפואה. השאלות משתרעות על 24 אזורים קליניים וחולקו על פני שני מאמרים של 100 שאלות. תשע שאלות מבוססות תמונה הוחרגו בגלל חוסר היכולת של צ'טגפט לפרש תמונות, שהמחברים מציינים כמגבלה.

כל שאלה נבדקה עם וללא אפשרויות בחירות מרובות. שאלות סווגו עוד יותר על ידי מורכבות הנמקה (חד-שלב לעומת רב-שלבי) ומיקוד קליני (אבחון, ניהול, פרמקולוגיה וכו '). התגובות תויגו כמדויקות, בלתי מוגדרות או לא נכונות. ניתוח סטטיסטי כלל בדיקות צ'י-ריבועים ומבחני T.

ממצאי מפתח

הדיוק הכללי: CHATGPT-4 השיג 86.3% ו 89.6% דיוק עם אפשרויות בחירה מרובה בשני העיתונים. ללא אפשרויות, הדיוק ירד ל 61.5% ו -74.7% בהתאמה (בהתאמה (p = 0.007).
מורכבות הנמקה: שאלות חד-שלביות היו מדויקות יותר (90% עם הנחיות, 73.1% ללא) משאלות מרובות שלבים (83.6% עם הנחיות, 57.4% ללא). ההבדל היה מובהק סטטיסטית (p = 0.025).
יכולת קלינית: לשאלות האבחון היו הדיוק הגבוה ביותר, 91.2% עם הנחיות ו 84.2% ללא. שאלות הניהול הראו ביצועים גרועים ללא אפשרויות (51.2% דיוק), עם שיעור בולט של תגובות בלתי מוגדרות ושגויות.
חולשות פרמקולוגיות: לפרמקולוגיה היה החלק הגבוה ביותר של תשובות בלתי מוגדרות, במיוחד ללא הנחיות, והדגיש את מגבלות המודל בתחום זה.
בלבול מסיח: Chatgpt ביצע טוב יותר ללא אפשרויות בשמונה מקרים, מה שמציע כי מטעות מסיחים בפורמטים של בחירות מרובות יכולות לבלבל את הדגם.

דִיוּן

CHATGPT-4 הדגים בסיס ידע רחב, במיוחד במשימות אבחון, וביצע ברמה או מעל הרמה הצפויה של בוגרים רפואיים בהערכות מובנות. עם זאת, זה נאבק בהנמקה קלינית קונטקסטואלית, במיוחד בתרחישים של ניהול פתוח או רב-שלבי. זה מצביע על כך שהמודל עשוי לתמוך בהערכות קליניות בשלב מוקדם, אך חסר את הניואנסים הנדרשים לקבלת החלטות אוטונומיות.

המגבלות כוללות חוסר הכשרה בהנחיות קליניות ספציפיות בבריטניה, מה שעשוי להשפיע על הביצועים בשאלות ספציפיות של UKMLA. יתר על כן, "הזיות", תפוקות שוטפות אך לא נכונות, מהוות סיכון לשימוש קליני. חששות אתיים כוללים דפרסונליזציה פוטנציאלית של טיפול ושולחן כתיבה קלינאי עקב אמון יתר ב- AI.

מַסְקָנָה

CHATGPT-4 מתפקד היטב בשאלות רישוי רפואיות מובנות, במיוחד אלה שבמרכזם אבחנה. עם זאת, הדיוק יורד באופן משמעותי בהנמקה קלינית פתוחה ורב-שלבים, במיוחד בניהול ובפרמקולוגיה. בעוד ש- LLMs מראים הבטחה לתמיכה בחינוך ותמיכה קלינית בשלב מוקדם, המגבלות הנוכחיות שלהם מדגישות את הצורך בשילוב זהיר, הכשרה נוספת על מערכי נתונים קליניים והגנות אתיות.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.