כלי AI מראים מגבלות באבחון מקרי חדר מיון לא טיפוסיים

19:26
, 23 מאי 2025
, בריאות ורפואה

מדעני אוניברסיטת מערב וירג'יניה מצאו כי כלים לבינה מלאכותית יכולים לסייע לרופאי חדר המיון בחיזוי מדויק של מחלות, אך רק עבור חולים עם תסמינים טיפוסיים.

Gangqing "Michael" HU, עוזר פרופסור במחלקה למיקרוביולוגיה, אימונולוגיה וביולוגיה של תאים של WVU ומנהל מתקן הליבה הביואינפורמטי של WVU, הוביל מחקר שהשווה את הדיוק והדיוק של ארבעה מודלים של צ'טגפט ביצירת אבחנות רפואיות והסבר על הנמלתם.

ממצאיו, שפורסמו בכתב העת Scientific Reports, מדגימים את הצורך בשילוב כמויות גדולות יותר של סוגים שונים של נתונים בהכשרת טכנולוגיית AI כדי לסייע באבחון מחלות.

נתונים נוספים יכולים לעשות את ההבדל בשאלה אם AI מעניקה למטופלים את האבחנות הנכונות למה שנקרא "מקרים מאתגרים", שאינם מציגים תסמינים קלאסיים. כדוגמה, הו הצביע על שלישיית תרחישים מהמחקר שלו בו היו מעורבים חולים שעברו דלקת ריאות ללא החום האופייני.

בשלושת המקרים הללו, כל דגמי ה- GPT לא הצליחו לתת אבחנה מדויקת. זה גרם לנו לצלול כדי להסתכל על הערות הרופאים והבחינו בדפוס של מקרים מאתגרים אלה. Chatgpt נוטה לקבל מידע רב ממשאבים שונים באינטרנט, אך יתכן שאלו לא מכסים מצגת מחלות לא טיפוסיות. "

Gangqing "Michael" HU, עוזר פרופסור, בית הספר לרפואה של WVU המחלקה למיקרוביולוגיה, אימונולוגיה וביולוגיה תאים

המחקר ניתח נתונים מתוך 30 מקרי מחלקת חירום ציבוריים, אשר מסיבות של פרטיות לא כללו דמוגרפיה.

HU הסביר כי בשימוש ב- CHATGPT כדי לסייע באבחון, הועלה הערות של רופאים והכלי מתבקש לספק את שלושת האבחנות המובילות שלו. התוצאות השתנו בגרסאות HU נבדקו: סדרת GPT-3.5, GPT-4, GPT-4O ו- O1.

"כשמבדקנו אם דגמי ה- AI נתנו את האבחנה הנכונה באחת משלושת התוצאות המובילות שלהם, לא ראינו שיפור משמעותי בין הגרסה החדשה לגרסה הישנה", אמר. "אבל כשאנחנו בוחנים את האבחנה מספר אחת של כל דגם, הגרסה החדשה גבוהה בכ- 15% עד 20% ברמת הדיוק מאשר הגרסה הישנה יותר."

בהתחשב בביצועים הנמוכים הנוכחיים של מודלים של AI במקרים מורכבים ולא טיפוסיים, הוא אמר כי הפיקוח האנושי הוא הכרח לטיפול באיכות גבוהה ומרכזית מטופלים בעת השימוש ב- AI ככלי מסייע.

"לא עשינו את המחקר הזה מתוך סקרנות כדי לבדוק אם המודל החדש ייתן תוצאות טובות יותר. רצינו לבסס בסיס למחקרים עתידיים הכרוכים בתשומות נוספות", אמר הו. "נכון לעכשיו, אנו מזין הערות רופאים בלבד. בעתיד אנו רוצים לשפר את הדיוק על ידי הכללת תמונות וממצאים מבדיקות מעבדה."

הו מתכנן גם להרחיב על ממצאים מאחד המחקרים האחרונים שלו בהם הוא יישם את המודל של chatgpt-4 על המשימה של משחק תפקידים פיזיותרפיסט, פסיכולוג, תזונאי, מומחה בינה מלאכותית וספורטאי בדיון בפאנל מדומה על שיקום ספורט.

הוא אמר שהוא מאמין שמודל כזה יכול לשפר את דיוק האבחון של AI על ידי נקיטת גישה שיחה בה סוכני AI מרובים מתקשרים.

"מעמדת אמון, אני חושב שחשוב מאוד לראות את צעדי ההנמקה", אמר הו. "במקרה זה, נתונים איכותיים הכוללים מקרים טיפוסיים וגם לא טיפוסיים עוזרים לבנות את האמון."

הו הדגיש כי בעוד ש- CHATGPT מבטיח, זה לא מכשיר רפואי מוסמך. לדבריו, אם ספקי שירותי הבריאות היו כוללים תמונות או נתונים אחרים במסגרת קלינית, מודל ה- AI יהיה מערכת קוד פתוח ומותקנת באשכול בית חולים כדי לעמוד בחוקי הפרטיות.

תורמים אחרים למחקר היו ג'ינג וואנג, עמית פוסט -דוקטורט, וקנת שו, מתנדב במעבדה ממחוז מונטגומרי, מרילנד, שניהם במחלקה למיקרוביולוגיה של בית הספר לרפואה, אימונולוגיה וביולוגיה תאים; כמו גם לי ליו, אוניברסיטת מדינת אריזונה. העבודה נתמכה במימון של המוסדות הלאומיים לבריאות ומדע לאומי.

HU אמר כי מחקר עתידי בנושא השימוש ב- CHATGPT במחלקות חירום יכול לבחון האם שיפור היכולות של AIS להסביר את הנמקתם עשוי לתרום לשלוש או להחלטות לגבי טיפול בחולים.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.