מערכת AI תואמת את דיוק האבחון תוך קיצוץ בעלויות רפואיות

12:45
, 2 יולי 2025
, בריאות ורפואה

במחקר חדש, מערכת האבחון המופעלת על ידי AI של מיקרוסופט ביצעה ביצועים טובים יותר של רופאים מנוסים בפתרון המקרים הרפואיים המאתגרים ביותר מהר, זול יותר ומדויק יותר.

מחקר: אבחנה רציפה עם מודלים לשפה. קרדיט תמונה: Metamorworks/Shutterstock.com

*הודעה חשובה: Arxiv מפרסם דוחות מדעיים ראשוניים שאינם בודקים עמיתים, ולכן אין לראות בהם כמשקעים, מדריכים את התנהגות הקלינית/התנהגות הקשורה לבריאות, או לטפל בהן כמידע מבוסס.

מחקר שנערך לאחרונה על Arxiv שרת הדפסה מקדים השווה את דיוק האבחון והוצאות המשאבים של מערכות AI עם אלה של קלינאים ביחס למקרים מורכבים. צוות ה- AI של מיקרוסופט הדגים את השימוש היעיל בבינה מלאכותית (AI) ברפואה כדי להתמודד עם אתגרים אבחוניים שרופאים נאבקים לפענח.

אבחון רצף ומודלים בשפה

לעתים קרובות, רופאים מאבחנים חולים למחלה בתהליך נימוק קליני הכרוך בתשאול ובדיקה איטרטיבי שלב אחר שלב. אפילו עם מידע ראשוני מוגבל, הקלינאים מצמצמים את האבחנה האפשרית על ידי תשאול המטופל ואישור באמצעות בדיקות ביוכימיות, הדמיה, ביופסיה ונהלי אבחון אחרים.

פתרון מקרה מורכב דורש מערך מיומנויות רחב היקף, כולל קביעת השאלות או הבדיקות הבאות הבאות ביותר, הישארות מודעת לעלויות הבדיקה כדי למנוע הגדלת נטל המטופלים, והכרת ראיות לביצוע אבחנה בטוחה.

מחקרים מרובים הדגימו את היעילות המשופרת של מודלים בשפה (LMS) בביצוע בבחינות רישוי רפואי ובתוויות אבחון מובנות מאוד. עם זאת, הביצועים של מרבית ה- LMS הוערכו בתנאים מלאכותיים, השונים באופן דרסטי מהגדרות קליניות בעולם האמיתי.

מרבית דגמי ה- LMS להערכות אבחון מבוססים על חידון בחירה מרובה, והאבחנה נעשית ממערך תשובה מוגדר מראש. מחזור אבחון רצף מופחת מגדיל את הסיכון להפריז ביכולת המודל הסטטי של מדד הסטטי. יתר על כן, מודלים אבחוניים אלה מהווים את הסיכון לסדר בדיקות ללא הבחנה וסגירת אבחון מוקדמת. לפיכך, יש צורך דחוף במערכת AI המבוססת על מחזור אבחון רצף לשיפור דיוק האבחון ולהפחתת עלויות הבדיקה.

על המחקר

כדי להתגבר על החסרונות המודאגים לעיל של מודלים של LMS לאבחון קליני, מדענים פיתחו את מידת האבחנה ברצף (SDBENCH) כמסגרת אינטראקטיבית להערכת חומרי אבחון (אנוש או AI) באמצעות מפגשים קליניים רצופים מציאותיים.

כדי להעריך את דיוק האבחון, המחקר הנוכחי השתמש במקרים שבועיים שפורסמו בכתב העת New England Journal of Medicine (NEJM), כתב העת הרפואי המוביל בעולם. יומן זה מפרסם בדרך כלל רישומי מקרה של חולים מבית החולים הכללי של מסצ'וסטס במתכונת עלילתית מפורטת. מקרים אלה הם בין המאתגרים ביותר מבחינה אבחנתית ותובענית אינטלקטואלית ברפואה קלינית, ולעתים קרובות דורשים מומחים מרובים ובדיקות אבחון כדי לאשר אבחנה.

SDBENCH Recast 304 מקרים מהוועידה הקלינקופתולוגית NEJM 2017-2025 (CPC) למפגשים אבחוניים שלב. הנתונים הרפואיים משתרעים על מצגות קליניות לאבחנות סופיות, החל ממצבים שכיחים (למשל, דלקת ריאות) להפרעות נדירות (למשל, היפוגליקמיה בילודים). בעזרת הפלטפורמה האינטראקטיבית, חומרי אבחון מחליטים אילו שאלות לשאול, אילו בודקים להזמין ומתי לאשר אבחנה.

שומר סף מידע הוא מודל שפה שחשף באופן סלקטיבי פרטים קליניים מקובץ מקרה מקיף רק כאשר נשאל במפורש. זה יכול גם לספק מידע עקבי מקרה נוסף לבדיקות שלא תוארו בסיפור CPC המקורי. לאחר ביצוע האבחנה הסופית על סמך מידע שהתקבל משומר הסף, נבדק דיוק ההערכה הקלינית כנגד האבחנה האמיתית. בנוסף, הוערכה העלות המצטברת של כל בדיקות האבחון המבוקשות שנערכו באבחון בעולם האמיתי. על ידי הערכת דיוק אבחון ועלות, SDBENCH מציין עד כמה אנו קרובים לטיפול באיכות גבוהה בעלות בת-קיימא.

ממצאי לימוד

המחקר הנוכחי ניתח את הביצועים של כל סוכני האבחון ב- SDBENCH. סוכני AI הוערכו על כל 304 המקרים של NEJM, ואילו רופאים הוערכו בתת-קבוצה של 56 מקרים שנקבעו. מחקר זה ציין כי סוכני AI ביצעו טוב יותר בקבוצת משנה זו בהשוואה לרופאים.

רופאים המתאמנים בארצות הברית ובבריטניה עם חציון של 12 שנות ניסיון קליני השיגו 20% דיוק אבחוני בעלות ממוצעת של 2,963 דולר למקרה על SDBench, והדגישו את הקושי המובנה של המידה. רופאים בילו בממוצע 11.8 דקות למקרה, בבקשת 6.6 שאלות ו -7.2 בדיקות. GPT -4O ביצעו את הרופאים במונחים של דיוק אבחון ועלות כאחד. דגמי המדף הזמינים מסחרית הציעו דיוק ועלות אבחון מגוונים.

המחקר הנוכחי הציג גם את תזמורת האבחון של MAI (MAI-DXO), פלטפורמה מעוצבת יחד עם רופאים, שהציגה יעילות אבחנתית גבוהה יותר מאשר רופאים אנושיים ומודלים של שפה מסחרית. בהשוואה ל- LMS מסחרי, MAI-DXO הדגימה דיוק אבחוני גבוה יותר והפחתה משמעותית בעלויות הרפואיות של יותר ממחצית. לדוגמה, מודל ה- O3 מחוץ למדף השיג דיוק אבחוני של 78.6% תמורת 7,850 דולר, ואילו מאי-DXO השיגה דיוק של 79.9% במחיר של 2,397 דולר בלבד, או 85.5% במחיר של 7,184 דולר.

מאי-DXO השיג זאת על ידי הדמיה של פאנל וירטואלי של "סוכני רופאים" עם תפקידים שונים בייצור השערה, בחירות בדיקות, תודעה עלות ובדיקת שגיאות. בניגוד להנחיית AI של קו הבסיס, תזמור מובנה זה איפשר למערכת להסביר באופן איטרטיבי וביעילות.

Mai-DXO היא גישה מודל-אגנוסטית שהפגינה רווחי דיוק על פני מודלים שונים בשפה, ולא רק מודל קרן O3.

מסקנות והשקפות עתידיות

ממצאי המחקר הנוכחי מדגימים את הדיוק האבחוני הגבוה יותר של מערכות AI ואפקטיביות עלות כאשר מונחים לחשוב באופן איטרטיבי ופועל בשיקול דעת. SDBENCH ו- MAI-DXO סיפקו בסיס מבוסס אמפירי לקידום אבחנה בסיוע AI תחת אילוצים מציאותיים.

בעתיד, יש לאמת את Mai-DXO בסביבות קליניות, כאשר שכיחות המחלה והצגתם מתרחשות בתדירות גבוהה כמו מדי יום, ולא כאירוע נדיר. יתר על כן, יש צורך במדדים רפואיים אינטראקטיביים רחבי היקף הכוללים למעלה מ- 304 מקרים. שילוב של מצבים חזותיים ואחרים חושיים, כמו הדמיה, יכול גם לשפר את דיוק האבחון מבלי לפגוע ביעילות עלות.

עם זאת, המחברים מציינים מגבלות חשובות. מקרי CPC של NEJM נבחרים לקושי שלהם ואינם משקפים מצגות קליניות יומיומיות. המחקר לא כלל חולים בריאים ולא מדד שיעורים חיוביים כוזבים. יתר על כן, אומדני עלות אבחון מבוססים על התמחור של ארה"ב ועשויות להשתנות ברחבי העולם.

הדגמים נבדקו גם במערכת מבחן המוחזקת של מקרים אחרונים (2024-2025) כדי להעריך הכללה ולהימנע מהתאמת יתר, מכיוון שרבים מהמקרים הללו פורסמו לאחר ניתוק האימונים ברוב הדגמים.

העיתון מעלה גם שאלה רחבה יותר: האם עלינו להשוות מערכות AI לרופאים בודדים או לצוותים רפואיים מלאים? מכיוון שמאי-DXO מחקה שיתוף פעולה רב-מומחיות, ההשוואה עשויה לשקף משהו קרוב יותר לטיפול מבוסס צוות מאשר לתרגול אינדיבידואלי.

עם זאת, המחקר מציע כי מערכות AI מובנות כמו MAI-DXO עשויות ליום אחד לתמוך או להגדיל קלינאים, במיוחד במסגרות בהן הגישה המומחית מוגבלת או יקרה.

הורד את עותק ה- PDF שלך עכשיו!

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.