במחקר שפורסם לאחרונה ב-The Lancet Digital Health, החוקרים בחנו את מצבם של ניסויים מבוקרים אקראיים (RCTs) עבור אלגוריתמים של בינה מלאכותית (AI) בתרגול קליני.
לימוד: מחקרים אקראיים מבוקרים המעריכים בינה מלאכותית בפרקטיקה קלינית: סקירת היקף. קרדיט תמונה: metamorworks/Shutterstock.com
רקע כללי
השימוש בבינה מלאכותית בתחום הבריאות עלה להפליא בחמש השנים האחרונות, כאשר כמה מחקרים הצביעו על כך שמודלים של בינה מלאכותית יכולים לבצע ביצועים דומים או אפילו טובים יותר מרופאים. מודלים רבים הוערכו בדיעבד ולא בהגדרות של העולם האמיתי.
מתוך כ-300 מכשירים רפואיים המאפשרים בינה מלאכותית, חלקם הוערכו ב-RCT עתידיים. מחסור זה תורם לאי ודאות לגבי אפשרות הסיכון לרופאים ולמטופלים. יתר על כן, מערכות בינה מלאכותית יכולות לבצע ביצועים גרועים כאשר הן נפרסות באופן פרוספקטיבי.
לגבי המחקר
במחקר הנוכחי, חוקרים ניתחו את המצב הנוכחי של AI בתרגול קליני. הם חיפשו מחקרים רלוונטיים ב-International Clinical Trials Registry ובמאגרי המידע של PubMed, CENTRAL ו-SCOPUS בין ה-1 בינואר 2018 ל-14 בנובמבר 2023. הפניות ממחקרים נבדקו גם כדי לזהות מאמרים נוספים.
RCTs שיישמו רכיב AI משמעותי כהתערבות בפרקטיקה הקלינית היו כשירים להכללה. ההתערבות כללה מודלים חישוביים לא ליניאריים, כלומר רשתות עצביות, עצי החלטה וכו'.
לא נכללו מחקרים משניים, מחקרים העריכו ציוני סיכון ליניאריים (רגרסיה לוגיסטית), ואלה שלא שילבו את ההתערבות בפרקטיקה הקלינית. תקצירים/כותרות הוקרנו, וטקסטים מלאים נבדקו.
חולצו נתונים רלוונטיים ממחקרים מתאימים. אלה כללו מאפיינים של משתתפים, נקודת קצה ראשונית, משימות קליניות, נקודת קצה של יעילות זמן, מיקום המחקר, המשווה, סוג/מקור AI ותוצאות.
המחקרים היו מרובדים לפי קבוצת נקודת הקצה העיקרית, ההתמחות הקלינית ושיטת הנתונים של AI. מטא-אנליזות לא בוצעו עקב ההטרוגניות בנקודות הקצה ובמשימות. במקום זאת, הוצגה סקירה כללית של תכונות הניסיון.
ממצאים
החוקרים זיהו 6,219 מחקרים ו-4,299 רישומי ניסוי. לאחר הקרנת כותרת/תקציר, נסקרו טקסטים מלאים של 133 מחקרים, שלא כללו 60 מאמרים.
בדיקת התייחסות זיהתה 13 מחקרים. בסך הכל, נכללו 86 RCTs ייחודיים; 43%, 13%, 6% ו-5% מהניסויים היו קשורים לגסטרואנטרולוגיה, רדיולוגיה, כירורגיה וקרדיולוגיה, בהתאמה.
RCTs Gastroenterology היו בולטים באחידות, שכן כל הניסויים בדקו אלגוריתמים מבוססי וידאו שסייעו לרופאים. יתרה מכך, רק ארבע קבוצות (Fujifilm, Medtronic, Wuhan University ו- Wision AI) ערכו את רוב הניסויים (65%) בגסטרואנטרולוגיה.
בנוסף, 92% מה-RCT היו ניסויים במדינה אחת שבוצעו בעיקר בארצות הברית או בסין; לעומת זאת, שישה מתוך שבעת הניסויים הרב-מדינות נערכו במדינות אירופה.
הגיל החציוני של המשתתפים היה 57.3; 48.9% מהנבדקים היו גברים. עשרים ושניים RCT דיווחו על גזע/אתניות; השיעור החציוני של המשתתפים הלבנים היה 70.5%.
נקודות הסיום העיקריות ב-46 ניסויים היו קשורות לביצועי אבחון או לתפוקה, כגון שגיאה אבסולוטית ממוצעת ושיעור זיהוי. 18 ניסויים בדקו את ההשפעות של AI על ניהול הטיפול. 15 אלגוריתמי AI העריכו את הסימפטומים וההתנהגות של המטופל.
שבעה RCTs בחנו AI בקבלת החלטות קלינית. 59 ניסויים העריכו מודלים של למידה עמוקה להדמיה רפואית, בעיקר מבוססי וידאו ולא מבוססי תמונה. אחרים הסתמכו על נתונים מובנים, כלומר, רשומות בריאות, טקסט חופשי ונתוני צורות גל.
רוב מערכות הבינה המלאכותית הקשורות להדמיה יושמו במערך מסייע, ואילו אלו המבוססות על נתונים מובנים הושוו לטיפול שגרתי.
רוב המודלים (55%) פותחו בתעשייה, ואחריהם האקדמיה (41%). 80 ניסויים נועדו להראות שיפור, 80% מהם דיווחו על שיפורים משמעותיים בנקודת הסיום העיקרית שלהם.
באופן ספציפי, 46 ניסויים הבחינו בשיפורים עבור קלינאים שנעזרו במערכות AI בהשוואה לרופאים ללא סיוע. יש לציין כי שלושה RCTs מצאו שמערכות AI עצמאיות פעלו טוב יותר מאשר רופאים. חמישה ניסויים יישמו עיצובי אי-נחיתות.
שני ניסויים בחנו אי-נחיתות בין קלינאים בסיוע ללא סיוע, ושלושה העריכו זאת בין קלינאים לבין מערכות AI עצמאיות.
בסך הכל, 70 ניסויים דיווחו על תוצאות חיוביות עבור נקודת הסיום העיקרית שלהם. לשישה עשר RCTs היו תוצאות שליליות, כלומר, הם לא מצאו שיפורים של רופאים מסייעים ביחס לרופאים ללא סיוע, מערכות בינה מלאכותית בהשוואה לטיפול שגרתי ומודלים עצמאיים של בינה מלאכותית בהשוואה לרופאים.
מסקנות
יחד, הממצאים חושפים עניין הולך וגובר בתועלת של AI על פני התמחויות קליניות ואזורים.
לרוב הניסויים היו תוצאות חיוביות, שהדגישו את הפוטנציאל של מערכות בינה מלאכותית בשיפור קבלת החלטות קליניות, תסמינים והתנהגות של מטופלים וניהול טיפול.
יש לציין שהצלחת הבינה המלאכותית תלויה בסופו של דבר ביכולת ההכללה שלה למיקוד אוכלוסיות והגדרות. המשך מחקר חיוני כדי להעמיק את ההבנה של ההשפעות והמגבלות האמיתיות של AI.