Search
Review: Randomised controlled trials evaluating artificial intelligence in clinical practice: a scoping review. Image Credit: Kundra / Shutterstock

AI בתחום הבריאות מראה הבטחה בניסויים אך זקוק לבדיקות בעולם האמיתי כדי להבטיח יעילות

במחקר שפורסם לאחרונה בכתב העת ה-Lancet Digital Health, מדענים בארצות הברית העריכו את היעילות והאתגרים של בינה מלאכותית (AI) בפרקטיקה הקלינית על ידי ניתוח ניסויים מבוקרים אקראיים, תוך שימת דגש על הצורך בגישות מחקר מגוונות ומקיפות יותר.

סקירה: ניסויים מבוקרים אקראיים המעריכים בינה מלאכותית בפרקטיקה קלינית: סקירת היקף. קרדיט תמונה: קונדרה / Shutterstock

רקע כללי

תפקידה של בינה מלאכותית בתחום הבריאות התרחב משמעותית בחמש השנים האחרונות, והראה פוטנציאל להתאים או לעלות על ביצועי קלינאי בתחומים שונים. עם זאת, רוב דגמי הבינה המלאכותית עברו בדיקות רטרוספקטיביות ולא בעולם האמיתי. מתוך כמעט 300 מכשירים רפואיים התומכים בבינה מלאכותית שאושרו על ידי מינהל המזון והתרופות של ארצות הברית (ארה"ב), רק מעטים הוערכו באמצעות מחקרים אקראיים מבוקרים פרוספקטיביים (RCTs). הפער הזה בבדיקות בעולם האמיתי מדגיש את החששות לגבי המהימנות והיעילות של בינה מלאכותית, עם בעיות כמו עייפות התראה מחיזוי בינה מלאכותית שגויה, כפי שהוכח על ידי מודל אלח דם. דרוש מחקר נוסף כדי לאמת את היעילות של AI בעולם האמיתי, לטפל בהטיות ולהבטיח שילוב בטוח, שוויוני ואפקטיבי שלה בפרקטיקה הקלינית.

לגבי המחקר

מה-1 בינואר 2018 ועד ה-14 בנובמבר 2023, נערך חיפוש שיטתי בבסיסי נתונים כגון SCOPUS, PubMed, CENTRAL ו-International Clinical Trials Registry Platform, שמטרתו את עליית הבינה המלאכותית המודרנית בניסויים קליניים. מונחי החיפוש כללו "בינה מלאכותית", "קליניקה" ו"ניסוי קליני", כאשר מחקרים נוספים זוהו באמצעות סקירה ידנית של הפניות רלוונטיות לפרסומים.

קריטריוני ההכללה היו ספציפיים ל-RCTs המשתמשים ברכיבי AI משמעותיים, המוגדרים כמודלים חישוביים לא ליניאריים כמו עצי החלטה או רשתות עצביות, שחייבים להשתלב בפרקטיקה הקלינית ולהשפיע על ניהול המטופלים. ההחרגות כללו מחקרים המשתמשים במודלים ליניאריים, מחקרים משניים, תקצירים והתערבויות לא משולבות. מתודולוגיה זו עוקבת אחר פריטי דיווח מועדפים עבור ביקורות שיטתיות ומטה-ניתוחים (PRISMA) עבור סקירת היקף והיא רשומה ב-International Prospective Register of Systematic Reviews (PROSPERO).

הפרסומים הוקרנו תחילה באמצעות תוכנת Covidence Review, תוך התמקדות בכותרות ותקצירים. שני חוקרים עצמאיים ביצעו את ההקרנה, עם סקירות בטקסט מלא לאחר מכן. חילוץ הנתונים הושלם ב-Google Sheets על ידי חוקר אחד ואומת על ידי אחר, כאשר כל חילוקי דעות נפתרו על ידי שלישי. נאסף מידע על מיקום המחקר, מאפייני המשתתפים, משימות קליניות, נקודות קצה ראשוניות, יעילות זמן, משווים, תוצאות, סוג AI ומקור. מחקרים סווגו לפי קבוצת נקודת קצה ראשונית, תחום קליני או התמחות, ואופן נתוני בינה מלאכותית.

לא נוצר קשר עם מחברי המחקר למידע נוסף, ובשל האופי המגוון של המשימות ונקודות הקצה בין המחקרים, לא בוצעו מטא-אנליזות. במקום זאת, נעשה שימוש בסטטיסטיקה תיאורית כדי לספק סקירה כללית של המאפיינים של הניסויים הכלולים בסקירה זו.

תוצאות המחקר

לאחר מניעת כפילויות, החיפוש האלקטרוני אחר סקירת ההיקף הניב 10,484 רשומות ייחודיות החל מ-1 בינואר 2018 ועד 14 בנובמבר 2023. תהליך זה כלל שליפת 6,219 רשומות מחקר ו-4,299 רישומי ניסוי. ההקרנה הראשונית של כותרות ותקצירים צמצמה את המבחר ל-133 מאמרים שהועברו לסקירה בטקסט מלא. אי הכללות עוקבות הותירו 73 מחקרים, בתוספת 13 מאמרים נוספים שזוהו באמצעות סקר התייחסות משני, בסך הכל 86 RCTs ייחודיים להכללה.

מתוך 86 RCTs אלו, חלק ניכר (43%) התמקד בגסטרואנטרולוגיה, ואחריו רדיולוגיה (13%), כירורגיה (6%) וקרדיולוגיה (6%). ניסויי גסטרואנטרולוגיה השתמשו בעיקר באלגוריתמי למידה עמוקה מבוססי וידאו כדי לסייע לרופאים, בעיקר להעריך תפוקה אבחנתית או ביצועים. רוב הניסויים בגסטרואנטרולוגיה התרכזו בקרב ארבע קבוצות מחקר, והדגישו חוסר גיוון בהתנהלות הניסוי. מבחינה גיאוגרפית, 92% מהניסויים נערכו בתוך מדינות בודדות, כאשר ארה"ב וסין מובילות במספר הניסויים אך מתמקדות בהתמחויות שונות.

הניסויים כללו בדרך כלל מרכזים בודדים ובחציון של 359 משתתפים. דמוגרפיה של משתתפים כמו גיל ומין דווחה באופן עקבי, אך גזע או מוצא אתני נכללו בתדירות נמוכה יותר.

יעילות אבחון הייתה נקודת הסיום העיקרית השכיחה ביותר, ואחריה מדדים הקשורים לניהול טיפול, התנהגות ותסמינים של המטופלים וקבלת החלטות קלינית. יש לציין, התערבויות בינה מלאכותית במינון אינסולין וניטור יתר לחץ דם הדגימו שיפורים בניהול קליני על ידי אופטימיזציה של זמן בטווחי היעד. יישומי AI אחרים השפיעו באופן חיובי על התנהגות המטופל, כפי שניתן לראות בניסויים שהגבירו את ההיענות להמלצות הפניה באמצעות תחזיות מיידיות שנוצרו על ידי AI.

רוב הניסויים העריכו מערכות למידה עמוקה להדמיה רפואית, במיוחד מערכות מבוססות וידאו המשמשות באנדוסקופיה. השימוש בבינה מלאכותית השתנה בין סוגי נתונים שונים, כולל נתונים מובנים מרשומות בריאות אלקטרוניות ונתוני צורות גל. מבחינת פיתוח, רוב דגמי הבינה המלאכותית מקורם בתעשייה, כאשר גם האקדמיה משחקת תפקיד משמעותי.

ניתוחי תוצאות גילו שחלק ניכר מהניסויים השיגו שיפורים משמעותיים בנקודות הקצה העיקריות שלהם כאשר נעשה שימוש בבינה מלאכותית כדי לסייע לרופאים או בהשוואה לטיפול שגרתי. עם זאת, קבוצה קטנה של ניסויים השתמשה בעיצובי אי-נחיתות כדי להדגים שמערכות בינה מלאכותית יכולות להתאים לביצועים של רופאים ללא סיוע או טיפול שגרתי.

מדידות הזמן התפעוליות השתנו בין ניסויים, כאשר חלקן דיווחו על הפחתות משמעותיות בעוד שאחרות ראו עליות או ללא שינוי. גסטרואנטרולוגיה הייתה המומחיות הנחקרת ביותר במונחים של השפעות זמן תפעוליות, עם תוצאות מעורבות לגבי ההשפעה של AI על היעילות התפעולית.

דילוג לתוכן