האם AI באמת יכול לחולל מהפכה בתחום הבריאות? סקירה שיטתית חושפת את הפערים הנסתרים ביתרונות המטופלים ואת החסימות לאינטגרציה קלינית משמעותית.
מחקר: יתרונות ונזקים הקשורים לשימוש במערכות קבלת החלטות אלגוריתמיות הקשורות לבינה מלאכותית על ידי אנשי מקצוע בתחום הבריאות: סקירה שיטתית. קרדיט תמונה: אנטוניו מרקה / Shutterstock
במחקר שפורסם לאחרונה ב The Lancet Regional Health — אירופהקבוצת חוקרים העריכה את היתרונות והנזקים של מערכות קבלת החלטות אלגוריתמיות (ADM) הקשורות לבינה מלאכותית המשמשות אנשי מקצוע בתחום הבריאות בהשוואה לטיפול סטנדרטי, תוך התמקדות בתוצאות הרלוונטיות למטופל.
רֶקַע
ההתקדמות בבינה מלאכותית אפשרה למערכות להתעלות על מומחים רפואיים במשימות כמו אבחון, רפואה מותאמת אישית, ניטור חולים ופיתוח תרופות. למרות ההתקדמות הללו, עדיין לא ברור אם דיוק האבחון והביצועים המשופרים מתורגמים ליתרונות מוחשיים של המטופל, כגון מופחתת תמותה או תחלואה.
מחקרים נוכחיים מעניקים לעתים קרובות עדיפות לביצועים אנליטיים על פני תוצאות קליניות, ומכשירים רפואיים רבים המבוססים על בינה מלאכותית מאושרים ללא ראיות מתאימות ממחקרים אקראיים מבוקרים (RCTs).
יתרה מכך, היעדר שקיפות והערכות סטנדרטיות של נזקים הקשורים לטכנולוגיות אלו מעוררים חששות אתיים ומעשיים. זה מדגיש פער קריטי במחקר ופיתוח בינה מלאכותית, המחייב את הצורך בהערכות נוספות המתמקדות בתוצאות הרלוונטיות למטופל כדי להבטיח השתלבות משמעותית ובטוחה בשירותי הבריאות.
על המחקר
סקירה שיטתית זו פעלה בהתאם להנחיות הדיווח המועדפות עבור ביקורות שיטתיות ומטה-ניתוחים (PRISMA) כדי להבטיח קפדנות מתודולוגית. חיפושים נערכו במערכת הניתוח והשליפה של ספרות רפואית מקוונת (MEDLINE), מסד הנתונים של Excerpta Medica (EMBASE), MEDLINE הציבורי/מוציא לאור (PubMed), והמכון למהנדסי חשמל ואלקטרוניקה (IEEE) Xplore, המכסים תקופה של 10 שנים למעלה עד 27 במרץ 2024, כאשר מערכות ADM הקשורות לבינה מלאכותית הפכו לרלוונטיות במחקרי בריאות. החיפוש כלל מונחים הקשורים לבינה מלאכותית, למידת מכונה (ML), אלגוריתמים לקבלת החלטות, אנשי מקצוע בתחום הבריאות ותוצאות מטופלים.
מחקרים מתאימים כללו עיצובים התערבותיים או תצפיתיים הכוללים מערכות תומכות החלטות בינה מלאכותית שפותחו עם ML או באמצעותם. מחקרים היו צריכים לדווח על תוצאות רלוונטיות למטופל, כגון תמותה, תחלואה, משך שהייה בבית החולים, אשפוז חוזר או איכות חיים הקשורה לבריאות. קריטריוני ההדרה כללו מחקרים ללא רישום מראש, חסרי בקרת טיפול סטנדרטית, או התמקדות ברובוטיקה או במערכות אחרות שאינן קשורות לקבלת החלטות מבוססות בינה מלאכותית. הפרוטוקול לסקירה זו נרשם מראש ב-International Prospective Register of Systematic Reviews (PROSPERO), עם כל תיקונים מתועדים.
סוקרים סיננו כותרות, תקצירים וטקסטים מלאים תוך שימוש בקריטריונים מוגדרים מראש. חילוץ הנתונים והערכת האיכות נערכו באופן עצמאי באמצעות טפסים סטנדרטיים. הסיכון להטיה הוערך עם הכלי Risk of Bias 2 (RoB 2) של Cochrane והכלי Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) כדי לטפל בגורמים מבלבלים פוטנציאליים, בעוד שקיפות הדיווח הוערכה באמצעות הסטנדרטים המאוחדים של ניסויי דיווח – הרחבה של בינה מלאכותית (CONSORT-AI) ודיווח שקוף של מודל חיזוי רב-משתני לפרוגנוזה או אבחון אינדיבידואלי – מסגרת של בינה מלאכותית (TRIPOD-AI).
הנתונים שחולצו כללו הגדרות מחקר, עיצוב, התערבות ופרטי השוואה, דמוגרפיה של מטופלים ומקצועיים, מאפייני אלגוריתם ומדדי תוצאה. המחקרים סווגו גם לפי סוג מערכת AI, אזור קליני, יעדי חיזוי ומידע רגולטורי ומימון. הניתוח בדק גם האם התרומות הייחודיות של מערכות AI לתוצאות בודדו ואומתו.
תוצאות המחקר
הסקירה השיטתית כללה 19 מחקרים, הכוללים 18 RCTs ומחקר עוקבה פרוספקטיבי אחד, שנבחר לאחר בדיקת 3,000 רשומות. מחקרים אלה נערכו באזורים שונים, כאשר תשעה בארצות הברית, ארבעה באירופה, שלושה בסין ואחרים הופצו ברחבי העולם. ההגדרות כללו 14 מחקרים בבית חולים, שלושה במרפאות חוץ, אחד בבית אבות ואחד בסביבה מעורבת.
הלימודים כיסו מגוון התמחויות רפואיות, לרבות אונקולוגיה (4 לימודים), פסיכיאטריה (3 לימודים), רפואה פנימית בבתי חולים, נוירולוגיה והרדמה (2 לימודים כל אחד), ולימודים בודדים בסוכרת, ריאות, טיפול נמרץ והתמחויות נוספות .
המספר החציוני של משתתפים במחקרים היה 243, עם גיל חציוני של 59.3 שנים. ייצוג הנשים היה ממוצע של 50.5%, והרכב גזעי או אתני דווח ב-10 מחקרים, עם חציון של 71.4% מהמשתתפים לבנים. 12 מחקרים תיארו את המשתמשים המקצועיים הרפואיים המיועדים, כגון אחיות מחייבות או מטפלים ראשוניים, ותשעה פרוטוקולי הדרכה מפורטים, החל מהיכרות קצרה עם פלטפורמה ועד לפגישות בפיקוח מרובות ימים.
מערכות בינה מלאכותית מגוונות בסוג ובתפקוד, עם שבעה מחקרים המשתמשים במערכות מעקב לניטור בזמן אמת ולהתראות חזוי, שישה משתמשים במערכות התאמה אישית של טיפול, וארבעה משלבים פונקציות מרובות. דוגמאות כללו אלגוריתמים לבקרה גליקמית בסוכרת, טיפול פסיכיאטרי מותאם אישית וניטור תרומבואמבוליזם ורידי. מקורות נתוני הפיתוח נעו בין מערכי נתונים פנימיים גדולים לנתונים רב-מוסדיים מאוחדים, עם שימוש במודלים מגוונים של ML, כגון הגברת גרדיאנט, רשתות עצביות, מסווגים בייסיאניים ומודלים מבוססי רגרסיה. למרות התפתחויות אלו, אימות חיצוני של אלגוריתמים היה מוגבל ברוב המחקרים, מה שהעלה חששות לגבי יכולת ההכללה שלהם לאוכלוסיות מטופלים רחבות יותר.
הסיכון להטיה הוערך כנמוך בארבעה RCTs, בינוני בשבעה וגבוה בשבעה נוספים, בעוד שמחקר העוקבה הראה סיכון רציני להטיה. התאימות להנחיות CONSORT-AI ו-TRIPOD-AI הייתה משתנה, כאשר שלושה מחקרים השיגו עמידה מלאה, בעוד שאחרים נעו בין תאימות גבוהה לנמוכה. רוב המחקרים שנערכו לפני הצגת ההנחיות הללו הראו דבקות מתונה, אם כי התייחסויות מפורשות להנחיות היו נדירות.
התוצאות הדגישו שילוב של יתרונות ונזקים. 12 מחקרים דיווחו על יתרונות רלוונטיים למטופל, כולל הפחתת תמותה, שיפור בדיכאון וניהול כאב ושיפור איכות החיים. עם זאת, רק שמונה מחקרים כללו הערכות נזק סטנדרטיות, ורובם לא הצליחו לתעד תופעות לוואי באופן מקיף. למרות שש מערכות בינה מלאכותית שקיבלו אישורים רגולטוריים, הקשר בין מצב רגולטורי, איכות המחקר ותוצאות המטופלים נותרו בלתי חד משמעיים.
מסקנות
סקירה שיטתית זו מדגישה את המחסור במחקרים באיכות גבוהה המעריכים את התוצאות הרלוונטיות למטופל של מערכות ADM הקשורות לבינה מלאכותית בתחום הבריאות. בעוד שהפסיכיאטריה הראתה יתרונות באופן עקבי, תחומים אחרים הניבו תוצאות מעורבות, עם עדויות מוגבלות על תמותה, חרדה ושיפורים באשפוז. לרוב המחקרים לא היו הערכות נזק-תועלת מאוזנות ולא הצליחו לבודד את התרומות הייחודיות של AI.
הממצאים מדגישים את הצורך הדחוף בדיווח שקוף, שיטות אימות חזקות ומסגרות סטנדרטיות כדי להנחות את האינטגרציה הבטוחה והיעילה של AI במסגרות קליניות.