במחקר שפורסם לאחרונה בכתב העת npj Precision Oncologyחוקרים ערכו סקירה שיטתית לבחינת הדיוק של למידה עמוקה (DL) באבחון סרטן השד באמצעות אולטרסאונד (US) בהשוואה לקוראים אנושיים במסגרות קליניות.
הם מצאו שאין מספיק ראיות כדי לקבוע אם DL מתפקד טוב יותר מקוראים אנושיים או מגביר את הדיוק של US שד אבחנתי במסגרות קליניות.
לימוד: ביצועים אבחוניים של למידה עמוקה באבחון אולטרסאונד של סרטן השד: סקירה שיטתית. קרדיט תמונה: Gorodenkoff/Shutterstock.com
רקע כללי
סרטן השד, הסרטן השכיח ביותר בעולם, גרם ל-685,000 מקרי מוות בשנת 2020. אבחון מוקדם ומדויק הוא חיוני.
ארה"ב משמשת ככלי אבחון זול, נטול קרינה ויעיל, במיוחד במקרים עם רקמות שד צפופות או נגעים סמויים, ומציעה הדרכה להליכי ביופסיה. עם זאת, יעילות האבחון ושחזור שלה מופרעות על ידי גורמים התלויים במפעיל.
DL היא טכנולוגיית בינה מלאכותית רבת עוצמה שהוכחה כי היא מתפקדת היטב במשימות הקשורות לתמונה, ומשפרת את היעילות והדיוק של זרימות עבודה של הדמיה רפואית, במיוחד באבחון מחלות כגון סרטן.
דיווחים אחרונים מצביעים על כך שניתוח מבוסס DL של US שד עשוי להיות שווה ערך או לעלות על רדיולוגים אנושיים, אך היישום הקליני שלו עדיין שנוי במחלוקת.
לכן, החוקרים בסקירה הנוכחית התמקדו בביצועים האבחוניים הכלליים של DL ב-US שד, השוו מערכות DL עצמאיות לרדיולוגים והעריכו את התפקיד המסייע של DL לצד קוראים אנושיים.
לגבי המחקר
במחקר הנוכחי, חיפוש במסד הנתונים ולאחריו יישום קריטריוני הכללה והדרה מחמירים הניב בסופו של דבר 16 מחקרים שכללו 9,238 נשים ממדינות שונות.
מחקרים אלו נבחרו על סמך מסגרת PICO (קיצור של אוכלוסייה, התערבות, השוואה, תוצאה) והשתמשו ברשתות עצביות קונבולוציוניות של DL, כאשר 14 מהן משתמשות במערכות DL מסחריות.
רוב המחקרים שנכללו היו במסגרת אבחון, והפתולוגיה שימשה כסטנדרט הזהב בכולם. איכות המחקר הוערכה באמצעות גרסאות מותאמות של כלי איכות להערכה של מחקרים אבחונים-2 (QUADAS-2) ו-QUADAS-C.
DL יכול לשמש ככלי עצמאי או עשוי לשמש כדי לסייע לרדיולוגים במטרה לשפר את יכולות האבחון.
ארבעה מחקרים העריכו את DL כעצמאי, שניים כמסייעים, ועשרה בחנו את שני התפקידים. קוראים אנושיים עם רמות ניסיון קליני שונות באולטרסאונד שד גויסו להערכת ביצועי DL.
תוצאות ודיון
ב-14 מחקרים שהעריכו DL כמערכת עצמאית בשד-ארה"ב, נערכו השוואות עם קוראים אנושיים. בעוד מחקר אחד מצא של-DL היה אזור נמוך יותר מתחת לעקומה (AUC) בהשוואה לקוראים אנושיים, שניים הראו AUC שווה ערך, ואחד דיווח על AUC גבוה יותר עבור DL.
DL הראה AUC גדול יותר על פני קוראים אנושיים פחות מנוסים, אך היה דומה לקוראים מנוסים בשלושה מחקרים. בנוגע לדיוק, DL עלה על כל הקוראים האנושיים בשני מחקרים וגברה על הקוראים הפחות מנוסים, אך נמצא דומה לקוראים המנוסים במחקר אחר.
DL הראה רגישות נמוכה יותר מאשר קוראים אנושיים בחמישה מחקרים וספציפיות גבוהה יותר בחמישה מחקרים, עם תוצאות מגוונות במחקרים הנותרים.
ב-12 מחקרים שהעריכו מערכות DL מסייעות בשד בארה"ב, שלושה דיווחו על שיפור ב-AUC בשילוב עם קוראים אנושיים. מחקר אחד הראה ש-AUC דומה לקוראים אנושיים. עבור קוראים אנושיים פחות מנוסים, למערכות DL מסייעות היה AUC גבוה יותר אך לא הייתה השפעה חיובית על קוראים מנוסים.
במהלך בדיקות הדיוק, מערכות DL מסייעות הראו דיוק גבוה יותר מאשר קוראים אנושיים בשלושה מחקרים. עם זאת, לא נצפה שיפור ברגישות הכוללת בשילוב DL עם קוראים אנושיים.
סגוליות מוגברת נראתה אצל קוראים אנושיים בשבעה מחקרים המשתמשים במערכות DL מסייעות, עם שינויים בהשפעה על הספציפיות עבור קוראים מנוסים ופחות מנוסים.
במהלך הערכת האיכות, המחקרים שנכללו בסקירה הנוכחית הראו סיכון גבוה להטיה בתחומים שונים. רוב המחקרים הראו הטיה גבוהה בבחירת חולים עקב שכיחות הסרטן העולה באופן משמעותי על תרחישים בעולם האמיתי.
בנוסף, עיצובי המחקר לא שיכפלו באופן מלא מסלולים קליניים, שכן מערכות DL שימשו לקריאת תמונות אך לא שולבו בהחלטות קליניות סופיות. לנתיבי הבדיקה של קוראים אנושיים לא הייתה גישה למידע קליני של המטופל, ותקני ההתייחסות השתנו בין המחקרים.
יש לציין כי לחלק מהמחקרים היה זמן מעקב קצר עבור נשים עם בדיקות שליליות, מה שעלול להשפיע על הערכת סרטן החמצה ועל דיוק האבחון הכולל.
סיכום
לסיכום, סקירה מקיפה זו שהעריכה את ביצועי האבחון של מערכות DL בשד בארה"ב גילתה שונות מהותית בתוצאות.
בעוד שמערכות DL הוכיחו יתרונות ספציפיים פוטנציאליים, לא נוצרה הסכמה לגבי AUC, דיוק או רגישות, בין אם נעשה בהן שימוש עצמאי או כעזרי קורא אנושיים.
הועלו דאגות לגבי הטיות, הטרוגניות המחקר ומגבלות בהכללה, במיוחד במחקרים ממוקדי אסיה. הסקירה מדגישה את הצורך בהנחיות מחקר DL סטנדרטיות, אמות מידה עקביות וניסויים רב-מרכזיים כדי להבטיח שחזור וישימות קלינית.
העדויות הנוכחיות אינן תומכות בהמלצות קליניות רחבות למערכות DL בשד-ארה"ב, הדורשות מחקר ופיתוח נוסף בתחום.