חוקרים חוקרים כיצד הערכות לימפוציטים חודרים לגידולים (TIL) מונעים על ידי בינה מלאכותית עולות על שיטות ידניות בדייקנות, אך מדגישים את הצורך במערך נתונים חזקים כדי להבטיח מהימנות בפרקטיקה הקלינית.
תרשים זרימה של ניתוח תמונה דיגיטלי לפיתוח וניצול מסווגים. (א) צינור הדרכה לעיבוד מקדים ומסווגים (KNN10, RT10, NN10, NN20, NN30, NN40 ו-NN50). (ב) יישום דגמי TILs. (ג) הערכה אנליטית של המסווגים בערכת האימות הפנימי של ייל. (ד) הערכה פרוגנוסטית במערך תיקוף עצמאי. שימו לב שה"מסווג המאומן" המיושם בתתי דמויות bd הוא זה שנוצר ב-a, בנוסף ל-HoverNet, CellViT ו-Abousamra's. מחקר: התוקף האנליטי והקליני של אלגוריתמי AI לציון TILs ב-TNBC: האם נוכל להשתמש במודלים שונים של למידת מכונה לסירוגין?
במחקר שפורסם לאחרונה בכתב העת eClinicalMedicineהשוו החוקרים את הביצועים הפרוגנוסטיים והאנליטיים של מודלים להערכת גידולים חודרים לימפוציטים (TIL) מבוססי בינה מלאכותית בסרטן שד משולש שלילי (TNBC).
בשנים האחרונות היו עדות להתפתחות חסרת תקדים של טיפולים חדשים לסרטן השד בשלב מוקדם. עם זאת, יש צורך דחוף ביישום שיטתי של ריבוד סיכון המבוסס על סמנים ביולוגיים כדי למנוע תת-טיפול או יתר טיפול ולבחור חולים שעשויים להפיק תועלת מטיפול נוסף.
יתר על כן, כמות הלימפוציטים החודרת לסטרומה הגידולית, כלומר, TILs סטרומה (sTILs), היא תכונה פרוגנוסטית של TNBC בשלב מוקדם. בעוד שפורסמו קווים מנחים לסטנדרטיזציה של הערכת sTIL, השתנות בין צופים היא בלתי נמנעת, וציון TIL מוגבל ביכולתו ללכוד את המורכבות של המיקרו-סביבה של הגידול (TME).
זה מדגיש את הצורך בגישות מתקדמות ואוטומטיות שיכולות לתת מענה לשונות ולספק תובנות מעמיקות יותר לגבי האינטראקציות הגידול-אימוניות. יתר על כן, הביצועים של מודלים של AI על פני פלטפורמות הדמיה ומערכי נתונים מגוונים נותרו שיקול קריטי לאימוץ קליני.
לגבי המחקר
במחקר הנוכחי, החוקרים השוו את היכולת הפרוגנוסטית והאנליטית של 10 מודלים של TIL מבוססי AI. שקופיות של רקמות שלמות (WTS) הושגו מ-106 נשים עם גידולי TNBC פולשניים ראשוניים בין השנים 2012 ו-2016. תשעים ושתיים שקופיות של 79 חולים שימשו לאימון ובדיקות פנימיות של מודלים. כמו כן, נעשה שימוש ב-WTS ובנתונים קליניים של 215 חולי TNBC (מקבוצה אחרת) לצורך אימות חיצוני.
אלגוריתמים אוטומטיים לניקוד TIL נבנו באמצעות פלטפורמת QuPath. מודלים משלוש משפחות, רשת עצבית (NN), K-nearest neighbor (KNN) ועצים אקראיים (RT), אומנו על תת-קבוצה של 10 תמונות. תרחישי הכשרה נוספים כללו הגדלת מספר דגימות המטופלים (20, 30 וכן הלאה). כל שיטה יוצגה כ"MN", כאשר M היה שם השיטה (למשל, KNN) ו-N היה מספר דגימות האימון.
כל תמונה כללה הערות ידניות לכ-450 תאים, עם לפחות 150 לימפוציטים ו-150 תאי גידול. התאים הנותרים היו סטרומה או תת-סוגים אחרים. חוקרים השתמשו באסטרטגיית "אדם בתוך הלולאה" לאימון מודלים, הכוללת הערות ידניות ובדיקות דיוק איטרטיביות כדי להשיג ביצועים מיטביים של המסווגים. שיטה זו הבטיחה שהמודלים שיקפו במדויק את ההטרוגניות של TILs.
בנוסף למודלים אלו, נכללו שלוש שיטות למידה עמוקה מתקדמות – CellViT, HoverNet והמודל של Abousamra – כדי לספק ניתוח השוואתי של טכניקות מתקדמות. ציוני TIL דיגיטלי חושבו באמצעות נוסחת ה-easTILs עבור כל הדגמים מלבד זה של Abousamra.
עבור המודל של Abousamra, האחוז של אזורי סרטן פולשניים החזויים ככתמי לימפוציטים שימש כניקוד TIL. המתאם בין ציוני sTIL ידניים של פתולוגים וציוני sTIL דיגיטלי נקבע באמצעות מקדם המתאם של Spearman.
רגרסיית Cox חד משתנית ורב משתנית העריכה את הערך הפרוגנוסטי של ציוני TIL מותאם לגיל, דרגה היסטולוגית, מצב צמתים וגודל הגידול. מודלים של HoverNet ו-CellViT אומנו מראש על מערך הנתונים של PanNuke, המקיף למעלה מ-200,000 גרעינים על פני 19 סוגי רקמות, מה שמאפשר למודלים אלו להשיג פילוח וסיווג של תאים עדינים.
ממצאים
הצוות פיתח שבעה דגמים (KNN10, NN10, RT10, NN20, NN30, NN40 ו-NN50). במערך האימות הפנימי, ל-RT10 ול-KNN10 הייתה התפלגות הרחבה ביותר של ציוני TIL, בעוד שלמודלים של NN היו התפלגויות דומות ועקביות. לעומת זאת, ל-CellViT ול-HoverNet היו את ההפצות המצומצמות ביותר, בעוד שהניקוד הידני והדגם של Abousamra היו עם ההפצות הרחבות ביותר. המתאם של ציוני sTIL דיגיטליים עם ציוני sTIL ידני השתנה בין הדגמים.
RT10 הראה את המתאם הטוב ביותר בין מודלים שהוכשרו על דגימות מוגבלות; KNN10 הראה מתאם מתון, ו-NN10 הראה מתאם מעט טוב יותר. הגדלת מספר הדגימות העלתה בהדרגה את המתאמים. CellViT ו-HoverNet הראו את המתאם השני הטוב ביותר. עם זאת, הופיעו פערים משמעותיים בין מערכי אימות פנימיים וחיצוניים, כאשר כל השיטות הראו ביצועים מופחתים בקבוצה החיצונית.
ההבדלים בפלטפורמות ההדמיה – מערכת Leica Aperio של ייל לעומת פלטפורמת NanoZoomer של SCAN-B – כנראה תרמו לאי-התאמות הללו. בקבוצת האימות החיצוני, התפלגות ציוני TIL היו הרבה יותר מצומצמת עבור כל השיטות; כל מקדמי המתאם ירדו בערכם.
למרות זאת, RT10 עדיין הציג את המתאם הטוב ביותר, בעוד ל-KNN10 היה המתאם הנמוך ביותר. יתרה מכך, הגדלת גודל המדגם לא שיפרה את המתאם, שלא כמו בקבוצה הפנימית. בנוסף, נבדקו קשרים של מודלים ותוצאות מטופלים בקבוצת האימות החיצוני, עם הישרדות פולשנית ללא מחלה (IDFS) כנקודת הסיום הקלינית.
IDFS הוגדר כזמן מאבחנה ועד מוות מכל סיבה או אירועים הקשורים לסרטן השד. בניתוח רגרסיה חד-משתני של Cox, כולם מלבד המודל של Abousamra הראו תוצאות משמעותיות והיו בעלי יחסי סיכונים דומים וחופפים.
הניתוח הרב-משתני הניב תוצאות דומות עבור כל המודלים, אם כי למודל של CellViT ושל Abousamra היו תוצאות גבוליות לא מובהקות. המחקר ציין כי ניקוד TIL מתמשך סיפק ניתוח פרוגנוסטי חזק יותר מאשר ציונים מבוססי סף, בהתחשב בשונות בהתפלגות בין שיטות.
מסקנות
לסיכום, החוקרים העריכו את היכולת הפרוגנוסטית והאנליטית של 10 מודלים של TIL מבוססי בינה מלאכותית כנגד IDFS. פותחו שבעה מודלים ושלושה היו מודלים מאומנים מראש.
לגבי ביצועים אנליטיים, מודלים של בינה מלאכותית השיגו מתאם בינוני עד טוב, גם כאשר הוכשרו על יותר דגימות, אם כי למודלים של ארכיטקטורה דומה (למשל, NN10-50) היה מתאם גבוה. עם זאת, המחקר מדגיש את הפער המתמשך בין ביצועים פנימיים לחיצונים, תוך שימת דגש על הצורך באימות חיצוני קפדני.
הביצועים שלהם ירדו בקבוצה החיצונית; הגדלת גודל מדגם האימון לא שיפרה את המתאם. עם זאת, הפוטנציאל הפרוגנוסטי של TILs דיגיטלי היה בולט עבור כמעט כל הדגמים, אפילו עבור מודלים עם דגמי אימונים קטנים יותר.
המחקר גם הדגיש כי לצורך אימוץ קליני, מודלים של AI חייבים להציע שקיפות והסבר, המאפשרים לקלינאים להבין ולסמוך על התחזיות. זה כולל את היכולת לסקור תאים מסווגים שגויים ישירות בפלט הפילוח.
בסך הכל, החוקרים מדגישים את החשיבות של מערכי נתונים גדולים, מגוונים ומרובים-מרכזיים, כדי לשמש אמות מידה לסטנדרטיזציה ואימות של מודלים של AI. מערכי נתונים אלה חיוניים כדי להבטיח תאימות קלינית ולחסל את הסיכונים הקשורים להטיות ספציפיות למודל.