Search
Study: Predicting preterm birth using machine learning methods. Image Credit: StockKK / Shutterstock

AI מנבא סיכון לידה מוקדם עם דיוק 82%

האם AI יכול לחזות לידות מוקדמות לפני שמתעוררים תסמינים? מחקר חדש מגלה שמודלים של למידת מכונות, ובמיוחד SVMs, יכולים להעריך סיכון ברמת דיוק מרשימה – להפסיק את התקווה להתערבויות קודמות ותוצאות טובות יותר בילודים.

מחקר: חיזוי לידה מוקדמת בשיטות למידת מכונות. קרדיט תמונה: Stockkk / Shutterstock

במחקר שנערך לאחרונה בכתב העת דוחות מדעייםהחוקרים העריכו את הדיוק, הדיוק והציון F1 של מספר מודלים של למידת מכונות (ML) בחיזוי הסבירות ללידות מוקדמות אצל 50 נשים בהריון. למרות מספר ניסיונות לפתח את הגורמים הבסיסיים ללידה מוקדמת, האופי הרב -גוני של המצב הפך את זיהוי רמז ביולוגי ללידות מוקדמות עד כה לבלתי אפשריות.

בהתחשב במעמדו כדאגה בריאותית משמעותית והמתאם החזק שלו לתוצאות שליליות של ילודים (תמותה ותחלואה), מחקר זה נועד להשתמש במודלים של ML כדי לחזות סיכון מוקדם, ובכך לאפשר התערבויות בזמן בקרב נשים בסיכון גבוה. ממצאי המחקר זיהו מכונות וקטוריות תמיכה לינארית (SVMS), במיוחד אלה עם היפר-פרמטרים אופטימליים, כביצועים הטובים ביותר (דיוק = 82%) מתוך כמה (n = 5) שנבדקו.

רֶקַע

לידות מוקדמות, המכונות גם 'לידות מוקדמות', הן כאשר תינוקות נולדים לפני 37 שבועות של הריון. הם יכולים להיות מצבים חמורים מבחינה רפואית הגדלת סיבוכים בילודים באופן משמעותי, כולל קשיי נשימה, קשיי האכלה, שיתוק מוחין ואפילו תמותה בילודים. לרוע המזל, לידות מוקדמות הן התרחשות שכיחה יותר ויותר, כאשר ארגון הבריאות העולמי (WHO) מעריך כי 1 מכל 10 תינוקות נולדים מוקדמים (מי 2020).

בעוד שעשרות שנים של מחקרים הבינו כמה מהגורמים הבסיסיים ללידה מוקדמת, כולל עישון אימהי, צריכת אלכוהול, לחץ, חשיפה לזיהום, ולאחרונה, גנטיקה, יחסי הגומלין המורכבים בין גורמים אלה הביאו לחוסר בודד, מוחלט קובע סיכונים של המצב. כתוצאה מכך, הקלינאים כיום מסתמכים על מודלים של הערכת סיכונים כדי לקבוע את הסבירות ללידה מוקדמת ולנהל התערבויות וטיפול בזמן.

מודלים של למידת מכונות (ML) עדים לשימוש חסר תקדים במערכות תמיכה בקליניות להחלטות, כולל קביעת סיכון. היכולת שלהם לאתר דפוסים בלתי נראים לסטטיסטיקה מסורתית ולמנף מגוון רחב של סוגי נתוני קלט (אולטרסאונד טרנסווגינלי, רשומות בריאות אלקטרוניות (EHR) ואותות אלקטרוהיסטרוגרמה) הופכת אותם ליותר ויותר בעלי ערך ברפואה מונעת. בעוד שמודלים של ML נחקרו בעבר לחיזוי לידה מוקדמת, המחקר הנוכחי מתמקד בזיהוי המודלים היעילים ביותר ובשיפור הדיוק החזוי שלהם באמצעות כוונון היפר -פרמטר.

על המחקר

המחקר הנוכחי נועד לזהות את אלגוריתמי ה- ML המתפקדים הטובים ביותר בקביעת סיכון מוקדם על ידי מינוף קבוצה של 50 נשים (28 מקרים ו 22 בקרות) כדי להעריך את מדדי הדיוק שלהן. נתוני המשתתפים התקבלו מנשים בהריון אושפזו בבית החולים האוניברסיטאי ד"ר אנטוני ביזיאל בבידגושץ, פולין. נתוני המחקר כללו בדיקות רפואיות מפורטות (הערכות בריאות, הערכות גינקולוגיות ובדיקות דם) ושאלונים רפואיים (ההיסטוריה הרפואית של המשתתפים, תרופות נוכחיות ופרטים רלוונטיים קליניים אחרים).

מחקר זה העריך כמה אלגוריתמים ML מתקדמים, כולל XGBOOST, רגרסיה לוגיסטית, CatBoost, עצי החלטה ומכונות וקטוריות תומכות (SVMS). כדי למקסם את ציוני ה- F1 של האלגוריתמים (ובכך ביצועים), מודלים היו נתונים לאופטימיזציה של היפר -פרמטר באמצעות מסגרת Optuna. לאחר מכן העריך המחקר ביצועים ספציפיים למודל בארבעה מדדים עיקריים: דיוק, זיכרון, דיוק וציון F1.

כדי לבסס משמעות סטטיסטית ולהבדיל את הביצועים בין דגמים, נעשה שימוש בבדיקות צ'י-ריבועיות ומבחני ה- T הלא מותאמים של וולש. לבסוף, המודלים בעלי הביצועים הטובים ביותר היו נתונים לניתוח ביצועים תכונה כדי לסייע בזיהוי תכונות המשתתפים שתרמו ביותר לדיוק המודל, ובכך רמז על תסמינים רלוונטיים קלינית שניתן להשתמש בהם כדי לחזות לידות מוקדמות בחקירות עתידיות.

ממצאי לימוד

המחקר זיהה את ה- SVM הליניארי (עם היפר-פרמטרים מיטביים) כמודל בעל הביצועים הטובים ביותר, והשיג דיוק של 82%, 86% זיכרון, דיוק של 83% וציון F1 כולל של 84%. ה- SVM הליניארי עקב מקרוב על ידי מודל הרגרסיה הלוגיסטית (גם עם היפר-פרמטרים מיטביים), שהשיג ביצועים דומים עם דיוק של 80%, 82% זיכרון, 82% דיוק ו 82% ציון F1 בסך הכל. ראוי לציין כי שני הדגמים הללו הם אלגוריתמים פשוטים יחסית.

אלגוריתמים מורכבים יותר, כמו XGBOOST ו- CATBOOST, ביצעו בצורה גרועה יותר מהצפוי, פוטנציאלית בגלל גודל מערך הנתונים הקטן (n = 50), שהגביל את יכולתם להכליל ביעילות. המחקר עולה כי ייתכן שמודלים אלה היו מורכבים מדי עבור מערך הנתונים הזמין, מה שהוביל לחוסר יעילות בלמידה מהתכונות הנתונות. מודלים יסודיים (למשל, יערות אקראיים ועצי החלטה) גם הם לא ביצעו ביצועים טובים, לא רק בגלל מגבלות גודל מערך הנתונים אלא גם בגלל הקושי שלהם בטיפול במספר הגדול של התכונות המסופקות במחקר.

ניתוח ביצועי התכונות העלה כי בנוסף לחלבון תגובתי C (CRP) מפרמטרים של מורפולוגיה בדם וזוגיות (מספר הלידות הקודמות), המטוקריט (HCT) וספירת טסיות הדם (PLT) היו גם מנבאים משמעותיים ללידה מוקדמת. ראוי לציין כי רמת החינוך זוהתה גם כגורם מובהק סטטיסטית, מה שמרמז כי גורמים סוציו -אקונומיים ממלאים תפקיד בסיכון לידה מוקדמת. ממצאים אלה מצביעים על כך שגורמים הקשורים לדלקת והרכב הדם ממלאים תפקיד חשוב בהערכת סיכונים מוקדמים.

"באופן קולקטיבי, ממצאים אלה מראים כי לידה מוקדמת מונעת על ידי יחסי גומלין רב -פקטוריאליים של גורמים פיזיולוגיים, סוציו -אקונומיים והתנהגותיים. הממצאים מדגישים את הצורך בגישות טיפול משולבות העוסקות בקביעים ביולוגיים וחברתיים בהריון."

מסקנות

המחקר הנוכחי זיהה SVMs לינאריים כמודל ה- ML עם ציון הדיוק, הדיוק, ההיזכרות והסך הכל F1 בין חמשת המודלים שהוערכו. לצד רגרסיה לוגיסטית (המבצעת השנייה הכי טובה), מודל זה מדגיש כי מורכבות אלגוריתמית אופטימלית ממלאת תפקיד קריטי בתחזית לידה מוקדמת, שכן מודלים שהיו פשוטים מדי או מורכבים מדי נטו לביצועים.

למרות גודל המדגם המוגבל של המחקר (n = 50 משתתפים), שהשפיע באופן משמעותי על ביצועי המודל, הממצאים מבטיחים. עם זאת, החוקרים מזהירים כי מחקרים בקנה מידה גדול יותר נחוצים כדי לאמת את ההכללות של המודלים. מחקר עתידי צריך להתמקד באיסוף מערכי נתונים גדולים יותר ומגוונים יותר וכולל בדיקת הריון בשלב מוקדם יותר כדי לשפר את הדיוק החזוי.

"לתוצאות המחקר יש פוטנציאל ליידע את התפתחות ההתערבויות שמטרתן להפחית את שכיחות הלידה מוקדמת … יש לתכנן מחקרים פרוספקטיביים כדי לחקור את תחולת העולם האמיתי של המודל המזוהה במסגרות קליניות, שם כוח החיזוי שלו יכול לסייע באסטרטגיות זיהוי והתערבות של סיכון מוקדם ללידה מוקדמת. "

דילוג לתוכן