Search
Study: Audio-based AI classifiers show no evidence of improved COVID-19 screening over simple symptoms checkers. Image Credit: Aliaksandra Post / Shutterstock

היכולת של AI לזהות COVID-19 משיעול עומדת בפני אתגרים בעולם האמיתי

לאחרונה Nature Machine Intelligence מחקר חקר את היעילות של מסווגים של בינה מלאכותית (AI) מבוססי אודיו בניבוי מצב זיהום של תסמונת נשימה חריפה חמורה של coronavirus-2 (SARS-CoV-2). SARS-CoV-2 הוא האורגניזם הסיבתי של מגיפת נגיף הקורונה 2019 (COVID-19).

מחקר: מסווגים מבוססי אודיו בינה מלאכותית לא מראים שום עדות לשיפור הסינון של COVID-19 על פני בודקי סימפטומים פשוטים. קרדיט תמונה: Aliaksandra Post / Shutterstock

רקע כללי

מכיוון שזיהום ב-SARS-CoV-2 עלול לגרום לביטויים סימפטומטיים וא-סימפטומטיים, חשוב לפתח בדיקות מדויקות כדי להימנע מהסגר של האוכלוסייה הכללית. מחקרים קודמים גילו שמסווגים מבוססי בינה מלאכותית מאומנים עם נתוני אודיו נשימתיים יכולים לזהות מצב SARS-CoV-2.

למרות שמחקרים אלה הצביעו על היעילות של מסווגים מבוססי בינה מלאכותית, אתגרים רבים צצו תוך כדי יישומם במסגרות בעולם האמיתי. כמה גורמים שמנעו יישומי סיווג מבוססי בינה מלאכותית היו הטיות דגימה, נתונים לא מאומתים על מצב ה-COVID-19 של המשתתפים ועיכוב בין זיהום להקלטת אודיו. זה הכרחי לקבוע אם הסמנים הביולוגיים של השמע של COVID-19 הם ייחודיים לזיהום SARS-CoV-2 או שהם אותות מבלבלים בלתי הולמים.

על המחקר

המחקר הנוכחי התמקד בקביעה האם ניתן להשתמש במסווגים מבוססי אודיו במדויק להקרנת COVID-19. נעשה שימוש במערך נתונים רחב של תגובת שרשרת פולימראז (PCR) המקושר להקרנה מבוססת שמע COVID-19 (ABCS). למחקר זה, הוזמנו משתתפי התוכנית להערכה בזמן אמת של העברה קהילתית (REACT) ושירות הבדיקה והמעקב (T+T) של שירות הבריאות הלאומי (NHS). כל הנתונים הדמוגרפיים הרלוונטיים חולצו מרשומות T+T/REACT.

המשתתפים התבקשו למלא שאלות סקר ולהקליט ארבעה קטעי אודיו. עבור הקלטות אודיו, הם התבקשו לקרוא משפט ספציפי, ולאחר מכן שלוש נשיפות עוקבות, תוך השמעת צליל "הא". יתר על כן, המשתתפים התבקשו לרשום שיעול מאולץ פעם ושלוש פעמים ברציפות. כל ההקלטות תועדו בפורמט .wav. איכות הקלטות האודיו הוערכה, ו-5,157 רשומות הוסרו בשל בעיות הקשורות לאיכות.

דמויות אנושיות מייצגות את משתתפי המחקר ואת מצב ההדבקה התואם שלהם ב-COVID-19, כאשר הצבעים השונים מציגים מאפיינים דמוגרפיים או סימפטומטיים שונים.  כאשר המשתתפים מחולקים באופן אקראי למערכות אימון ומבחנים, המודלים המפוצלים האקראיים מתפקדים היטב בזיהוי COVID-19, ומשיגים AUCs העולה על 0.8;  עם זאת, נראה כי ביצועי ערכת בדיקות מותאמת יורדים ל-AUC משוער בין 0.60 ל-0.65, כאשר AUC של 0.5 מייצג סיווג אקראי.  ביצועי סיווג מנופחים נראים גם במערכי בדיקות מהונדסים מחוץ להפצה כגון: מערך הבדיקות המעוצב, שבו קבוצה נבחרת של קבוצות דמוגרפיות מופיעות אך ורק במערך הבדיקות, ומערך הבדיקות האורך, שבו אין חפיפה ב- זמן ההגשה בין מקרי הרכבת למבחן.  רווחי הסמך של 95% המחושבים באמצעות שיטת הקירוב הרגילה מוצגים, יחד עם n המספרים המתאימים של הרכבת וערכות הבדיקה.דמויות אנושיות מייצגות את משתתפי המחקר ואת מצב ההדבקה התואם שלהם ב-COVID-19, כאשר הצבעים השונים מציגים מאפיינים דמוגרפיים או סימפטומטיים שונים. כאשר המשתתפים מחולקים באופן אקראי למערכות אימון ומבחנים, המודלים המפוצלים האקראיים מתפקדים היטב בזיהוי COVID-19, ומשיגים AUCs העולה על 0.8; עם זאת, נראה כי ביצועי ערכת בדיקות מותאמת יורדים ל-AUC משוער בין 0.60 ל-0.65, כאשר AUC של 0.5 מייצג סיווג אקראי. ביצועי סיווג מנופחים נראים גם במערכי בדיקות מהונדסים מחוץ להפצה כגון: מערך הבדיקות המעוצב, שבו קבוצה נבחרת של קבוצות דמוגרפיות מופיעות אך ורק במערך הבדיקות, ומערך הבדיקות האורך, שבו אין חפיפה ב- זמן ההגשה בין מקרי הרכבת למבחן. רווחי הסמך של 95% המחושבים באמצעות שיטת הקירוב הרגילה מוצגים, יחד עם n המספרים המתאימים של הרכבת וערכות הבדיקה.

ממצאי מחקר

במחקר זה נאסף מערך נתונים אקוסטי נשימתי של 67,842 אנשים. ביניהם, 23,514 אנשים נבדקו חיוביים ל-COVID-19. כל הנתונים נקשרו לתוצאות בדיקת PCR. יש לציין כי המספר המשמעותי ביותר של משתתפים שלילי COVID-19 גויס משישה סבבי REACT בהשוואה לערוץ T+T.

מערך הנתונים שנחשב במחקר זה הציג כיסוי מבטיח ברחבי אנגליה. לא צוין קשר משמעותי בין מיקום גיאוגרפי לסטטוס COVID-19. הרמה הגבוהה ביותר של חוסר איזון COVID-19 נמצאה בקורנוול. מחקר קודם הצביע על הטיית גיוס ב-ABCS, הקשורה במיוחד לגיל, שפה ומגדר, הן בנתוני ההכשרה והן במבחנים. למרות הטיה זו, מערך ההדרכה היה מאוזן בהתאם לגיל ולמין בין תת-קבוצות חיוביות ל-COVID ושליליות ל-COVID.

בהתאם למחקרים קודמים, הניתוח הלא מותאם שנערך במחקר זה הראה שמסווגים בינה מלאכותית יכולים לחזות את מצב COVID-19 בדיוק רב. עם זאת, כאשר הותאמו מבלבלים נמדדים, נצפו ביצועים חלשים של מסווגים בינה מלאכותית בזיהוי מצב SARS-CoV-2.

בהתבסס על הממצאים, המחקר הנוכחי הציע כמה קווים מנחים לתיקון השפעת הטיית הגיוס עבור מחקרים עתידיים. חלק מההמלצות מפורטות להלן:

  1. דגימות אודיו המאוחסנות במאגרים חייבות לכלול פרטים על הקריטריונים לגיוס למחקר. בנוסף, יש לתעד מידע רלוונטי על האנשים, כולל מינם, גילם, זמן בדיקת COVID-19, תסמיני SARS-CoV-2 ומיקומים, יחד עם הקלטת האודיו.
  2. יש לזהות ולהתאים את כל הגורמים המבלבלים כדי לסייע בשליטה על הטיית גיוס.
  3. יש לפתח עיצוב ניסיוני תוך שמירה על ההטיה האפשרית. ברוב המקרים, התאמת נתונים מובילה להפחתה בגודל המדגם. מחקרים תצפיתיים מגייסים משתתפים המתמקדים באפשרות המקסימלית של התאמה של מבלבלים נמדדים.
  4. יש להשוות את ערכי הניבוי של המסווגים לממצאי פרוטוקול סטנדרטיים.
  5. יש להעריך את דיוק הניבוי של מסווגי AI. עם זאת, הדיוק הניבוי, הרגישות והספציפיות משתנים בהתאם לאוכלוסיית היעד.
  6. יש להעריך את התועלת של המסווגים עבור כל תוצאת בדיקה.
  7. מחקר השכפול חייב להתבצע בקבוצות אקראיות. יתר על כן, מחקרי פיילוט חייבים להתבצע במסגרות בעולם האמיתי המבוססות על כלי עזר ספציפיים לתחום.

מסקנות

למחקר הנוכחי יש מגבלות הכוללות אפשרות של מבלבלים פוטנציאליים בלתי מדודים בערוצי גיוס REACT ו-T+T. לדוגמה, בדיקת PCR ל-COVID-19 בוצעה מספר ימים לאחר בדיקה עצמית של תסמינים. לעומת זאת, בדיקות PCR ב-REACT נערכו בתאריך שנקבע מראש, ללא קשר להופעת התסמינים. למרות שרוב המבלבלים הותאמו, קיימת אפשרות של נוכחות של וריאציה ניבוי שיורית.

למרות המגבלות, מחקר זה הדגיש את הצורך בפיתוח נהלי הערכה מדויקים של למידת מכונה כדי להשיג תפוקות חסרות פניות. יתר על כן, הוא גילה שקשה לזהות ולשלוט בגורמים מבלבלים ביישומי AI רבים.

דילוג לתוכן