מודלים של AI עשויים להשתמש ב"קיצורי דרך דמוגרפיים" בעת ביצוע הערכות אבחון רפואי

20:24
, 28 יוני 2024
, בריאות ורפואה

מודלים של בינה מלאכותית ממלאים לעתים קרובות תפקיד באבחונים רפואיים, במיוחד כשמדובר בניתוח תמונות כגון צילומי רנטגן. עם זאת, מחקרים מצאו שמודלים אלה לא תמיד מתפקדים היטב בכל הקבוצות הדמוגרפיות, ובדרך כלל מתמודדים גרוע יותר עם נשים ואנשים צבעוניים.

הדגמים הללו גם הוכחו כמפתחים כמה יכולות מפתיעות. בשנת 2022, חוקרי MIT דיווחו כי מודלים של בינה מלאכותית יכולים ליצור תחזיות מדויקות לגבי הגזע של המטופל מצילומי הרנטגן שלו בחזה -; משהו שהרדיולוגים המיומנים ביותר לא יכולים לעשות.

צוות מחקר זה מצא כעת שהמודלים המדויקים ביותר בביצוע תחזיות דמוגרפיות מראים גם את "פערי ההגינות" הגדולים ביותר -; כלומר, פערים ביכולתם לאבחן במדויק תמונות של אנשים מגזעים או מגדרים שונים. הממצאים מצביעים על כך שמודלים אלה עשויים להשתמש ב"קיצורי דרך דמוגרפיים" בעת ביצוע הערכות האבחון שלהם, מה שמוביל לתוצאות שגויות עבור נשים, אנשים שחורים וקבוצות אחרות, אומרים החוקרים.

"זה ידוע היטב שמודלים של למידת מכונה בעלות קיבולת גבוהה הם מנבאים טובים של דמוגרפיה אנושית כמו גזע או מין או גיל שדווחו על עצמם. מאמר זה מדגים מחדש את היכולת הזו, ולאחר מכן קושר את היכולת הזו לחוסר ביצועים שונים קבוצות, דבר שמעולם לא נעשה", אומר Marzyeh Ghassemi, פרופסור חבר להנדסת חשמל ומדעי המחשב ב-MIT, חבר במכון להנדסה רפואית ומדע של MIT, והמחבר הבכיר של המחקר.

החוקרים גם גילו שהם יכולים לאמן מחדש את המודלים בצורה שתשפר את הוגנותם. עם זאת, הגישה שלהם ל"השפלה" עבדה בצורה הטובה ביותר כאשר המודלים נבדקו על אותם סוגי חולים עליהם הוכשרו, כגון חולים מאותו בית חולים. כאשר המודלים הללו יושמו על מטופלים מבתי חולים שונים, פערי ההגינות הופיעו שוב.

אני חושב שהדברים העיקריים הם, ראשית, אתה צריך להעריך ביסודיות כל מודל חיצוני על הנתונים שלך, כי כל הוגנות מבטיחה שמפתחי מודלים מספקים על נתוני ההדרכה שלהם לא יעברו לאוכלוסיה שלך. שנית, בכל פעם שיש מספיק נתונים זמינים, אתה צריך לאמן מודלים על הנתונים שלך."

Haoran Zhang, סטודנט לתואר שני ב-MIT ואחד הכותבים הראשיים של המאמר החדש

הסטודנט לתואר שני ב-MIT, Yuzhe Yang, הוא גם המחבר הראשי של המאמר, שיופיע ב רפואת טבע. ג'ודי גיכויה, פרופסור חבר למדעי רדיולוגיה והדמיה בבית הספר לרפואה של אוניברסיטת אמורי, ודינה קטאבי, פרופסור טואן וניקול פאם להנדסת חשמל ומדעי המחשב ב-MIT, הם גם מחברי המאמר.

הסרת הטיה

נכון למאי 2024, ה-FDA אישר 882 מכשירים רפואיים התומכים בבינה מלאכותית, כאשר 671 מתוכם תוכננו לשימוש ברדיולוגיה. מאז 2022, כאשר Ghassemi ועמיתיה הראו שמודלים אבחוניים אלה יכולים לחזות גזע במדויק, הם וחוקרים אחרים הראו שמודלים כאלה גם טובים מאוד בניבוי מין וגיל, למרות שהמודלים אינם מאומנים במשימות אלו.

"למודלים פופולריים רבים של למידת מכונה יש יכולת חיזוי דמוגרפית על-אנושית -; רדיולוגים לא יכולים לזהות גזע מדווח עצמי מצילום חזה", אומר גאסמי. "אלה מודלים שטובים בניבוי מחלות, אבל במהלך האימון לומדים לחזות דברים אחרים שאולי לא רצויים". במחקר זה, החוקרים יצאו לחקור מדוע מודלים אלה אינם עובדים היטב עבור קבוצות מסוימות. בפרט, הם רצו לראות אם המודלים משתמשים בקיצורי דרך דמוגרפיים כדי ליצור תחזיות שבסופו של דבר היו פחות מדויקות עבור קבוצות מסוימות. קיצורי דרך אלה יכולים להופיע במודלים של AI כאשר הם משתמשים במאפיינים דמוגרפיים כדי לקבוע אם קיים מצב רפואי, במקום להסתמך על תכונות אחרות של התמונות.

באמצעות מערכי רנטגן זמינים לציבור מהמרכז הרפואי Beth Israel Deaconess בבוסטון, החוקרים אימנו מודלים לחזות אם למטופלים יש אחד משלושה מצבים רפואיים שונים: הצטברות נוזלים בריאות, קריסת ריאה או הגדלה של הלב. לאחר מכן, הם בדקו את המודלים על צילומי רנטגן שהוחזקו מנתוני האימונים.

בסך הכל, הדגמים הציגו ביצועים טובים, אך רובם הציגו "פערי הוגנות" -; כלומר, פערים בין שיעורי הדיוק עבור גברים ונשים, ועבור חולים לבנים ושחורים.

המודלים היו מסוגלים גם לחזות את המגדר, הגזע והגיל של נבדקי הרנטגן. בנוסף, היה מתאם משמעותי בין הדיוק של כל מודל בביצוע תחזיות דמוגרפיות לבין גודל פער ההגינות שלו. זה מצביע על כך שהמודלים עשויים להשתמש בקטגוריות דמוגרפיות כקיצור דרך לביצוע תחזיות המחלה שלהם.

לאחר מכן ניסו החוקרים לצמצם את פערי ההגינות באמצעות שני סוגים של אסטרטגיות. עבור קבוצה אחת של מודלים, הם הכשירו אותם לייעל את "חוסן תת-הקבוצות", כלומר, המודלים מתוגמלים על ביצועים טובים יותר בתת-הקבוצה שעבורה יש להם את הביצועים הגרועים ביותר, ונענשים אם שיעור השגיאות שלהם עבור קבוצה אחת גבוה מה- אחרים.

בסט אחר של מודלים, החוקרים אילצו אותם להסיר כל מידע דמוגרפי מהתמונות, תוך שימוש בגישות "יריבות קבוצתיות". שתי האסטרטגיות הללו עבדו די טוב, מצאו החוקרים.

"עבור נתונים בהפצה, אתה יכול להשתמש בשיטות מתקדמות קיימות כדי לצמצם פערי הוגנות מבלי לעשות פשרות משמעותיות בביצועים הכוללים", אומר גאסמי. "שיטות חוסן תת-קבוצות מאלצות מודלים להיות רגישים לניבוי שגוי של קבוצה ספציפית, ושיטות יריבות קבוצתיות מנסות להסיר את המידע הקבוצתי לחלוטין".

לא תמיד הוגן יותר

עם זאת, גישות אלו פעלו רק כאשר המודלים נבדקו על נתונים מאותם סוגי חולים שהם אומנו עליהם -; לדוגמה, רק מטופלים ממערך הנתונים של המרכז הרפואי לדיאקונס בית ישראל.

כאשר החוקרים בדקו את המודלים ש"הוטעו" באמצעות נתוני BIDMC לניתוח מטופלים מחמישה מערכי נתונים אחרים של בתי חולים, הם גילו שהדיוק הכולל של המודלים נותר גבוה, אך חלקם הראו פערי הוגנות גדולים.

"אם אתה משפיל את המודל בקבוצה אחת של חולים, ההגינות הזו לא בהכרח מתקיימת כשאתה עובר לקבוצה חדשה של חולים מבית חולים אחר במיקום אחר", אומר ג'אנג.

זה מדאיג מכיוון שבמקרים רבים, בתי חולים משתמשים במודלים שפותחו על נתונים מבתי חולים אחרים, במיוחד במקרים בהם נרכש מודל מדף, אומרים החוקרים.

"מצאנו שאפילו מודלים חדישים בעלי ביצועים אופטימליים בנתונים הדומים למערכות האימון שלהם אינם אופטימליים – כלומר, הם אינם עושים את הפשרה הטובה ביותר בין ביצועים כלליים לתת-קבוצה -; ברומן הגדרות," אומר גאסמי. "למרבה הצער, כך למעשה סביר להניח שמודל ייפרס. רוב המודלים מאומנים ומאומתים עם נתונים מבית חולים אחד, או מקור אחד, ואז נפרסים באופן נרחב".

החוקרים מצאו כי המודלים שהיו מוטים תוך שימוש בגישות יריבות קבוצתיות הראו מעט יותר הוגנות כאשר נבדקו על קבוצות מטופלים חדשות, בהשוואה לאלו שהטילו שיטות לחוסן תת-קבוצות. כעת הם מתכננים לנסות לפתח ולבדוק שיטות נוספות כדי לראות אם הם יכולים ליצור מודלים שעושים עבודה טובה יותר בביצוע תחזיות הוגנות על מערכי נתונים חדשים.

הממצאים מצביעים על כך שבתי חולים שמשתמשים במודלים מסוג זה של AI צריכים להעריך אותם על אוכלוסיית המטופלים שלהם לפני שהם מתחילים להשתמש בהם, כדי לוודא שהם לא נותנים תוצאות לא מדויקות עבור קבוצות מסוימות.

המחקר מומן על ידי פרס Google Research Scholar, קרן רוברט ווד ג'ונסון לפיתוח הפקולטה לרפואה של הרולד עמוס, פערי בריאות RSNA, קרן לאקונה, קרן גורדון ובטי מור, המכון הלאומי להדמיה ביו-רפואית וביו-הנדסה, והקרן הלאומית מכון לב, ריאות ודם.

ניקולס וינשטיין

ניקולס וינשטיין הוא העורך הראשי של אתר Datilin.