צוות מחקר בינלאומי בראשותו של עוזר פרופסור ז'יו וואן מאוניברסיטת Shanghaitech פרסם לאחרונה ממצאים פורצי דרך בכתב העת מדעי נתוני בריאותהדגשת הטיות במודלים של שפה גדולה רב-מודאלית (LLMs) כמו ChatGPT-4 ו- LLAVA באבחון מחלות עור מתמונות רפואיות. המחקר העריך באופן שיטתי את מודלי ה- AI הללו על פני קבוצות מין וגיל שונות.
המחקר תוך שימוש בכ- 10,000 תמונות דרמטוסקופיות, התמקד בשלוש מחלות עור נפוצות: מלנומה, NEVI מלנוציטית ונגעים דמויי קרטוזיס. התוצאות חשפו כי בעוד ש- CHATGPT-4 ו- LLAVA ביצעו ביצועים טובים יותר של דגמי הלמידה העמוקים המסורתיים בסך הכל, CHATGPT-4 הראו הוגנות רבה יותר בין קבוצות דמוגרפיות, ואילו LLAVA הציגה הטיות משמעותיות הקשורות למין.
ד"ר וואן הדגיש, "בעוד שמודלים גדולים בשפה כמו ChatGPT-4 ו- LLAVA מדגימים פוטנציאל ברור ברמטולוגיה, עלינו לטפל בהטיות שנצפו, במיוחד על פני קבוצות מין וקבוצות גיל, כדי להבטיח שטכנולוגיות אלה יהיו בטוחות ויעילות עבור כל החולים"
הצוות מתכנן מחקר נוסף המשלב משתנים דמוגרפיים נוספים כמו גוון עור כדי להעריך באופן מקיף את ההוגנות והאמינות של מודלים של AI בתרחישים קליניים. מחקר זה מספק הנחיות קריטיות לפיתוח מערכות AI רפואיות שוויוניות ואמינות יותר.