Medicare נפגע באופן ספורדי על ידי תביעות ביטוח הונאה. הפעילויות הבלתי חוקיות הללו לרוב אינן מזוהות, ומאפשרות לפושעים במשרה מלאה ולספקי בריאות חסרי מצפון לנצל חולשות במערכת. בשנה שעברה, ההונאה השנתית המוערכת הגיעה לרמה של 100 מיליארד דולר על פי האגודה הלאומית למניעת הונאה של שירותי הבריאות, אך היא כנראה גבוהה בהרבה.
באופן מסורתי, כדי לזהות הונאה של Medicare, מספר מצומצם של מבקרים, או חוקרים, אחראים לבדיקה ידנית של אלפי תביעות, אבל יש להם מספיק זמן לחפש דפוסים מאוד ספציפיים המצביעים על התנהגויות חשודות. יתר על כן, אין מספיק חוקרים כדי לעמוד בקצב של תוכניות ההונאה השונות של Medicare.
שימוש בנתונים גדולים, כמו רישומי חולים ותשלומי ספקים, נחשב לעתים קרובות לדרך הטובה ביותר לייצר מודלים יעילים של למידת מכונה לאיתור הונאה. עם זאת, בתחום גילוי הונאות הביטוח של Medicare, הטיפול בביג דאטה לא מאוזן ומימדיות גבוהה – נתונים שבהם מספר התכונות גבוה להפליא כך שהחישובים הופכים לקשים ביותר – נותרו אתגר משמעותי.
מחקר חדש מהמכללה להנדסה ומדעי המחשב באוניברסיטת פלורידה אטלנטיק מטפל באתגר זה על ידי איתור פעילות הונאה ב"ים העצום" של נתונים גדולים של Medicare. מכיוון שזיהוי הונאה הוא הצעד הראשון בעצירתה, טכניקה חדשה זו יכולה לחסוך משאבים משמעותיים עבור מערכת Medicare.
לצורך המחקר, החוקרים בדקו באופן שיטתי שני מערכי נתונים גדולים לא מאוזנים של Medicare, חלק ב' וחלק ד'. חלק ב' כולל את הכיסוי של Medicare של שירותים רפואיים כמו ביקורי רופא, טיפול חוץ ושירותים רפואיים אחרים שאינם מכוסים באשפוז. חלק D, לעומת זאת, מתייחס להטבת תרופות המרשם של Medicare ומכסה עלויות תרופות. מערכי נתונים אלה סומנו ב- List of Excluded Individuals and Entities (LEIE). ה-LEIE מסופק על ידי משרד המפקח הכללי של ארצות הברית.
חוקרים התעמקו בהשפעה של תת-דגימה אקראית (RUS), טכניקת דגימת נתונים פשוטה, אך חזקה, וטכניקת בחירת תכונות מפוקחת על ידי האנסמבל החדש. RUS פועלת על ידי הסרה אקראית של דגימות ממעמד הרוב עד לקיים איזון ספציפי בין מעמדות המיעוט והרוב.
התכנון הניסיוני חקר תרחישים שונים, החל משימוש בכל טכניקה בנפרד ועד לשימוש בשילוב. בעקבות ניתוחים של התרחישים הבודדים, החוקרים בחרו שוב את הטכניקות שהניבו את התוצאות הטובות ביותר וביצעו ניתוח תוצאות בין כל התרחישים.
תוצאות המחקר, שפורסמו ב- Journal of Big Data, להדגים כי טכניקות חכמות להפחתת נתונים משפרות את הסיווג של נתוני Medicare גדולים ובלתי מאוזנים. היישום הסינרגטי של שתי הטכניקות – RUS ובחירת תכונה מפוקחת – הביא ביצועים טובים יותר מדגמים המנצלים את כל התכונות והנתונים הזמינים. הממצאים הראו כי שילוב של שימוש בטכניקת בחירת תכונה ואחריה RUS, או שימוש ב-RUS ואחריו טכניקת בחירת תכונה, הניב את הביצועים הטובים ביותר.
כתוצאה מכך, בסיווג של כל מערך הנתונים, החוקרים גילו שטכניקה עם הכמות הגדולה ביותר של הפחתת נתונים מניבה גם את הביצועים הטובים ביותר, שהיא הטכניקה של ביצוע בחירת תכונה, ולאחר מכן יישום RUS. הפחתת מספר התכונות מובילה לדגמים ניתנים להסבר וביצועים טובים משמעותית משימוש בכל התכונות.
הביצועים של מסווג או אלגוריתם יכולים להיות מושפעים על ידי אפקטים מרובים. שני גורמים שיכולים להקשות על סיווג הנתונים הם מימדיות וחוסר איזון מעמדי. חוסר איזון כיתתי בנתונים מסומנים מתרחש כאשר לרוב המכריע של המופעים במערך הנתונים יש תווית מסוימת אחת. חוסר האיזון הזה מציב מכשולים, מכיוון שניתן למסווג מותאם למדד כמו דיוק, אשר יסמן בטעות פעילויות הונאה כלא הונאה כדי להגביר את הציונים הכוללים במונחים של המדד."
Taghi Khoshgoftaar, Ph.D., סופר בכיר ופרופסור מוטורולה, המחלקה להנדסת חשמל ומדעי המחשב ב-FAU
לבחירת תכונה, החוקרים שילבו שיטת בחירת תכונה מפוקחת המבוססת על רשימות דירוג תכונה. לאחר מכן, באמצעות יישום גישה חדשנית, שולבו רשימות אלו כדי להניב דירוג תכונה מכריע. כדי לספק אמת מידה, נבנו גם מודלים תוך שימוש בכל התכונות של מערכי הנתונים. לאחר גזירת הדירוג המאוחד הזה, תכונות נבחרו על סמך מיקומן ברשימה.
"הגישה השיטתית שלנו סיפקה הבנה טובה יותר לגבי יחסי הגומלין בין בחירת תכונות וחוסנות מודל בהקשר של אלגוריתמי למידה מרובים", אמר ג'ון ט. הנקוק, מחבר ראשון ודוקטורנט. סטודנט במחלקה להנדסת חשמל ומדעי המחשב של FAU. "קל יותר לנמק כיצד מודל מבצע סיווגים כאשר הוא בנוי עם פחות תכונות."
הן עבור מערכי הנתונים של Medicare Part B והן עבור חלק D, חוקרים ערכו ניסויים בחמישה תרחישים אשר מיצו את הדרכים האפשריות להשתמש, או להשמיט, את ה-RUS ואת טכניקות הפחתת נתוני בחירת התכונות. עבור שני מערכי הנתונים, חוקרים מצאו כי טכניקות הפחתת נתונים גם משפרות את תוצאות הסיווג.
"בהתחשב בהשלכות הפיננסיות העצומות של הונאה של Medicare, ממצאים ממחקר חשוב זה מציעים לא רק יתרונות חישוביים אלא גם משפרים משמעותית את האפקטיביות של מערכות זיהוי הונאה", אמרה סטלה בטאלמה, דוקטורט, דיקן, מכללת FAU להנדסה ומדעי המחשב. . "שיטות אלו, אם ייושמו כראוי לאיתור ולעצירת הונאות ביטוח של Medicare, יכולות להעלות באופן משמעותי את רמת שירותי הבריאות על ידי הפחתת עלויות הקשורות להונאה".
מחברי המחקר הם Huanjing Wang, Ph.D., פרופסור למדעי המחשב, אוניברסיטת מערב קנטקי; ו-Qianxin Liang, Ph.D. סטודנט במחלקה להנדסת חשמל ומדעי המחשב של FAU.