הכנת חולי סרטן להחלטות קשות היא תפקידו של אונקולוג. עם זאת, הם לא תמיד זוכרים לעשות את זה. במערכת הבריאות של אוניברסיטת פנסילבניה, רופאים נדחקים לדבר על הטיפול והעדפות סוף החיים של המטופל באמצעות אלגוריתם אינטליגנטי מלאכותי החוזה את סיכויי המוות.
אבל זה רחוק מלהיות כלי להגדיר ושכח מזה. בדיקה טכנית שגרתית גילתה שהאלגוריתם דעך במהלך מגיפת קוביד-19, והחמיר ב-7 נקודות אחוז בניבוי מי ימות, על פי מחקר משנת 2022.
סביר להניח שהיו השפעות בחיים האמיתיים. Ravi Parikh, אונקולוג מאוניברסיטת אמורי שהיה הכותב הראשי של המחקר, אמר ל-KFF Health News שהכלי נכשל מאות פעמים כדי לגרום לרופאים ליזום את הדיון החשוב הזה – אולי בכיוון של כימותרפיה מיותרת – עם מטופלים שנזקקו לכך.
הוא מאמין שכמה אלגוריתמים שנועדו לשפר את הטיפול הרפואי שנחלשו במהלך המגיפה, לא רק זה של פן מדיסין. "מוסדות רבים אינם עוקבים באופן שגרתי אחר הביצועים" של המוצרים שלהם, אמר פאריך.
תקלות באלגוריתם הן פן אחד של דילמה שמדעני מחשבים ורופאים הכירו בה זה מכבר, אבל זה מתחיל להפתיע מנהלים וחוקרים בבתי חולים: מערכות בינה מלאכותית דורשות ניטור ואיוש עקביים כדי להקים אותן ולשמור עליהן לעבוד היטב.
במהות: אתה צריך אנשים, ועוד מכונות, כדי לוודא שהכלים החדשים לא יתבלבלו.
"כולם חושבים שבינה מלאכותית תעזור לנו עם הגישה והיכולת שלנו ולשפר את הטיפול וכן הלאה", אמר Nigam Shah, מדען נתונים ראשי ב-Stanford Health Care. "כל זה נחמד וטוב, אבל אם זה מייקר את עלות הטיפול ב-20%, האם זה כדאי?"
פקידי ממשל חוששים שבתי חולים חסרים את המשאבים להעביר את הטכנולוגיות הללו בקצב שלהם. "הסתכלתי למרחקים", אמר נציב ה-FDA, רוברט קאליף, בפאנל האחרון של הסוכנות בנושא AI. "אני לא מאמין שיש מערכת בריאות אחת, בארצות הברית, שמסוגלת לאמת אלגוריתם AI שהותקן במערכת טיפול קליני".
בינה מלאכותית כבר נפוצה בתחום הבריאות. אלגוריתמים משמשים כדי לחזות את הסיכון של חולים למוות או להידרדרות, כדי להציע אבחונים או ניסויים למטופלים, כדי להקליט ולסכם ביקורים כדי לחסוך עבודה לרופאים ולאישור תביעות ביטוח.
אם אוונגליסטים טכנולוגיים צודקים, הטכנולוגיה תהפוך לכל מקום – ורווחית. חברת ההשקעות Bessemer Venture Partners זיהתה כ-20 סטארט-אפים ממוקדי בינה מלאכותית במסלול להרוויח 10 מיליון דולר בהכנסות כל אחת בשנה. ה-FDA אישר כמעט אלף מוצרים חכמים מלאכותיים.
ההערכה האם מוצרים אלה עובדים היא מאתגרת. ההערכה אם הם ממשיכים לעבוד – או שפיתחו את המקבילה לתוכנה של אטם מפוצץ או מנוע דולף – היא אפילו מסובכת יותר.
קח מחקר שנערך לאחרונה ב-Yale Medicine שמעריך שש "מערכות התרעה מוקדמות", המתריעות לרופאים כאשר סביר להניח שהחולים ידרדרו במהירות. מחשב-על הפעיל את הנתונים במשך מספר ימים, אמרה דנה אדלסון, רופאה באוניברסיטת שיקגו ומייסדת שותפה של חברה שסיפקה אלגוריתם אחד למחקר. התהליך היה פורה, והראה הבדלים עצומים בביצועים בין ששת המוצרים.
לא קל לבתי חולים ולספקים לבחור את האלגוריתמים הטובים ביותר לצרכיהם. לרופא הממוצע אין מחשב על, ואין דוחות צרכנים עבור AI.
"אין לנו סטנדרטים", אמר ג'סי ארנפלד, נשיא לשעבר של האיגוד הרפואי האמריקאי. "אין שום דבר שאני יכול להפנות אותך אליו היום שהוא סטנדרט סביב האופן שבו אתה מעריך, מנטר, מסתכל על הביצועים של מודל של אלגוריתם, מאופשר בינה מלאכותית או לא, כאשר הוא נפרס."
אולי מוצר הבינה המלאכותית הנפוץ ביותר במשרדי רופאים נקרא תיעוד סביבה, עוזר טכנולוגי שמקשיב ומסכם ביקורי חולים. בשנה שעברה, משקיעים ב-Rock Health עקבו אחר 353 מיליון דולר שהוזרמו לחברות התיעוד הללו. אבל, אמר ארנפלד, "אין כרגע תקן להשוואת התפוקה של הכלים האלה".
וזו בעיה, כאשר אפילו שגיאות קטנות יכולות להיות הרסניות. צוות מאוניברסיטת סטנפורד ניסה להשתמש במודלים של שפה גדולים – הטכנולוגיה העומדת בבסיס כלי AI פופולריים כמו ChatGPT – כדי לסכם את ההיסטוריה הרפואית של החולים. הם השוו את התוצאות עם מה שרופא היה כותב.
"אפילו במקרה הטוב, לדגמים היה שיעור שגיאות של 35%", אמר השאה של סטנפורד. ברפואה, "כשאתה כותב סיכום ואתה שוכח מילה אחת, כמו 'חום' – זאת אומרת, זו בעיה, נכון?"
לפעמים הסיבות לכך שהאלגוריתמים נכשלים הן הגיוניות למדי. לדוגמה, שינויים בנתונים הבסיסיים עלולים לשחוק את יעילותם, כמו כאשר בתי חולים מחליפים ספק מעבדה.
אולם לפעמים, המלכודות מפהקות ללא סיבה נראית לעין.
סנדי ארונסון, מנהלת טכנולוגיה בתוכנית הרפואה המותאמת אישית של מאס גנרל בריגהאם בבוסטון, אמרה שכאשר הצוות שלו בדק אפליקציה אחת שנועדה לעזור ליועצים גנטיים לאתר ספרות רלוונטית על וריאנטים של DNA, המוצר סבל מ"לא דטרמיניזם" – כלומר, כשנשאל אותו הדבר. שאלה מספר פעמים בתקופה קצרה, היא נתנה תוצאות שונות.
ארוןסון נרגש מהפוטנציאל של מודלים שפה גדולים לסכם ידע עבור יועצים גנטיים עמוסים מדי, אבל "הטכנולוגיה צריכה להשתפר".
אם המדדים והסטנדרטים דלילים וטעויות עלולות לצוץ מסיבות מוזרות, מה המוסדות לעשות? השקיעו משאבים רבים. בסטנפורד, אמר שאה, נדרשו שמונה עד עשרה חודשים ו-115 שעות עבודה רק כדי לבדוק שני מודלים לצורך הוגנות ואמינות.
מומחים שרואיינו ל-KFF Health News הציפו את הרעיון של ניטור בינה מלאכותית בינה מלאכותית, כשכמה נתונים (אנושיים) עוקבים אחר שניהם. כולם הודו שזה ידרוש מארגונים להוציא עוד יותר כסף – שאלה קשה בהתחשב במציאות של תקציבי בתי חולים וההיצע המצומצם של מומחי טכנולוגיית AI.
"זה נהדר שיש לנו חזון שבו אנחנו ממיסים קרחונים כדי שיהיה לנו מודל שינטר את המודל שלהם", אמר שאה. "אבל זה באמת מה שרציתי? כמה אנשים עוד נצטרך?"
מאמר זה נדפס מחדש מ-khn.org, חדר חדשות ארצי המייצר עיתונאות מעמיקה בנושאי בריאות ומהווה אחת מתוכניות הליבה הפועלות ב-KFF – המקור העצמאי למחקר מדיניות בריאות, סקרים ועיתונאות. |