שילוב ערכים אנושיים בבינה מלאכותית רפואית: איזון אתיקה ויעילות

04:50
, 4 יוני 2024
, בריאות ורפואה

במאמר סקירה שפורסם לאחרונה ב כתב העת לרפואה של ניו אינגלנדחוקרים סוקרים כיצד ניתן לשלב ערכים אנושיים במודלים מתפתחים של בינה מלאכותית (AI) המבוססים על שפה גדולה (LLMs) וכיצד הם יכולים להשפיע על משוואות קליניות.

לימוד: אינטליגנציה רפואית מלאכותית וערכי אנוש. קרדיט תמונה: גורודנקוף / Shutterstock.com

האתיקה של AI ברפואה

LLMs הם כלי בינה מלאכותית מתוחכמים המבצעים מגוון רחב של משימות, מכתיבת מאמרים משכנעים ועד למעבר בחינות מקצועיות. למרות השימוש ההולך וגובר של LLMs, אנשי מקצוע רבים בתחום הבריאות ממשיכים להביע דאגות לגבי היישום שלהם בתחום הרפואי עקב קונפלבולציה, אי דיוק עובדתי ושבריריות.

עדיין לא ברור אם "ערכים אנושיים" המשקפים מטרות והתנהגויות אנושיות יישארו משולבים ביצירה ובשימוש של LLMs. יש להבהיר גם כיצד ערכי אנוש שונים ודומים לערכי LLM.

לשם כך, המחברים חקרו את השפעתם של ערכים אנושיים על יצירת מודלים מסיביים של שפה ובינה מלאכותית במגזר הבריאות.

כיצד משפיעים ערכים אנושיים על ביצועי AI ברפואה?

ערכים אנושיים וחברתיים השפיעו בהכרח על הנתונים המשמשים לאימון מודלים של AI. כמה דוגמאות עדכניות של מודלים של AI המשמשים ברפואה כוללות פרשנות אוטומטית של צילומי חזה, אבחון מחלות עור ופיתוח אלגוריתמים לייעול הקצאת משאבי בריאות.

Generative Pretrained Transformer 4 (GPT-4) הוא LLM שפותח כדי לשקול את הערכים של הצדדים השונים העוסקים בתרחיש קליני, כגון הקלינאי, המטופל עצמו או הוריהם/אפוטרופוסיו, כמו גם חברות ביטוח בריאות . ה"התאמה" הזו מעוררת דאגות לגבי הערכים שמודל AI מסוים צריך לגלם, האם הוא מסייע בקבלת החלטות רציונלית, וכיצד משפיעים כוחות פיננסיים על פיתוחו ויישומו ברפואה.

למרות שפרטי ההכשרה המדויקים של GPT-4 לא נמסרו, פרטים עבור דגמים קודמים כמו GPT-3 פורסמו. GPT-3 מורכב מ-175 מיליארד פרמטרים, שהוא גדול משמעותית ממספר משתני המנבאים ששימשו לפיתוח משוואות קליניות היסטוריות כמו קצב הסינון הגלומרולרי המשוער (eGFR), בעוד שבדומה ל-LLMs, נעשה שימוש לניבוי סיכונים לחולים ואסטרטגיות טיפול.

השפעת הערכים האנושיים במהלך אימון LLM

אחד השלבים הראשונים של פיתוח LLM כולל 'שלב אימון קדם', שבמהלכו פרמטרים אלה מסופקים למודל. לאחר מכן, 'שלב כוונון עדין' משתמש במשוב אנושי כדי לדרג את תפוקות המודל כדי לשפר את המודל באמצעות למידת חיזוק.

לדוגמה, במהלך הפיתוח של מודל InstructGPT, גויסו 40 קבלנים אנושיים המייצגים קבוצות דמוגרפיות שונות כדי לכוונן את ה-LLM הזה. מאחר שקבלנים אלה נשכרו והודרכו על ידי מפתחי מודלים, יכולות להיווצר הטיות פוטנציאליות בשאלה האם ערכי המאמנים או המתאמנים משולבים בסופו של דבר בגרסה הסופית של ה-LLM.

יחד, דוגמאות אלו מוכיחות שערכים אנושיים משולבים עמוקות בכל שלב בתהליך הפיתוח של LLM, החל מבחירת הנתונים המשמשים לאימון תחילה של המודל ועד לכוונון עדין של מודלים אלה לפני שהם הופכים זמינים לציבור.

שינויים במאפייני הנתונים, הידועים גם בשם שינויי נתונים, עלולים לסכן את הדיוק והאמינות של מודלים של AI, במיוחד כאשר כוללים ערכים אנושיים. כמה השלכות שעלולות להתעורר כאשר ערכים אנושיים משולבים במערכות בינה מלאכותית כוללות המלצות טיפול לא הולמות, התאמה לקויה עם הציפיות החברתיות הנפוצות, ואובדן האמון האולטימטיבי בכלי בינה מלאכותית בקרב מטופלים ורופאים.

כיוונים עתידיים

כדי להתגבר על האתגרים הללו, יש צורך במחקרים עתידיים שמעריכים כיצד AI משפיע על קבלת החלטות אנושית ופיתוח מיומנויות ספציפיות. חקירת "הפסיכולוגיה של ה-LLMs" עשויה גם להוביל לתגליות חשובות על הטיות קוגניטיביות אנושיות וכיצד הן משפיעות על תהליכי קבלת החלטות.

הכשרה וניטור שוטפים של LLMs חיוניים גם כדי להבטיח שימוש בטוח ומוצלח של AI ברפואה. גופי ממשל בינה מלאכותית יכולים גם לתמוך במאמצים אלה על ידי מתן פיקוח על תהליכים אלה; עם זאת, קביעת כללים מסובכת בשל מודלים שונים של בסיס וסוגי נתונים.

גישות גיוס תועלת חשובות לקביעת ערכים אנושיים; עם זאת, הם עשויים להתעלם מגורמים בעולם האמיתי המשפיעים על קבלת החלטות בתחום הבריאות. לפיכך, ניתוח עקומת החלטה, המציע גישה שונה להערכת בדיקות אבחון ללא קלט מפורש מכלי שירות, כמו גם שיטות מונעות נתונים, יכול לתמוך בלמידה מתמשכת של LLMs כאשר הנתונים והערכים משתנים עם הזמן.

ניקולס גולדבאום

ניקולס גולדבאום הוא העורך הראשי של אתר Datilin.