Den store sprogmodel (LLM) kan skrive overbevisende artikler baseret på hurtige ord, bestå professionelle færdighedsprøver og skrive patientvenlig og empatisk information. Ud over de velkendte risici ved fiktion, skrøbelighed og unøjagtige fakta i LLM, er andre uløste problemer dog gradvist ved at blive i fokus, såsom AI-modeller, der indeholder potentielt diskriminerende "menneskelige værdier" i deres skabelse og brug, og selvom LLM ikke længere fabrikerer indhold og eliminerer klart skadelige outputresultater, kan "LLM-værdier" stadig afvige fra menneskelige værdier.
Utallige eksempler illustrerer, hvordan de data, der bruges til at træne AI-modeller, koder individuelle og sociale værdier, som kan blive til en del af modellen. Disse eksempler involverer en række anvendelser, herunder automatisk fortolkning af røntgenbilleder af brystet, klassificering af hudsygdomme og algoritmisk beslutningstagning vedrørende tildeling af medicinske ressourcer. Som nævnt i en nylig artikel i vores tidsskrift, kan forudindtagede træningsdata forstærke og afsløre de værdier og forudindtagede områder i samfundet. Tværtimod har forskning også vist, at AI kan bruges til at reducere forudindtagethed. For eksempel anvendte forskere deep learning-modeller på røntgenbilleder af knæ og opdagede faktorer, der blev overset af standardsværhedsgradsindikatorer (graderet af radiologer) i knæleddet, hvorved uforklarlige smerteforskelle mellem sorte og hvide patienter blev reduceret.
Selvom flere og flere mennesker erkender biasen i AI-modeller, især med hensyn til træningsdata, får mange andre indgangspunkter til menneskelige værdier ikke tilstrækkelig opmærksomhed i udviklings- og implementeringsprocessen for AI-modeller. Medicinsk AI har for nylig opnået imponerende resultater, men i vid udstrækning har den ikke eksplicit taget hensyn til menneskelige værdier og deres interaktion med risikovurdering og probabilistisk ræsonnement, og den er heller ikke blevet modelleret.
For at konkretisere disse abstrakte begreber kan du forestille dig, at du er en endokrinolog, der skal ordinere rekombinant humant væksthormon til en 8-årig dreng, der er under den 3. percentil af sin alder. Drengens niveau af stimuleret humant væksthormon er under 2 ng/ml (referenceværdi >10 ng/ml, referenceværdi for mange lande uden for USA er >7 ng/ml), og hans gen, der koder for humant væksthormon, har påvist sjældne inaktiveringsmutationer. Vi mener, at anvendelsen af behandling med humant væksthormon er indlysende og uomtvistelig i denne kliniske setting.
Anvendelsen af humant væksthormonbehandling i følgende scenarier kan give anledning til kontroverser: En 14-årig drengs højde har altid været i den 10. percentil af hans jævnaldrende, og toppen af humant væksthormon efter stimulering er 8 ng/ml. Der er ingen kendte funktionelle mutationer, der kan påvirke højden, ej heller andre kendte årsager til lav statur, og hans knoglealder er 15 år gammel (dvs. ingen udviklingsforsinkelse). Kun en del af kontroversen skyldes forskelle i de tærskelværdier, der er fastsat af eksperter baseret på snesevis af undersøgelser vedrørende humant væksthormonniveauer, der anvendes til diagnosticering af isoleret væksthormonmangel. Mindst lige så meget kontrovers stammer fra risiko-fordel-forholdet ved at bruge humant væksthormonbehandling set fra patienters, patientforældres, sundhedspersonales, medicinalvirksomheders og betaleres perspektiver. Pædiatriske endokrinologer kan afveje de sjældne bivirkninger af daglige injektioner af væksthormon i 2 år med sandsynligheden for ingen eller kun minimal vækst i voksen kropsstørrelse sammenlignet med nutiden. Drenge kan mene, at selvom deres højde kun stiger med 2 cm, er det værd at injicere væksthormon, men betaleren og medicinalvirksomheden kan have forskellige synspunkter.
Vi tager kreatininbaseret eGFR som eksempel, som er en udbredt indikator for nyrefunktion til diagnosticering og stadieinddeling af kronisk nyresygdom, fastsættelse af betingelser for nyretransplantation eller -donation og bestemmelse af reduktionskriterier og kontraindikationer for mange receptpligtige lægemidler. EGFR er en simpel regressionsligning, der bruges til at estimere den målte glomerulære filtrationshastighed (mGFR), som er en referencestandard, men evalueringsmetoden er relativt besværlig. Denne regressionsligning kan ikke betragtes som en AI-model, men den illustrerer mange principper om menneskelige værdier og probabilistisk ræsonnement.
Det første indgangspunkt for menneskelige værdier til eGFR er ved udvælgelse af data til tilpasning af ligninger. Den oprindelige kø, der blev brugt til at designe eGFR-formlen, består hovedsageligt af sorte og hvide deltagere, og dens anvendelighed på mange andre etniske grupper er ikke klar. De efterfølgende indgangspunkter for menneskelige værdier i denne formel inkluderer: valg af mGFR-nøjagtighed som det primære mål for evaluering af nyrefunktion, hvad der er et acceptabelt nøjagtighedsniveau, hvordan man måler nøjagtighed, og brug af eGFR som en tærskel for at udløse klinisk beslutningstagning (såsom at bestemme betingelser for nyretransplantation eller ordinere medicin). Endelig, når indholdet af inputmodellen vælges, vil menneskelige værdier også indgå i denne formel.
For eksempel foreslår retningslinjerne før 2021 at justere kreatininniveauerne i eGFR-formlen baseret på patientens alder, køn og race (kun klassificeret som sorte eller ikke-sorte individer). Justeringen baseret på race har til formål at forbedre nøjagtigheden af mGFR-formlen, men i 2020 begyndte store hospitaler at sætte spørgsmålstegn ved brugen af racebaseret eGFR med henvisning til årsager som at forsinke patientens berettigelse til transplantation og konkretisere race som et biologisk koncept. Forskning har vist, at design af eGFR-modeller med hensyn til race kan have dybtgående og varierende indvirkning på nøjagtighed og kliniske resultater. Derfor afspejler selektiv fokusering på nøjagtighed eller fokusering på en del af resultaterne værdivurderinger og kan maskere gennemsigtig beslutningstagning. Endelig foreslog den nationale arbejdsgruppe en ny formel, der blev omarbejdet uden at tage race i betragtning for at afbalancere præstations- og retfærdighedsspørgsmål. Dette eksempel illustrerer, at selv en simpel klinisk formel har mange indgangspunkter til menneskelige værdier.
Sammenlignet med kliniske formler med kun et lille antal prædiktive indikatorer kan LLM bestå af milliarder til hundredvis af milliarder af parametre (modelvægte) eller mere, hvilket gør den vanskelig at forstå. Grunden til, at vi siger "svær at forstå", er, at i de fleste LLM'er kan den nøjagtige måde at fremkalde svar på gennem spørgsmål ikke kortlægges. Antallet af parametre for GPT-4 er endnu ikke blevet annonceret; dens forgænger GPT-3 havde 175 milliarder parametre. Flere parametre betyder ikke nødvendigvis stærkere muligheder, da mindre modeller, der inkluderer flere beregningscyklusser (såsom LLaMA [Large Language Model Meta AI]-modelserien) eller modeller, der er finjusteret baseret på menneskelig feedback, vil klare sig bedre end større modeller. For eksempel overgår InstrumentGPT-modellen (en model med 1,3 milliarder parametre) ifølge menneskelige assessorer GPT-3 i at optimere modeloutputresultater.
De specifikke træningsdetaljer for GPT-4 er endnu ikke blevet offentliggjort, men detaljerne for tidligere generationsmodeller, herunder GPT-3, InstrumentGPT og mange andre open source LLM'er, er blevet offentliggjort. I dag leveres mange AI-modeller med modelkort; Evaluerings- og sikkerhedsdataene for GPT-4 er blevet offentliggjort i et lignende systemkort leveret af modeloprettelsesfirmaet OpenAI. Oprettelsen af LLM kan groft opdeles i to faser: den indledende præ-træningsfase og finjusteringsfasen, der har til formål at optimere modellens outputresultater. I præ-træningsfasen forsynes modellen med et stort korpus, der inkluderer den originale internettekst, for at træne den til at forudsige det næste ord. Denne tilsyneladende simple "automatiske færdiggørelsesproces" producerer en stærk grundlæggende model, men den kan også føre til skadelig adfærd. Menneskelige værdier vil gå ind i præ-træningsfasen, herunder udvælgelse af præ-træningsdata til GPT-4 og beslutning om at fjerne upassende indhold såsom pornografisk indhold fra præ-træningsdataene. På trods af disse bestræbelser er den grundlæggende model muligvis stadig hverken nyttig eller i stand til at indeholde skadelige outputresultater. I den næste fase af finjustering vil mange nyttige og harmløse adfærdsmønstre dukke op.
I finjusteringsfasen ændres sprogmodellers adfærd ofte dybtgående gennem overvåget finjustering og forstærkningslæring baseret på menneskelig feedback. I den overvågede finjusteringsfase vil hyret entreprenørpersonale skrive svareksempler for promptord og direkte træne modellen. I forstærkningslæringsfasen, baseret på menneskelig feedback, vil menneskelige evaluatorer sortere modellens outputresultater som inputindholdseksempler. Derefter anvender de ovenstående sammenligningsresultater til at lære "belønningsmodellen" at kende og yderligere forbedre modellen gennem forstærkningslæring. Fantastisk menneskelig involvering på lavt niveau kan finjustere disse store modeller. For eksempel brugte InstrumentGPT-modellen et team på cirka 40 entreprenørpersonale rekrutteret fra crowdsourcing-websteder og bestod en screeningstest med det formål at udvælge en gruppe annotatorer, der er følsomme over for præferencer hos forskellige befolkningsgrupper.
Som disse to ekstreme eksempler, nemlig den simple kliniske formel [eGFR] og den kraftfulde LLM [GPT-4], viser, spiller menneskelig beslutningstagning og menneskelige værdier en uundværlig rolle i at forme modelresultater. Kan disse AI-modeller indfange deres forskellige patient- og lægeværdier? Hvordan kan man offentligt vejlede anvendelsen af AI i medicin? Som nævnt nedenfor kan en revurdering af medicinsk beslutningsanalyse give en principiel løsning på disse problemer.
Medicinsk beslutningsanalyse er ikke velkendt for mange klinikere, men den kan skelne mellem probabilistisk ræsonnement (for usikre udfald relateret til beslutningstagning, såsom om man skal administrere humant væksthormon i det kontroversielle kliniske scenarie vist i figur 1) og overvejelsesfaktorer (for subjektive værdier knyttet til disse udfald, hvis værdi kvantificeres som "nytte", såsom værdien af en 2 cm stigning i mandlig højde), hvilket giver systematiske løsninger til komplekse medicinske beslutninger. I beslutningsanalyse skal klinikere først bestemme alle mulige beslutninger og sandsynligheder forbundet med hvert udfald og derefter inkorporere patientens (eller anden parts) nytteværdi forbundet med hvert udfald for at vælge den mest passende mulighed. Derfor afhænger validiteten af beslutningsanalyse af, om udfaldssætningen er omfattende, samt om målingen af nytteværdi og estimeringen af sandsynlighed er nøjagtig. Ideelt set hjælper denne tilgang med at sikre, at beslutninger er evidensbaserede og i overensstemmelse med patientpræferencer, hvorved kløften mellem objektive data og personlige værdier mindskes. Denne metode blev introduceret i det medicinske felt for flere årtier siden og anvendt til individuelle patienters beslutningstagning og vurdering af befolkningens sundhed, såsom at give anbefalinger til screening for kolorektal cancer til den generelle befolkning.
Inden for medicinsk beslutningsanalyse er der udviklet forskellige metoder til at opnå nytteværdi. De fleste traditionelle metoder udleder værdi direkte fra individuelle patienter. Den enkleste metode er at bruge en vurderingsskala, hvor patienter vurderer deres præferenceniveau for et bestemt resultat på en digital skala (såsom en lineær skala fra 1 til 10), med de mest ekstreme sundhedsresultater (såsom fuldstændigt helbred og død) placeret i begge ender. Tidsudvekslingsmetoden er en anden almindeligt anvendt metode. I denne metode skal patienterne træffe en beslutning om, hvor meget sund tid de er villige til at bruge til gengæld for en periode med dårligt helbred. Standardspilmetoden er en anden almindeligt anvendt metode til at bestemme nytteværdien. I denne metode bliver patienterne spurgt, hvilken af de to muligheder de foretrækker: enten at leve et bestemt antal år med normalt helbred med en specifik sandsynlighed (p) (t) og bære risikoen for død med en 1-p sandsynlighed; enten at sørge for at leve i t år under krydsende sundhedsbetingelser. Spørg patienterne flere gange ved forskellige p-værdier, indtil de ikke viser nogen præference for nogen mulighed, så nytteværdien kan beregnes baseret på patientsvar.
Ud over metoder, der bruges til at afdække individuelle patientpræferencer, er der også udviklet metoder til at opnå nytteværdi for patientpopulationen. Især fokusgruppediskussioner (hvor patienter samles for at diskutere specifikke oplevelser) kan hjælpe med at forstå deres perspektiver. For effektivt at aggregere gruppens nytteværdi er der blevet foreslået forskellige strukturerede gruppediskussionsteknikker.
I praksis er den direkte introduktion af nytteværdi i den kliniske diagnose- og behandlingsproces meget tidskrævende. Som en løsning distribueres spørgeskemaer normalt til tilfældigt udvalgte populationer for at opnå nyttescorer på populationsniveau. Nogle eksempler inkluderer det 5-dimensionelle EuroQol-spørgeskema, den 6-dimensionelle nyttevægtsformular, Health Utility Index og det kræftspecifikke European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30-værktøj.
Opslagstidspunkt: 1. juni 2024




