I en vuggestue i Jylland bankede et toårigt barn sit lille hoved ned i gulvet. Det var ikke bare et tårefyldt uheld, det blev ved. Vuggestuens pædagoger blev bekymrede. Den toårige kunne gå fra at være meget aktiv til slet ikke at kunne kontaktes. Pædagogerne sendte en underretning til kommunens børneafdeling. Hvad vuggestuen næppe vidste var, at den underretning gjorde den toårige til en del af et banebrydende eksperiment. Afdelingens socialrådgivere var som de første i Danmark ved at teste en ny, potentielt revolutionerende teknologi af, en kunstig intelligens, der skal hjælpe socialrådgiveren med at træffe de sværeste beslutninger i velfærdssamfundet.
I vintermånederne mellem 2018 og 2019 blev over 200 underretninger om børn og unge i Silkeborg og Hjørring Kommuner bedømt af en kunstig intelligens. Blandt andet en 14-årig, der skar i sig selv, og en 16-årig, der havde begået kriminalitet. Algoritmen tildelte hvert enkelt barn og teenager en ‘risikoscore’. Et tal mellem 1 og 10, hvor 10 er så alvorligt, det kan blive. Scoren er en forudsigelse om barnets eller teenagerens statistiske risiko for at blive anbragt uden for hjemmet.
På børneafdelingen vurderede socialrådgiveren, der modtog vuggestuens underretning, barnets risikoscore til at være 9. Algoritmen mente, det var alt, alt for højt. Den gav den toårige en risikoscore på 1. Nærmest et træk på skulderen. Socialrådgiveren undrede sig – hvordan kunne der være så stor forskel på hendes og algoritmens vurdering? Og endnu vigtigere: Hvem havde ret?
Historien her er fløjet ret meget under radaren. (Med mindre man selvfølgelig læser techmediet Version2). Vildt egentlig, for da de to jyske kommuner testede en kunstig intelligens’ spådomme om potentielt sårbare børn og unge, skrev man danmarkshistorie. Det var aldrig gjort før i socialforvaltningen. Men lad mig tage det hele lidt fra begyndelsen. For nogle år tilbage gik TrygFondens Børneforskningscenter på Aarhus Universitet og VIA University College sammen om at bygge en kunstig intelligens, som en dag kan aflaste landets socialrådgivere med et helt centralt problem, nemlig at finde rundt i de nærmest uoverstigelige mængder information, de navigerer i.
I 2019 modtog kommunerne 137.986 underretninger om børn og unge. Et overvældende højt tal – knap 380 om dagen(!). Det var samlet set 10.232 underretninger flere end i 2018, og antallet af underretninger er kun steget hvert år siden 2015. Det gør også, at kommunernes socialrådgivere har virkelig meget at se til. Samtidig er der virkelig meget på spil, når de træffer afgørelser: Overser man risikosignalerne i en underretning, har det uoverskuelige konsekvenser for et barns eller ungt menneskes liv. Det er i den delikate kontekst, at teknologien nu har gjort sin entré.
Baseret på viden om knap 400.000 tidligere underretninger mellem 2014 og 2017 skal den kunstige intelligens støtte socialrådgivere i at træffe den bedst mulige beslutning, når der tikker en underretning ind. Skal eller skal ikke anbringes. Kendskabet til hundredtusindvis af gamle underretningssager har nemlig, i teorien i hvert fald, givet den kunstige intelligens en evne, som selv de mest erfarne socialrådgivere ikke har: at kunne se ind i et nyt barns eller ungs sandsynlige fremtid og se, om den fremtid er et liv som anbragt. Måske i en plejefamilie, på døgninstitution eller opholdssted.
Det vilde er, at testene i Silkeborg og Hjørring Kommuner skete på rigtige underretninger uden samtykke fra forældrene. Mor og far fik heller aldrig at vide, at deres barn blev del af et eksperiment. Men det, der gør historien her så vigtig, er dette: Scoren, som den kunstige intelligens nåede frem til, prægede nogle socialrådgiveres vurdering af indberetningernes alvor. Det skete i sager, der kan resultere i det måske største indgreb fra statens side – eller det omvendte: en beslutning om ikke at gribe ind.
Her når vi historiens kerne. Der findes næppe voldsommere indgreb fra det offentliges side end at fjerne et barn fra sine forældre. Ikke desto mindre er børne- og familieafdelingen lige nu det sted, hvor det offentlige Danmark satser på kunstig intelligens. Så hvordan gik det, da man for første gang testede teknologien i Silkeborg og Hjørring? I en lejlighed på Amager ved 3-tiden om natten for et år siden sad en data science-studerende ved sin computer. Det var sent, men hun var kommet til at begynde på en tekst om eksperimentet i de jyske kommuner. Da hun var færdig med teksten, kunne hun slet ikke sove.
Næste morgen vidste Therese Moreau, som hun hedder, hvad hendes bachelorprojekt skulle handle om. Hun havde en nagende mistanke om, at forskerne, der byggede socialrådgiver-algoritmen, var på vildspor. Og frygtede, at noget i den kunstige intelligens’ beregninger, det, der lå til grund for over 200 underretningers risikoscore, ikke stemte overens med virkeligheden. Hun fik fat i matematikken bag beregningerne og begyndte at teste algoritmen.
Hun kunne nu se, hvilke data der afgjorde scoren: Den indberettedes alder var ét datapunkt. Derudover eventuelle tidligere underretninger eller anbringelser, om barnet eller teenageren har begået kriminalitet eller været udsat for seksuelle eller voldelige overgreb, eller om forældrene har et alkohol- eller narkotikamisbrug. Alle data, som en socialrådgiver normalt har til rådighed. Men hvor en socialrådgiver trækker på sin viden, erfaring og intuition, når han eller hun får adgang til de data og ser, hvor der er sat krydser, så tildelte den kunstige intelligens hvert afkrydset datapunkt en værdi. Et seksuelt overgreb gav automatisk barnet eller teenageren en risikoscore på mindst 6. Er forældrene misbrugere, var risikoscoren mindst 4. Men Therese Moreau bemærkede også noget mystisk: Alderen havde en uforholdsmæssig stor indflydelse på scoren. Hvis en 2-årig havde været udsat for et seksuelt overgreb, var risikoscoren 7. For en 10-årig var den 9 og for en 12-årig 10. Det tydede på, at algoritmen mente, at et overgrebs alvor steg i takt med barnets alder. Therese Moreau tænkte, at det ikke kunne være rigtigt. Alder er jo bare, ja, alder. Det siger intet om barnets situation. Der måtte være tale om en fejl, tænkte hun, en meget alvorlig én af slagsen.
Algoritmen var jo blevet testet på ægte underretninger. Over 200 gange. Hendes næste spørgsmål var derfor, om aldersbias kunne have påvirket socialrådgiverens syn på ægte børns og unges situation? Var et lille barn et sted i Jylland blevet overset på grund af en lav risikoscore?
Da den kunstige intelligens blev testet i Silkeborg og Hjørring, var den kandidatstuderende Clara Siboni Lund fra Aarhus Universitet med på en videnskabelig kigger. Hun skulle undersøge socialrådgivernes “opfattelse af at anvende algoritmer til vurdering af underretninger”, som hun formulerer det i en videnskabelig artikel, der blev udgivet i 2019.
Studiet giver os et enestående indblik i de vintermåneder, hvor den kunstige intelligens blev taget i brug på børne- og familieafdelingerne. Det er også herfra, vi har den barske historie om den toårige i vuggestuen, der bankede sit hoved i gulvet. Clara Siboni Lund skriver videre om, hvad der faktisk skete, da underretningen kom ind: “Socialrådgiveren vurderer barnets risikoniveau til 9, men får en risikoscore fra modellen på 1. Risikoscoren bliver ikke anledning til en justering af risikoniveauet, og rådgiveren angiver, at hun undrer sig over diskrepansen mellem hendes egen og modellens vurdering.”
Selv om socialrådgiveren i dét tilfælde ignorerede algoritmens anbefaling, var der altså tændt en undren. Andre udtrykte også en bekymring over, at scoren kunne blive en “sovepude” i en hektisk dagligdag. Som en anden socialrådgiver sagde: “Det kan også bare gå hen og blive farligt, hvis man kommer til at hvile for meget på det og ikke husker at have sine faglige overvejelser, sine erfaringer og sit kendskab med.” En anden sagde: “Jeg kunne godt være nervøs for, man kom til at lave sin socialfaglige vurdering på baggrund af den her. Sådan at man egentlig ikke fik sin egen faglighed i spil, som jeg synes, jeg gør nu, fordi jeg skal bruge mit hoved.”
Alligevel havde socialrådgiverne dog så meget tillid, at når algortimens risikoscore var højere eller lavere end socialrådgiveren, så fulgte socialrådgiveren trop. Det fremgår af et internt notat fra forskerholdet bag: “… De foretagne justeringer var i tråd med den vurdering, som modellen gav … Dette tyder på, at redskabet vurderes som troværdigt og følges i de tilfælde, hvor scoren fører til en ændring i vurderingen af en underretning.” Som da der kom en underretning om en 16-årig. Teenageren havde begået kriminalitet. Socialrådgiveren gav teenageren en risikoscore på 4. Algoritmen 10. Det fik socialrådgiveren til at opjustere sin bekymring til 8. Altså fra 4 til 8. Socialrådgiveren forklarede det med en fornyet “opmærksomhed på den unges historik”.
Af de i alt 208 underretninger blev 21 procent af risikoscorerne justeret, efter at socialrådgiveren havde set algoritmens score. Hovedparten enten et enkelt hak op eller ned. Eksempelvis i vurderingen af en 14-årigs situation. Bekymringen var, at forældrene ikke gav tilstrækkelig omsorg. Teenageren var selvskadende, en cutter, og havde tilknytningsvanskeligheder. Socialrådgiveren gav teenageren en risikoscore på 5, algoritmen en risikoscore på 8. Da socialrådgiveren så forskellen på sin egen og algoritmens bedømmelse, gav hun sin egen score et hak op til 6. Et kompromis mellem mennesket og maskinen. Socialrådgiveren forklarede sin forskydning med, at hun havde gjort sig nye “overvejelser omkring betydningen af det, barnet har været udsat for”. At hun ikke landede på 8, skyldtes, at hun “medtænkte, at barnet aktuelt er på efterskole”. Altså en viden, hun havde gennem sit lokale kendskab – at den 14-årige ikke var hos forældrene, men på efterskole. Det havde gjort hende mindre bekymret end algoritmen, der ikke kendte den detalje.
Therese Moreau læste også den videnskabelige artikel om socialrådgivernes oplevelser. Hun kunne ikke slippe historien om socialrådgiveren, der havde risikovurderet det toårige barn til 9, mens algoritmen havde givet barnet risikoscoren 1. Det bestyrkede Therese Moreau i, at hun havde fat i noget alvorligt. I hendes videnskabelige tests, der brugte algoritmens egne beregninger, blev omfanget tydeligt: Alder havde været den mest indflydelsesrige faktor i beregningen af risikoscore. Det var værre, end hun havde frygtet. Algoritmen, der var blevet testet på over 200 underretninger, havde potentielt undervurderet små børns udsathed – hvilket kunne have influeret socialrådgivernes syn på en anbringelse. I sin bachelorafhandling konkluderede hun:
“Teenagere forudsiges systematisk til at have en høj risiko for sårbarhed, og mindre børn forudsiges ofte at have en lav risiko.” Problematisk, som sagt, fordi alder ikke siger noget om barnets potentielle risiko, men blot er en demografisk oplysning. “Forudsigelserne,” skrev hun videre, “er generelt tvivlsomme på grund af flere fejl og mangler ved konstruktionen af modellen.” Ole Winther, professor på DTU’s Institut for Matematik og Computer Science, bedømte afhandlingens konklusion som “korrekt og udtømmende”. I en mail til mig skriver han: “Modellen siger basalt set, at jo højere alder du har, jo højere er din risiko for at blive anbragt. Det siger den, fordi det er, hvad data siger … Alder [skulle] ikke gøre en forskel her. Men det ville modellen sige.”
Aldersbias, forklarer Therese Moreau, er formentligt opstået, fordi mistrivsel og svigt oftere opdages hos større børn og teenagere. “Og det sætter sig i dataene, som algoritmen lærer af.” Det er nemlig sådan, at ser man i statistikkerne, så stiger antallet af indberetninger med alderen. Ikke fordi børn er mere udsatte med alderen, men fordi det ofte først er, når et ungt menneske reagerer udadtil, begår kriminalitet, udvikler et misbrug eller lignende, at myndighederne opdager, noget er helt galt. Det får algoritmen, forklarer Therese Moreau, til at vægte teenageres mistrivsel og svigt tungere end små børns.
Michael Rosholm, der er forsker ved Aarhus Universitet og leder af udviklingen af den kunstige intelligens, anerkender, at en højere alder gav en højere risikovurdering, skriver han i en mail. “Det kan der være flere gode grunde til. For det første underrettes der mindre om små børn. Det stiger ofte fra skolealderen og op … En anden årsag kan være den relaterede: at flere underretningskategorier vedrører aldersrelaterede bekymringer, som eksempelvis misbrug hos barnet, kriminalitet hos barnet, eller problemer i skolen.” Han vil gerne diskutere aldersbiasen – “Vi ønsker ikke at modellen skal videreføre diskriminatorisk adfærd” – og understreger, at algoritmen, der blev testet i Silkeborg og Hjørring, var “meget rudimentær, da det primære formål var at teste koncept og interface.” Siden har Michael Rosholm og forskerne forbedret algoritmen med flere data og mere sofistikerede udregninger, der senere skal testes. Til marts vil man også udgive en etisk rapport om projektet.
For at forstå, hvorfor alder har så stor betydning, skal man forstå et skrækscenarie i brugen af kunstig intelligens. Når algoritmer trænes på historiske data, baseres dens spådomme på fortidens mønstre. Et af de mønstre er, at det er vanskeligt for myndigheder at spotte babyer og små børn, der ikke har det godt. Tager man ikke højde for det, når man tager kunstig intelligens i brug, kan den algoritmisk forstærke myndighedens blinde vinkel. Historiske data som underretninger afslører derudover, hvor myndighedernes fokus historisk har været. Måske på bestemte typer af forældre. Det fokus forstærker algoritmen, fordi det er de data, den kender, mens familier, som myndigheder historisk har overset, fortsat overses. Når kunstig intelligens præger myndigheders beslutninger, er risikoen derfor, at det virker selvforstærkende: Den kunstige intelligens’ forudsigelser bliver en selvopfyldende profeti. I Silkeborg og Hjørring var den profeti, at små børn har mindre risiko for anbringelse end teenagere.
I telefonen fortæller Anette Stevn, der er børne- og familiechef i Hjørring Kommune, at den kunstige intelligens’ risikoscorer og socialrådigiverens eventuelle risikojusteringer ingen indflydelse havde på den videre håndtering. “Socialrådgiverne behandlede underretningerne, præcis som de plejer – efter bogen,” siger hun. “Vi lavede først en vurdering af den enkelte underretning, og først bagefter så vi, hvad algoritmen havde givet af score. Det gav en masse spændende snakke socialrådgiverne imellem.“ Silkeborg Kommunes kommunikationschef svarer i en mail: “… Vi så projektet som en faglig opkvalificering i forhold til vores socialrådgivere baseret på data, de allerede havde adgang til i sagsbehandlingssystemet.”
Dette er de spæde skridt i forsøget på at skabe en langt mere teknologisk avanceret velfærdsstat, end vi kender i dag. Det kommunale Danmark har kastet sig hovedkulds over en teknologi så svimlende potent, at den selv på sit tidlige udviklingsstadie kan få socialrådgivere til at genoverveje deres egne indskydelser. Men tålmodighed er påkrævet. Kunstigt intelligente algoritmer er ikke noget, man tager i brug fra dag ét. Udviklingen vil kræve mere forskning, flere erfaringer med borgere som ufrivillige testpersoner, og at mennesker gør sig dybe tanke om, hvad det egentlig er, vi ønsker, at maskinerne skal hjælpe os med. Heldigvis er det offentlige ikke kendt for at rykke unødigt hurtigt, men at give sig god tid, og måske er det netop sådan, det her ender lykkeligt.