Hvad jeg kan fortælle om statistikkens verden, der påvirker alle dele af vores liv –  og, jo, det er på alle måder fascinerende

TAG SPRINGETLad ikke statistikkens komplekse natur stoppe dig. Der er meget at hente ved at dykke ned i tallene. Illustration: Matthias Seifarth for Zetland

Derfor skal du læse denne artikel

Statistik er noget nær menneskehedens største bedrift, mener journalist og matematiknørd Lasse Hjorth. Så han tog på en opdagelsesrejse ind i statistikkens verden og kom tilbage med en beretning om, at de tal og data, vi i stigende grad bruger i den offentlige samtale, er mere fascinerende – og langt mere magtfulde – end de fleste af os tror.

Det må have været i starten af 00’erne. På det tidspunkt arbejdede jeg hver dag med statistik som analytiker i et konsulentfirma. I fritiden underviste jeg statskundskabsstuderende i statistik på Københavns Universitet.

På mit ene arbejde var jeg med til at gennemføre en undersøgelse om, hvor meget vi danskere egentlig bekymrer os om vold og kriminalitet i samfundet. Tallene viste en sjov tendens: I områder med lav kriminalitet var bekymringen typisk størst. Jeg havde skrevet en pressemeddelelse om emnet, og på den baggrund var jeg blevet inviteret til at deltage i et debatprogram i radioen. Her forklarede jeg, at bekymringen for vold og kriminalitet nok ikke var et udtryk for problemets faktiske omfang, måske mere en afspejling af mediedækningen. Det forhold, at den mindst udsatte aldersgruppe, de ældre, var de mest bekymrede, pegede i samme retning.

Så kom den første lytter igennem på telefonen. Hans kommentar lød, gengivet efter hukommelsen, sådan her: Vi kan ikke bruge de der statistikker til ret meget. De siger, at hvis man har fødderne i en ovn og hovedet i en dybfryser, så har man det i gennemsnit meget godt.”

Den næste lytter var heller ikke begejstret. I min udlægning af undersøgelsen havde jeg nedtonet vold og kriminalitet som et stort samfundsproblem, og den synsvinkel havde han svært ved at købe: Min datter sidder i kørestol efter et overfald for to år siden. For os fylder det en hel del.”

På en måde var det samme synspunkt, de to lyttere gav udtryk for: Statistik maler altid med en ret bred pensel, mange detaljer går tabt. Hvad hjælper det, at arbejdsløsheden er historisk lav, hvis lige netop jeg har svært ved at finde et job? Og hvis man bliver slået ned på gågaden i Bjerringbro, er det ret ligegyldigt, om det var gågadens eneste overfald i ti år.
På den vis havde de to lyttere ret. De havde ret til at være provokerede, for statistik er et magtfuldt redskab. Og det kan ovenikøbet være uigennemskueligt, hvordan man bruger det. Men det sidste er der råd for.

Jo mere mystisk og forvirrende statistikken fremstår, jo mere vokser skepsissen. Det er møgærgerligt, for statistik handler ikke om tal, det handler om mennesker og om den verden, vi lever i. Statistikken er det forstørrelsesglas, videnskabsmænd gennem mere end 1.000 år har studeret verden igennem. Det er en uundværlig del af naturvidenskaben og burde være en uundværlig del af alt, der gerne vil kalde sig videnskab. Udarbejdede man en liste over de 100 vigtigste opdagelser, menneskeheden har gjort, ville man opdage, at matematik, statistik, data og kvantitativ analyse spillede en central rolle i hver og en af dem.

Hvis samfundsdebatten var en familiefest, skulle fornuften (hvis det stod til mig) være hædersgæst, støttet af sine nære slægtninge videnskab, matematik og statistik. Det ville være en glad og åben fest med masser af plads til en hjertelig diskussion med andre grene af familien: kunst, religion og kærlighed.

Denne udgave af Zetlands sommerserie om opdagelsesrejser er derfor en rejse ind i statistikkens verden. Det er et landskab fuld af lumske faldgruber, men det er også et skatkammer af viden. Selv forskere, der burde være på hjemmebane, kommer tit galt af sted i statistikverdenen. Men de kommer også nogle gange tilbage med viden – viden, som blandt andet har gjort, at du er fri for at læse artiklen her fra en stenplade.

Rejsen vil forhåbentlig lette noget af den forvirring og de frustrationer, der, indrømmet, ofte udspringer af statistik. Så hæng på. Der er fem stop. Vi begynder med statistikkens hemmeligheder og ender i forklaringen på, hvorfor statistikken på en måde er menneskehedens største bedrift.

Første stop: Hvornår en forskel er en rigtig forskel

For nylig spillede jeg vendespil med min syvårige datter. Altså det spil, hvor man lægger en masse brikker med billedsiden nedad, hvorefter det gælder om at finde par, som matcher. Man skiftes til at vende to brikker, og har man vendt et billede af en giraf, gælder det om at finde den anden brik med en giraf. Første træk er rent held, men efterhånden som flere og flere brikker er blevet vendt, spiller hukommelse en større og større rolle.

Vores spil indeholder 36 brikker og altså 18 par, der skal matches. Min datter vandt 14-4. Var det rent held? Tja. Hvis vi et øjeblik antager, at min datter og jeg er lige gode til vendespil, ville vi begge have 50 procent chance for at vinde hvert stik. I så fald ville der kun være tre procent chance for, at resultatet ville afvige så meget fra uafgjort (9-9), som det faktisk gjorde i vores spil.

De tre procent er en såkaldt p-værdi, et mål for, hvor mærkeligt et givet resultat er i lyset af en eller anden antagelse ‒ som for eksempel, at to spillere er ligebyrdige i vendespil.

P-værdien er med andre ord en måde at bedømme, hvor signifikant et udfald er. Og signifikans er et vigtigt begreb at kende, når det kommer til statistik. Faktisk lyder trumfen i samtaler, der indeholder statistik, gerne: Forskellen er signifikant.” Underforstået: Det er bundsolidt, diskussionen slutter her. Den dårlige nyhed er, at få forstår, hvad statistisk signifikans egentlig betyder, også blandt mange af de forskere, som er de første til at bruge udtrykket. Den gode nyhed er, at signifikansbegrebet ikke behøver være forfærdelig kompliceret.

Statistikeren Ronald Fisher, idémanden bag brugen af p-værdier, foreslog i 1925 som tommelfingerregel at betragte p-værdier på under fem procent som signifikante – en praksis, som mange tidsskrifter og forskere har taget til sig. Så når man i dag siger, at noget er statistisk signifikant, betyder det typisk, at p-værdien er under fem procent. Femprocentsgrænsen er vilkårlig, mest valgt for at have en eller anden form for fælles grænse. Derfor er det egentlig en oversimplificering, når vi læser, at noget er statistisk signifikant. Det er mere interessant, hvor signifikant det er, altså p-værdiens præcise størrelse. Når vi kalder noget signifikant, blot fordi p-værdien er 4,99 procent, og insignifikant, hvis p-værdien er 5,01 procent, så er vi på tynd is.

Det er varianter over samme udregning, man bruger i mange former for forskning, som når man konstaterer at et lægemiddel virker bedre end et placebo-middel (som en kalktablet), eller at den såkaldte røde blok har et signifikant forspring i meningsmålingerne over blå blok.

Pointen er, at selv om beregningerne og de mange kontroverser om p-værdier og statistisk signifikans kan være tricky, så behøver den intuitive forståelse ikke at være særlig svær: I hvilket omfang modsiger data en eller anden påstand om verden?

I min vendespilsoplevelse gav p-værdien grund til at tro, at min datter og jeg ikke var helt jævnbyrdige. Enten det, eller også havde jeg været virkelig uheldig. Der er op til mig selv at vurdere, hvad jeg tror mest på. Jeg kan bruge tommelfingerreglen med de fem procent, eller jeg kan vælge en anden værdi.

Sagen med p-værdier er, at de ikke giver skyggen af forklaring på, hvorfor en eller anden forskel er opstået. I vores vendespil kan jeg komme i tanke om mindst tre nærliggende fortolkninger:

  1. Min datters hukommelse er bedre end min. (Ikke så utænkeligt, når vi ved, at alle dele af den menneskelige krop fra cirka 30-årsalderen starter et forfald, der først stopper i graven).

  2. Vendespil er jammerligt kedeligt, så mine tanker var langt væk, optaget af en Zetland-artikel, jeg er i gang med at skrive.

  3. Den lille snydepels havde mærket kortene.

P-værdier er, med alle deres begrænsninger, et nyttigt geværgreb til hurtigt at se, om et resultat er iøjnefaldende eller ej. Udregningen kommer særligt til sin ret, hvis man er i tvivl. Hvad nu hvis jeg for eksempel havde tabt 11-7 i stedet for, præcis hvor meget ville det havde modsagt en hypotese om jævnbyrdighed?

P-værdier er fint, når man skal vide, om holdningsforskelle mellem mænd og kvinder i en given spørgeskemaundersøgelse rimeligvis kan skyldes tilfældigheder i stikprøven. Eller om de røde partier lader til at have flertal i befolkningen i øjeblikket. Eller om en bestemt behandling virker bedre end alternativet. Eller om Robert Skov fra FCK med sine i skrivende stund 24 mål i superligaen har været bedre eller mere heldig end Andreas Skov Olsen fra FC Nordsjælland med 21 mål. Men p-værdier hjælper altså ikke med fortolkningen. Vi får ingen svar på hvorfor.

En sidste ting, som er værd at bemærke: P-værdierne (og dermed spørgsmålet om, hvorvidt et resultat får prædikatet signifikant) afhænger af, hvor store mængder data vi taler om. Havde min datter og jeg spillet ti gange med et samlet resultat på 140-40 i stedet for 14-4, ville det naturligt nok havde givet en anden p-værdi.

Det betyder også, at vi med tilpas store datasæt næsten altid får små p-værdier. Undersøger vi for eksempel datasættet bag PISA-undersøgelsen med mere end en halv million medvirkende kan man konstatere en lille, men signifikant forskel på drenge og pigers score i matematik. (Drenge scorer i gennemsnit en lillebitte smule bedre i matematik, mens piger klarer sig bedre i læsning).

Derfor bør man spørge sig selv ikke kun, om det er signifikant, men også, om forskellen er stor nok til at være interessant. Det er det, man også nogle gange kalder praktisk signifikans – hvor ordet signifikans bliver brugt på en lidt anden måde, nemlig i betydningen væsentligt. Ikke kun statistisk set, men også fra en praktisk synsvinkel. Er forskellen så lille, at den er værd at bruge tid på at diskutere og eventuelt efterforske nærmere?

Andet stop: Hvordan man tager fejl med statistik

Hvordan er det nu: Er alkohol i små mængder godt eller skidt for helbredet? Er der noget med, at en enkelt genstand om dagen modvirker blodpropper? Så længe det er vin (helst rødvin), endelig ikke whisky, helst heller ikke øl? Var det sådan, eller er der kommet et nyt studie siden da? Og hvordan er det nu lige, det ligger med gluten? Og laktose? Animalsk fedt? Olivenolie? Kartofler? Er nitrit stadig kræftfremkaldende? Ligesom ftalater?

Hvis du, som jeg, føler, at de mange undersøgelser på sundheds- og kostområdet kan være forvirrende og indbyrdes modstridende, så er der en god grund til det. Grunden hedder cherry picking – at plukke kirsebær. Det er oprindelig et begreb brugt ret snævert af statistikere til at beskrive de fejl, der kan opstå, når en forsker udvælger nogle få interessante resultater blandt en stor mængde mindre interessante resultater. På samme måde som en kirsebærplukker omhyggeligt plukker de rødeste bær og kun dem. Efterhånden hører man udtrykket brugt mere bredt. Når debattører i tv beskylder hinanden for cherry picking, mener de selektiv brug af fakta.

Lad os tage et tænkt – ekstremt – eksempel ved at bygge lidt videre på min oplevelse med at spille vendespil med min datter. Lad os sige, at min forfængelighed havde det svært med at erkende, at en syvårig skulle være bedre end mig til et tænkespil. Så i stedet for at holde fast i det ydmygende 14-4-resultat, spillede vi igen og igen, indtil jeg endelig vandt med for eksempel 10-8. Hvis jeg så valgte at lægge netop dén score til grund for en vurdering af styrkeforholdet og ikke alle resultaterne, ville det tydeligvis være misvisende. Og et klokkeklart eksempel på cherry picking.

Tegneserien xkcd har et andet eksempel på cherry picking, som stadig er tydeligt, men faktisk ret tæt på virkeligheden: En gruppe forskere bliver bedt om at efterforske en mulig sammenhæng mellem indtagelse af Jelly Beans og forekomst af hudlidelsen akne. (Jelly Beans er de små vingummiagtige, bønneformede stykker slik, som kommer i et utal af farver og smage).

Forskerne finder ingen sammenhæng. På opfordring undersøger de dernæst sammenhængen mellem 20 specifikke farver af Jelly Beans og akne. For 19 af farverne viser studierne en p-værdi over fem procent, men netop for farven grøn er p-værdien under fem procent, og forskerne konkluderer en signifikant statistisk sammenhæng mellem grønne Jelly Beans og akne. Det er så det eneste resultat, der når avisernes forside.

Igen: et ekstremt og ret gennemskueligt eksempel på cherry picking. Givet tilpas mange undersøgelser vil de tilfældigheder, som ligger i udvælgelsen af forsøgspersoner eller andre observationer, før eller siden producere et resultat, der virker signifikant.

Et eksempel fra den virkelige verden: Nogle vil huske debatten i 2005, da et studie viste, at børn, som boede i nærheden af højspændingsledninger, havde en forøget risiko for at udvikle leukæmi. Rimelig skræmmende … og rimelig ubegrundet, viste efterfølgende forskning. Forklaringen på det misvisende resultat minder om Jelly Beans-vittigheden: Forskerne havde undersøgt virkelig mange potentielle sammenhænge, før de fandt én, som var signifikant.

I det tilfælde var problemet hverken ond vilje eller inkompetence hos forskerne. Medierne har som bekendt en tendens til at løbe med de mest chokerende, dramatiske og foruroligende historier, og det gjorde de i den grad i dette tilfælde. Studiets hovedforfatter, Gerald Draper fra Oxford University, var ellers ret forbeholden med sine udtalelser om, at resultaterne ikke nødvendigvis var kausale, kunne skyldes tilfældigheder, og at der ikke fandtes en god teoretisk forklaring på, hvordan en sammenhæng mellem højspændingsledninger og leukæmi kunne opstå. Intet af dette nåede imidlertid til overskrifterne.

Lignende eksempler står nærmest i kø. Sidste år publicerede forskere et studie i det ansete videnskabelige tidsskrift The Lancet, som viste, at selv moderat alkoholindtag kunne være farligere end hidtil antaget. Mainstreammedierne fulgte op med sensationsagtige overskrifter: Mere end ét glas vin om dagen kan barbere flere år af dit liv,” skrev The Independent for eksempel. Denne gang brugte andre forskere deres eget massemedie, Twitter, til at gå i rette med konklusionen:

The paper is bullshit, news is bullshit,”– altså artiklen er noget vrøvl, nyhederne er noget vrøvl”, tweetede Vinay Prasad, en amerikansk onkolog (læge med speciale i kræftsygdomme). Han fulgte op med en meget underholdende og lærerig tweetorial – en serie af tweets, som demonstrerede, hvorfor studiet var misvisende.

Sagens kerne var – rigtig gættet – cherry picking. Denne gang på en lidt mere subtil måde: De store datasæt og de mange tilgængelige statistiske metoder giver så stor fleksibilitet, at man kan nå mange forskellige konklusioner, hvis bare man er tålmodig nok. Der skal nok være et knaldrødt kirsebær et eller andet sted. Det handler blot om at finde det.

Et symptom på den uheldige effekt af cherry picking i forskningen er, at mange af de spektakulære resultater ikke lader sig genfinde af efterfølgende undersøgelser – ganske som tilfældet med højspændingsledninger. Det er det, man nogle gange kalder reproducerbarhedskrisen i sundhedsvidenskab (og en lange række andre områder). En prominent forsker, John P. A. Ioannidis, professor i medicin ved Stanford University, publicerede allerede i 2005 en artikel med den sigende titel: Why Most Published Research Findings Are False.

Hvis vi skal tage et sidste eksempel fra et emne, som interesserer 99 procent af forældre til børn (og nej, det er ikke et tal underbygget af forskning): Er der sammenhæng mellem mistrivsel og brug af smartphones blandt børn og unge? Manfred Spitzer skriver i sin bog Digital demens (s. 12) følgende sammenfatning, der kan tjene som et eksempel på de mest bekymrede udlægninger af forskningen:

Det er påvist, at smartphones forårsager nærsynethed, depression, opmærksomhedsforstyrrelser, søvnforstyrrelser, mangel på motion, overvægt, skader i nakken, diabetes, forhøjet blodtryk, afhængighed (internetafhængighed, spilafhængighed, smartphone-afhængighed, men også et større forbrug af alkohol og tobak) samt større risiko for sexrelaterede sygdomme og trafikulykker (anvendelsen af såkaldte Geosocial Networking Apps fører til mere tilfældig sex og dermed større udbredelse af kønssygdomme; og smartphones har nu overhalet alkohol som den primære årsag til ulykker blandt unge trafikanter). Dertil kommer, at smartphones gør mennesker mindre tilfredse med deres liv og mindre empatiske over for forældre og venner, dvs. mindre i stand til at sætte sig i deres sted.”

Det er umuligt at vide, om der er noget om snakken (og i givet fald på hvilke punkter), eller om det er ren cherry picking. Et metodekritisk studie fra januar 2019 i tidsskriftet Nature peger på, at mange af analyserne om sammenhæng mellem skærm og trivsel stammer fra store spørgeskemaundersøgelser, hvor der spørges til skærmbrug og trivsel på mange forskellige måder. En af disse undersøgelser giver ikke mindre end cirka 600 millioner mulige måder at undersøge sammenhængen skærm/trivsel på. Det skulle være mærkeligt, om ikke et par stykker af disse viste noget iøjnefaldende. Overordnet finder forskerne, at brug af digitale medier forklarer højst 0,4 procent af variationen i trivsel. Havde man rettet fokus mod noget helt andet, som det at bære briller, have en vis højde eller spise kartofler, kunne man have fundet en sammenhæng” i samme størrelsesorden.

Hvilket fører os til en vigtig pointe: Blot fordi den eksakte statistiske procedure i et bestemt studie kan kritiseres, betyder det ikke nødvendigvis, at resultaterne er forkerte. Det betyder blot, at beviserne ikke er så stærke, som de måske forekommer ved første øjekast. Spitzer og mange andre kan godt have ret – vi ved det bare ikke helt sikkert.

Før vi kigger på, hvad vi så i det hele taget kan bruge statistikken til, så lad os tage ét stop mere på turen i statistikkens verden. Vi skal se på et problem, der er så udbredt, at der muligvis ikke findes én lærebog i statistik, som ikke nævner det.

Tredje stop: Hvordan man adskiller et sammenfald fra en sammenhæng

Vi ved det alle sammen godt: Ikke alt, der går hånd i hånd, har noget med hinanden at gøre. Blot fordi arbejdsløsheden altid falder, når håndboldholdet har klaret sig godt i EM, betyder det ikke, at sportsresultater påvirker arbejdsløsheden. Heller ikke selv om man med tilpas meget fantasi sikkert godt kunne producere en forklaring på, hvorfor det kunne være sådan.

Mange akademikere har det første år på universitetet lært sætningen Korrelation er ikke det samme som kausalitet”, hvilket er en mere teknisk måde at sige det på: Når noget går i takt, er det ikke det samme, som at det ene forårsager det andet. Egentlig er det meget enkelt og ikke et stop værd, hvis ikke det var, fordi spørgsmålet optræder i mange forskellige forklædninger og til stadighed formår at skabe forvirring.

Problemet er, at det er ret svært at påvise en årsagssammenhæng, og eftersom første skridt tit er at finde en korrelation, er det ofte det, man nøjes med.

Vi ved, at der er en sammenhæng, altså en rigtig årsagssammenhæng, mellem det at ryge og sandsynligheden for at få kræft. Men at korrelationen mellem de to, at rygere hyppigere end ikke-rygere får kræft, var ikke nok til at fastslå årsagssammenhængen. Det krævede både dyreforsøg og kliniske undersøgelser at etablere årsagssammenhængen og give en forklaring på, hvorfor rygning forårsager kræft.

Lad os snuppe et par eksempler på problemet med korrelation eller kausalitet.

I valgtider er der ofte undersøgelser, som, groft sagt, viser, at rige vælgere tenderer til at stemme på borgerlige partier, mens mindre velstående oftere stemmer på venstrefløjen. Er det en korrelation eller en årsagssammenhæng? Uklart. Det er nærliggende at tænke, at de rigeste stemmer borgerligt, fordi det typisk er den fløj, der gerne vil sænke topskatten. Man stemmer med andre ord med tegnebogen, man stemmer blåt, fordi man er rig.

Det er en plausibel tanke, men blot fordi man kan udtænke en mulig årsagsforklaring, der harmonerer med en korrelation, bliver den ikke automatisk til en sand forklaring. Måske har det ikke noget med pengene at gøre, måske har det med vælgernes arbejde at gøre. Landmænd har for eksempel tradition for at stemme på Venstre, også selv om de ikke er specielt rige. Måske gælder det samme for andre, mere velstående faggrupper.

Pointen her er blot, at sammenhængen mellem indkomst og partivalg ikke nødvendigvis er en direkte årsagssammenhæng. I realiteten er det selvfølgelig mudret: Det er meget muligt, at indkomst reelt forklarer en del, men ikke det hele, af tendensen for de velstående til at stemme blåt.

Indimellem ser man undersøgelser, som viser, at børn i privatskoler klarer sig godt efterfølgende: De får bedre uddannelse, får oftere arbejde og tjener mere end elever, der har gået i en folkeskole. Der er formentlig ikke tale om en årsagssammenhæng. Det er socialt velstillede børn, der går i privatskole, og den sociale arv betyder, at børn af ressourcestærke hjem i gennemsnit klarer sig bedre i uddannelsessystemet og på arbejdsmarkedet end børn med knap så stærk en ballast.

Den sociale arv er selvfølgelig også i sig selv en korrelation, der måske, og måske ikke, har andre forklaringer.

En anden klassiker på området er lønforskelle mellem kønnene. Det er velkendt, at mænd i gennemsnit tjener mere end kvinder, men er det, fordi de er mænd? Er årsagen kausal, eller skyldes den noget andet? En del af forklaringen er det såkaldte kønsopdelte arbejdsmarked, hvor mænd tenderer til at have mere vellønnede job, herunder lederstillinger. Men hvad forklarer så den sammenhæng? Juryen voterer stadig. Nogle hævder, at der kan være biologiske forskelle i kønnenes præferencer, andre, at forskellen opstår ved socialisering. Det eneste, der er sikkert, er, at man får ørene i maskinen, næsten uanset hvad man hævder. Her nøjes vi med at notere, at der er stor forskel på at konstatere en lønforskel og på at forklare den. Det ene er korrelation, det andet er kausalitet.

Kritik får man også nemt, når man diskuterer kriminalitet fordelt på etnicitet. Hos Danmarks Statistik er det nemt at konstatere, at indvandrere har en højere kriminalitetsfrekvens end danskere, men det er lige så hurtigt at konstatere, at også unge, kortuddannede, arbejdsløse og fattige er mere kriminelle end gennemsnittet af danskere. Mange korrelationer, få forklaringer, tvivlsomme årsagssammenhænge. Det egentlige problem er, at så længe man ikke for alvor forstår mekanismerne, er det svært at gøre noget ved det. Skal man bekæmpe kriminalitet, skal man vide, hvad der forårsager det.

Fjerde stop: Hvordan statistikken var løftestang i menneskehedens største bedrift

De tre første stop på rejsen i statistikverdenen handlede om lumske problemer og potentielle fejlslutninger. Men nu er vi nået til statistikkens stjernestund. Vi begynder med et spørgsmål: Hvad er den største bedrift, menneskeheden har bedrevet i sin historie?

Et godt bud kunne være nedbringelse af børnedødeligheden. For 200 år siden, i starten af 1800-tallet, var den globale børnedødelighed på cirka 40 procent – fire ud af ti børn døde, før de fyldte fem år. I begyndelsen af 1900-tallet faldt dødeligheden til omkring 30 procent. I dag er den nede på omkring fire procent. (I Danmark 0,4 procent). Den undgåede sorg og lidelse, som faldet fra 40 procent til fire procent repræsenterer, er enorm: Millioner af børn, som overlevede, der ellers ville have været døde. Menneskehedens største bedrift.

Årsagen til faldet i børnedødeligheden er naturvidenskabelige fremskridt, og et af de vigtigste værktøjer har været statistik. Der er tale om mange landvindinger af mange typer; en af de berømte blev gjort af den ungarsk-tyske fødselslæge Ignaz Semmelweis i 1847 i Wien. Han førte omhyggeligt regnskab med, hvor mange fødende kvinder der overlevede besøget på hans fødeklinik. Dødeligheden var skræmmende høj, men til sidst lykkedes det ham at lokalisere årsagen: Medicinstuderende, der gik direkte fra obduktionslokalet til fødestuen uden at vaske hænder. Dengang var det en vild tanke, at usynligt materiale (i dag kendt som bakterier) skulle kunne overføre smitte fra et lig til en levende, så Semmelweis havde brug for håndfaste beviser.

Det fik han, da han indførte obligatorisk håndvask i en kloropløsning. Dødeligheden på klinikken faldt fra omkring ti procent til under det halve. Og den faldt yderligere, da han indførte kontrol med håndvasken. Pointen er, at uden en god statistik ville han muligvis slet ikke have kunnet konstatere forskellen. Tallene svingede voldsomt fra måned til måned, så det var ikke til at sige, om en enkelt god måned var en del af et mønster eller rent held. Semmelweis førte sin statistik omhyggeligt, hvilket gav ham vished om årsagen – og reddede livet for mange kvinder og nyfødte i de kommende år.
Et mere nutidigt eksempel: I 1970’erne begyndte spædbørn verden over i stigende omfang at dø af uforklarlige årsager, mens de sov. Det, vi kender som vuggedød. I Danmark skete fra 1973 til 1983 en tredobling i antallet af tilfælde af vuggedød, og selv om det heldigvis var langt sjældnere end de mange farer, der lurede på Semmelweis’ tid, giver det sig selv, at hvert enkelt tilfælde var en ufattelig tragedie for de berørte.

Da en engelsk børnelæge, Peter Fleming, begyndte at få mistanke til, hvad årsagerne kunne være, var det første, han gjorde, at indsamle data. Nogle år senere havde han og hans kolleger data, som de kunne behandle statistisk, blandt andet ved at udregne p-værdier. Resultatet var for mange på det tidspunkt nærmest absurd: Sovestillingen hos spædbørnene var en markant risikofaktor. Sandsynligheden for vuggedød voksede markant, hvis man lagde sit barn til at sove på maven. Især hvis temperaturen i soveværelset var lovlig høj – på grund af vejret, en tyk vinterdyne, eller hvis spædbarnet sov under samme dyne som sin mor eller far.

Da myndighederne verden over satte kampagner i gang, som forklarede dette til vordende forældre, faldt spædbørnsdødeligheden igen.

Hvis vi ikke havde haft en brugbar statistik for dødsfald og dødsårsager, ville man ikke engang have kunnet konstatere, at den var galt fat. Og hvis ikke vi havde haft data og statistiske værktøjer til at analysere disse, ville sagens rette sammenhæng have været langt sværere at gennemskue. (Der er faktisk stadig lang vej, for man ved endnu ikke, hvorfor temperatur og det at sove på maven udløser større risiko for vuggedød).

Det fine ved statistikken er, at den giver os en måde at registrere verden på, som i det mindste forsøger at løse de problemer, der opstår, når vores dagligdags observationer er for sparsomme, for subjektive, for usikre eller på anden vis upålidelige.

Erkendelsesteoretisk hører statistikken til den gren, som mener, at observationer af verden er vigtige, fordi hverken abstrakte ræsonnementer eller henvisning til autoritative kilder bringer os helt i mål, når vi prøver at blive klogere.

Det er også derfor, det var en sensation, da det for nylig lykkedes for astrofysikere at fotografere et sort hul i en galakse langt, langt borte. Én ting er at have matematiske modeller, der understøtter eksistensen af sorte huller, noget helt andet er at se et billede af et. Verden skal observeres. Hvis observationerne er systematiske, bliver de til data, og når data behandles statistisk, kan det hjælpe til at afgøre, hvad de egentlig siger.

Sagen er så bare, at data ofte ikke siger helt så meget, som man kunne ønske. Men selv om det er fristende at tage afstand fra en statistisk tilgang til omverdenen på grund de mange begrænsninger, mulige fejltagelser og hyppige overfortolkninger, så ville det være en endnu større fejltagelse.

Hans Rosling, den afdøde læge og sundhedsstatistiker, kendt for blandt andet sine TED Talks og animerede grafer, forstod om nogen både nytteværdien og begrænsningerne i statistik. I sin bog Factfulness fra 2018 fortæller han om, hvordan han som udstationeret læge i Mozambique i starten af 1980’erne arbejdede på et håbløst underbemandet hospital i Nacala-distriktet, hvor børn døde i hobetal. Det umiddelbare instinkt i den situation var dels at arbejde i døgndrift, dels at kæmpe for flere læger. Men med lidt statistik og procentregning opdagede Rosling, at langt de fleste dødsfald måtte finde sted i landsbyerne, før børnene overhovedet nåede på hospitalet. Det betød, at ressourcerne var bedre brugt på sundhedspleje i lokalsamfundet end på læger. Det ville hjælpe til, at sygdomme som diarré, malaria og lungebetændelse kunne blive forebygget og behandlet, før de blev livstruende og krævede hospitalsindlæggelse. Indlæggelse skete alligevel sjældent, som regel for sent og på et hospital med utilstrækkelige ressourcer.

Det kan, skriver Rosling, virke hjerteløst at tælle døde børn og tale om omkostningseffektivitet, men det er mere hjerteløst ikke at gøre det.

Paradoksalt nok møder man tit modstand mod statistik hos folk, der arbejder professionelt med et område. I den autentiske bog Moneyball af Michael Lewis (og i filmen af samme navn med Brat Pitt i hovedrollen) møder baseballchefen Billy Beane stor modstand fra talentspejderne, da han forsøger at indføre statistiske metoder til at optimere holdets indkøb af spillere. Selvfølgelig viser det sig, at det blik, talentspejderne selv mener at have udviklet for talent, er problematisk, for ikke at sige næsten værdiløst. Billy Beanes objektive, matematiske, databaserede tilgang viser sig at være bedre og har siden spredt sig overalt i professionel sport. Big data skal hjælpe Danmark ved VM,” lød for eksempel en overskrift på dr.dk i juni 2018.

Problemet med at forlade sig på ekspertviden, fornemmelser og subjektive vurderinger er netop, at det er veldokumenteret, at disse er ret upålidelige. Den kendte psykolog Daniel Kahneman og hans lidt mindre berømte makker Amos Tversky forskede intenst i de tommelfingerregler, folk bruger som genveje, når der skal træffes beslutninger. De er, kort fortalt, ikke særlig præcise. Problemet kaldes kognitive bias, altså en slags skævheder i, hvordan vi oplever og konkluderer omkring omverdenen. Listen med skævheder i den kategori er lang.

Et eksempel: Hvem kender ikke begrebet en forårsforkølelse? Vejret virker mildt, man lader halstørklædet blive hjemme, sidder lidt for længe i træk, og vupti har man reddet sig en forårsforkølelse. Problemet er bare, at der ikke er nogen sammenhæng mellem halstørklæder og forkølelse. Opstiller man eksperimenter, kan man simpelthen ikke genfinde fænomenet.

Hvorfor oplever vi det så? På grund af en type kognitiv bias, man kalder bekræftelsesbias. Vi husker alle de gange, vi har siddet i træk og efterfølgende er blevet forkølet, fordi det netop var, hvad vores forældre og bedsteforældre advarede imod. Alle de gange, vi har siddet i træk og ikke er blevet forkølet, går i glemmebogen, præcis ligesom alle de gange, vi er blevet forkølet uden at have været udsat for træk.

Forkølelse udløses af et stort antal forskellige vira. Man kan blive smittet gennem luften eller ved berøring. Som når en forkølet person nyser én i ansigtet, eller man rører ved de samme ting og efterfølgende har kontakt mellem hænderne og munden. Man bliver ikke smittet af træk, medmindre luften indeholder en virus.

Det er ikke, fordi man ikke nogle gange kan spotte en korrekt sammenhæng uden at tælle efter, men som hovedregel kan vi ikke stole på vores indre, subjektive statistik. Den stærke menneskelige trang til at forstå verden omkring os (jeg tror, det er en bivirkning af den høje intelligens, som kendetegner mennesker i forhold til dyr) får os ofte til at drage forhastede konklusioner og se sammenhænge, som ikke nødvendigvis er der.
Der er kun én effektiv medicin mod selvbedrag af den type: at tælle efter. Og gøre det på en så objektiv måde, at andre kan tælle efter.

Indvendinger mod statistik handler ofte om, at det er fint til naturvidenskab, mindre fint til humaniora og samfundsvidenskab. Disse områder unddrager sig kvantificering, hedder det. Mennesker er for komplicerede, og i modsætning til elementarpartikler reagerer vi på at blive målt og vejet.

Det er klart, at analyser, der involverer mennesker, er komplekse. Hvad forårsager for eksempel mobning blandt skolebørn? Måske har det ikke (kun) noget at gøre med individuelle forhold, som når børn, der har det dårligt derhjemme, afreagerer ved at mobbe andre, eller børn, der skiller sig ud, er ekstra udsat for mobning. Måske har det noget at gøre med klassen, lærerne, skolen, samfundet og et superkomplekst samspil mellem alle disse niveauer.

Et eksempel fra et ultrasvært emne, hvor forståelsen er i bund, og følelserne er i top, er et fænomen som de mange skoleskyderier i (især) USA. Hvad er den egentlige årsag til disse uforståelige tragedier? Voldelige computerspil? Frit tilgængelige våben? Uansvarlige forældre? Ensomhed? Spiller statistik på nogen måde en rolle i forsøget på at forstå de dybere årsager? Jeg tror det.

The Wall Street Journal gennemgik for nylig 30 års data om skyderier på skoler. Ud af 39 gerningsmænd var mindst 21 ofre for mobning. (Mindst, fordi oplysninger om mobning ikke forelå i alle tilfælde). Det er en del mere end normen, så vi har en korrelation, en statistisk sammenhæng, men ved ikke, om mobning reelt var en medvirkende årsag til skyderierne. Det virker umiddelbart nærliggende, for det er nok ikke de populære drenge, der en dag møder op i skole med et automatvåben i tasken. (Og ja, det er i langt de fleste tilfælde drenge, der skyder løs – endnu en korrelation at tænke over). Korrelationen mellem mobning og skoleskyderi viser én faktor, der måske kan være en del af forklaringen. Hvis det er rigtigt, er løsningen måske at bekæmpe mobning frem for at installere metaldetektorer på skolerne.

Skal vi have en dyb forståelse af visse fænomener – selv de komplekse – er der ikke nogen vej uden om, før eller siden, at tælle, måle, veje og teste. På en måde og med værktøjer, der passer til problemstillingen.

Det er vigtigt at forstå, at brugen af statistik ikke tager noget fra alle mulige andre nyttige, inspirerende, idéskabende aktiviteter. Der findes masser af andre veje til indsigt og erkendelse. Hvad kunne for eksempel være mere datatomt end meditation? Men der er intet i en naturvidenskabelig, databaseret tilgang, som underkender erkendelse opnået den vej. Det samme gælder mange andre aktiviteter, som ikke er datatunge i traditionel forstand: samtaler, kvalitative interview, refleksion, læsning, foredrag, kunst, musik og så videre. Ingen af disse vil i sig selv føre til en eksakt forståelse af årsager og virkninger, der kan bruges til forudsigelser, men de kan meget vel inspirere til undersøgelser, som kan føre derhen. Og så kan de være ganske værdifulde i sig selv.

Det er også vigtigt at pointere, at fordi data, matematik og statistik spiller en vigtig rolle i forhold til at forstå verden, er det ikke det samme, som at alt skal måles og vejes. Den udskældte new public management-tilgang til den offentlige sektor, hvor tid og arbejde nidkært registreres med henblik på optimering af arbejdsgange, er sikkert en dårlig idé. Tilsvarende er det heller ikke sikkert, at der kommer noget fornuftigt ud af de omfattende PISA-undersøgelser, som forsøger at kortlægge skolebørns faglige kunnen kvantitativt.

Den analytiske, kvantitative, naturvidenskabelige tilgang til viden er en form for rationalisme. Samme rationalisme tilsiger, at man spørger sig selv, om det er umagen værd at forsøge at måle og veje tingene. Vi har ikke nødvendigvis brug for en højvidenskabelig undersøgelse, som afdækker, hvorvidt fysisk aktivitet er en gavnlig ting i løbet af en skoledag, og hvorvidt det er fornuftigt at sætte en øvre grænse for skærmtid. Vores sunde fornuft kan ikke svare på alt, men den er stadig god at have.

Med Hans Roslings ord: Vi kan ikke forstå verden uden tal. Og vi kan ikke forstå den, hvis vi udelukkende ser på tal.”

Femte stop: Tips og tricks

Paradokset er altså, at statistikken rummer masser af faldgruber, ofte bliver brugt på en misvisende måde, selv af fagfolk, der burde vide bedre, og sjældent giver så gode, præcise og robuste svar, som man kunne havde håbet. Alligevel spiller statistik, matematik og data en stor rolle i masser af opdagelser og i fornuftsbetonede forsøg på at forstå omverdenen.

Så hvad er det praktiske råd? Her kommer en liste over ting, det kan betale sig at overveje, næste gang en ny undersøgelser viser …”:

  • Hvilken type undersøgelse? Er det en undersøgelse, som er tilrettelagt til at belyse netop det aktuelle spørgsmål, eller er det en mere generel sag om danskernes holdninger, værdier, madvaner eller transportmønstre? Er det en gigantisk spørgeskemaundersøgelse, eller er det et randomiseret, dobbeltblindt forsøg i stil med dem, lægeverdenen bruger? De store generelle undersøgelser kan ofte vrides og drejes på mange måder, mens et omhyggeligt tilrettelagt forsøg er den gyldne standard, når vi snakker årsag/virkning. Og ikke mindst: Er undersøgelsen ny og banebrydende”, eller er det en bekræftelse at et forhold, som mange andre har peget på? Gæt selv, hvad der er det mest pålidelige.

  • Taler vi om et antal, en sammenhæng eller en forudsigelse? Der er stor forskel på, om formålet er at vurdere størrelsen af Stram Kurs’ tilslutning, at forklare, hvorfor folk støtter partiet, eller forudsige, hvor mange stemmer det vil få ved et kommende folketingsvalg. Antal kan være svære nok, vi har statistiske usikkerheder, fejlkilder, forskellige opgørelsesmetoder. Sammenhænge er straks vanskeligere, for korrelationer er ikke nok. Forudsigelser er djævelsk vanskelige. Det går bedst, når det er velforståede naturvidenskabelige fænomener som solformørkelser, men ikke engang her er vi i sikkert farvand. De præcise konsekvenser af for eksempel klimaforandringerne er ganske usikre.

  • Hvem er afsenderen? Når den liberale tænketank CEPOS gang på gang lancerer analyser, der viser, at løsningen på et givet samfundsproblem er at sænke topskatten, så er det lige så troværdigt, som når Arbejderbevægelsens Erhvervsråd konstaterer, at de fleste dårligdomme kan fikses ved at forlænge dagpengeperioden. Politisk motiverede undersøgelser er måske nemme at gennemskue, men glem ikke, at forskere også har dagsordner. De er tit under pres for at publicere, og det er nemmere at publicere banebrydende, kontroversielle resultater end halvkedelige konklusioner fulde af forbehold.
    Nogle gange er afsenderproblemet så oplagt, at man næsten ikke kan se skoven for bare træer: Talrige er de analysevirksomheder, som har en helt særlig metode (der ofte involverer en dyr spørgeskemaundersøgelse), som kan afsløre, præcis hvordan netop din virksomhed kan få mere tilfredse kunder. Lyder det for godt til at være sandt? Det er det også.

  • Et eksempel: Jeg arbejdede engang hos en organisation, der år efter år betalte dyrt for at få gennemført en spørgeskemaundersøgelse, som viste, at medlemmer, der var enige i, at organisationen var kompetent”, også var de mest tilfredse. Den korrelation (pakket ind i en masse farverige grafer og unødvendigt statistisk mungo-jumbo) blev rask væk oversat til, at image var den vigtigste årsag til tilfredshed og derfor et strategisk indsatsområde. Sandheden var selvfølgelig, at tilfredse medlemmer, logisk nok, var mere tilbøjelige til at rose organisationen. Det var blot to sider af samme sag, korrelation uden årsagssammenhæng.

  • Sund fornuft og et falkeblik for detaljer. Detaljer betyder noget. Hvad er det egentlig, man har talt? Er det lovovertrædelser eller lovovertrædere, togrejser eller togrejsende? Er tallene absolutte eller relative? Når der hver dag fældes regnskov svarende til 22 fodboldbaner”, er det svært at vide, om det er meget eller lidt. Hvor mange fodboldbaner kommer der hver dag til, og hvor meget er det i procent? Hvordan lød spørgsmålet om synet på islam i den seneste meningsmåling helt præcis, og hvordan var svarskalaen?

Her er et eksempel fra en del år tilbage, hvor det haltede med omtanke og sans for detaljen: Man havde opgjort sygefravær af én dags varighed for offentligt ansatte og fundet ud af, at det ofte faldt på en mandag eller fredag. Hvem sagde pjæk? Men lige et øjeblik: Er man syg om mandagen og rask om tirsdagen, kan det skyldes sygdom af både en, to og tre dages varighed, for arbejdsgiveren blander sig ikke i, om man er sengeliggende i weekenden. Det samme gælder fredagssyge – en del af det går også ud over weekenden. Omvendt kan en enkelt sygedag om onsdagen netop kun være af én dags varighed. Opgjort på den måde er det ikke så mærkeligt, at mandags- og fredagssyge er ekstra hyppigt. Detaljer betyder noget.

  • Sund skepsis skal ikke tage overhånd. Har man taget et kursus i videnskabelig metode på en af de utallige samfundsvidenskabelige uddannelser eller læst en lang Zetland-artikel om emnet, så ved man et og andet. Brug krudtet på at finde det potentielt interessante i en undersøgelse og ikke på nidkært at påpege alle de teoretiske fodfejl, der kan være begået. Eller som de siger på fagsprog: Don’t be a dick. Ingen undersøgelser tager højde for alt.

  • Omfavn din uvidenhed. Lær at leve med, at vores viden, med eller uden statistik, er stærkt begrænset. Der er meget, vi ikke ved. Det er ikke det samme, som at vi intet ved, at alt er lige rigtigt, eller at statistik er ligegyldigt.
    Min egen oplevelse er, at man kan bruge en statistisk og naturvidenskabelig tankegang som en løftestang til at tænke mere åbent og fordomsfrit om næsten hvad som helst. Som et barn, der spørger: Hvor ved du det fra?” – og rent faktisk lytter til svaret.

Når jeg tror, tingene hænger sammen på én måde (træk medfører forkølelse), overvejer jeg af princip altid andre muligheder (vira overført via dørhåndtag medfører forkølelse). I modsætning til sit rygte hjælper statistik til at tænke ud af boksen i stedet for ind i boksen.

Og måske er forklaringen på, hvorfor jeg er så dårlig til vendespil, en helt anden, end jeg troede. Kan det være, jeg har mistet den barnlige interesse for dyr og derfor ikke lægger så meget mærke til, om det var en pingvin eller en grib på billedet? Kunne et par afsnit af Our Planet på Netflix være nøglen til et comeback mod min datter?

I overmorgen aften udfordrer jeg.

Nå, så kom det akavede øjeblik

Det er nu, vi bare siger det direkte: Bliv medlem, hvis du sætter pris på viden og nuancer.

Bliv medlem