Send en tanke til Zetlands medlemmer

De har betalt for, at vi kunne lave denne artikel. Uafhængig journalistik er ikke gratis.

Overfør 35 millioner dollars, sagde direktørens stemme. Men det var en hacker, der talte

Historiens andet svindelnummer med deepfakede stemmer har set dagens lys. Fremtiden er ankommet. Er vi på nogen måde klar til den?

Collage: Julie Ravn Hansen for Zetland

Vores medlemmer foretrækker at lytte


På et kontor i De Forenede Arabiske Emirater ringer en telefon. Afdelingslederen tager den og genkender stemmen i den anden ende. Det er en stemme, han har hørt før, den tilhører firmaets øverste direktør. Stemmen fortæller ham, at de er ved at opkøbe en anden virksomhed, og at der i den forbindelse skal overføres 35 millioner dollars – hvad der svarer til 224 millioner danske kroner. Stemmen fortæller desuden, at der er hyret en advokat til at stå for overførslen. Kort efter modtager afdelingslederen adskillige mails fra advokaten, der blandt andet indeholder et autorisationsbrev fra direktøren. Det hele virker, som det skal, så da advokaten beder ham om at overføre pengene til flere forskellige konti, følger han instruktionerne. Hvad han ikke ved, er, at han er blevet narret. Pengene går ikke til at opkøbe en ny virksomhed. De fortsætter gennem adskillige nye konti og forsvinder. Det var et svindelnummer, og direktøren har aldrig ringet og bedt om overførslen. Så hvor kom stemmen fra? Afdelingslederen var ikke blevet skør eller begyndt at høre syner. Det har en senere undersøgelse fra de emiratarabiske myndigheder afklaret. Svindlerne havde nemlig brugt kunstig intelligens – en såkaldt deep voice-teknologi – til at imitere direktørens stemme.

Svindelnummeret fandt sted i januar 2020, men er først kommet til offentlighedens kendskab, efter at finansmediet Forbes i starten af oktober 2021 opdagede et retsdokument, der beskrev forløbet. Dette er kun det andet kendte tilfælde af svindel ved hjælp af deep voice-teknologien. Og det er meget mere omfattende og elegant udført end det første, som jeg kommer tilbage til. Teknologien er altså allerede så god, at det utrænede øre har svært ved at høre forskel på en deepfake-stemme og den ægte person. Det er en vigtig tærskel, der er blevet krydset.

Så hvordan forholder vi os til denne nye teknologi, der snart kan være allemandseje? Når vi kan bære et andet menneskes stemme som en ny hat. Når skoleeleven kan score en pjækkedag ved at ringe med sin mors stemme og melde sig syg. Når en ukvalificeret ansøger kan lande et job ved at bære sin gamle chefs stemme og rose sig selv til skyerne. Når bankdirektørens stemme får penge sendt til mørklagte afkroge af nettet. Når politikernes stemmer giver falske udsagn og vildleder vælgerne. Skal vi til at aftale hemmelige kodeord med vores venner, kolleger og familie? Skal virksomheder have anti-deepfake-software på computere og mobiler? Bør vi som samfund helt forbyde teknologien?

Til at besvare de spørgsmål har jeg kontaktet hollandske Matthijs Maas, der er ph.d. i jura og Research Associate på Cambridge University i England. Han har længe interesseret sig for de moralske og lovgivningsmæssige dilemmaer, som kunstig intelligens stiller os over for. Meget sigende hedder hans forskningsgruppe på Cambridge Centre for the Study of Existential Risk’.

Lad os begynde med at se på, hvor langt teknologien er kommet. Matthijs Maas forklarer, at deepfake-teknologien har været anvendt i en del år og allerede er ret avanceret. I starten var interessen primært på at lave falsk videoindhold. Allerede i de tidlige 1990’ere eksperimenterede akademikere med deepfake-videoer. Fænomenet blev først bredere kendt i 2017, da en bruger på det sociale netværk Reddit delte pornografisk indhold med deepfakede skuespillerinder. Samme år offentliggjorde en forskergruppe en video, hvor de fik en computergenereret Barack Obama til at lip-synce til en lydfil. I takt med at teknologien er blevet bedre, er interessen for deepfaket lyd steget, og teknologien er nu nået til et punkt, hvor hjemmesider tilbyder at genskabe ens personlige stemmeprofil med kun ét minuts lydoptagelse. Der findes allerede et væld af overbevisende lydklip på nettet, hvor det stort set er umuligt at høre, at det er computergenereret. Og hvis man tager en eksisterende optagelse med en person, der taler, og kun ændrer enkelte ord, er det praktisk talt fuldstændig umuligt at høre med det menneskelige øre.

Men hvordan fungerer den her teknologi? Hvordan får man et computerprogram til at genskabe et menneskes helt unikke stemme? Det har man siden 2014 gjort ved hjælp af et system, der kaldes GAN (Generative Adversarial Network). Før det system blev udtænkt, var det enormt ressourcekrævende at lave computergenererede stemmer, fordi programmet skulle fodres med store mængder håndsorterede data, og fordi der skulle sidde en person og give computeren feedback, hver gang den producerede et nyt forsøg på at imitere en stemme. Lidt ligesom at lege tampen brænder med en makker, der ikke besidder skyggen af menneskelig intuition eller erfaring. Man skal altså sige varmere” eller koldere” utrolig mange gange, før makkeren når frem til målet. Systemet, GAN, automatiserer hele processen ved at sætte to neurale netværk over for hinanden, en såkaldt generator og en diskriminator. Lad os kalde dem kunstner og kritiker for eksemplets skyld. Kritikeren bliver som det første fodret med en ægte lydfil og analyserer så dens kendetegn. For eksempel Joe Bidens stemme.

Dermed ved’ kritikeren, hvordan Bidens stemme lyder. Kunstneren ved’ til gengæld ingenting, men forsøger sig mere eller mindre i blinde med at generere stemmeprofiler. Kritikeren giver feedback i et forsøg på at minimere forskellen mellem den rigtige lydfil og den falske stemme. For hver feedback snævres feltet af muligheder ind, og kunstneren kommer tættere og tættere på at generere en stemme, der lyder som Bidens. Den proces gentages igen og igen ubegribeligt hurtigt frem og tilbage mellem de to neurale netværk. Processen er nået i mål så at sige, når kritikeren ikke længere kan kende forskel på Bidens stemme og kunstnerens efterligning. Nu har kunstneren lært at imitere Biden og kan dermed sættes til at læse en hvilken som helst tekst op med hans stemme.

Der findes to ret forskellige typer af kunstige stemmeprogrammer. Dem, der læser op, altså tekst til tale, og dem, der laver ens stemme om i real time, mens man taler – et såkaldt voice skin. Det var sådan et voice skin, der blev brugt i svindelnummeret på banken i De Forenede Arabiske Emirater. Hvilket i øvrigt ikke var første gang, teknologien blev brugt til at narre en ansat til at overføre penge.

I 2019 ringede telefonen i et britisk baseret energiselskab. Den ansatte tog den og genkendte stemmen på sin chef fra det tyske moderselskab – den let tyske accent og karakteristiske melodi. Stemmen i den anden ende sagde, han skulle overføre penge, cirka halvanden million danske kroner, til en ungarsk forhandler. Stemmen lagde desuden vægt på, at det hastede. Overførslen skulle ske inden for en time. Den ansatte adlød og overførte pengene. Kort efter ringede hackerne igen og sagde, at det tyske moderselskab ville refundere beløbet. Det er ikke helt klart, hvorfor de gjorde det – måske de var blevet kæphøje oven på den første succes og nu prøvede at improvisere. Lidt senere ringede de i hvert fald en tredje gang og sagde til den ansatte, at han skulle overføre endnu flere penge. Men den ansatte var efterhånden blevet mistænksom. Den lovede refusion var ikke kommet endnu. Og den bankansatte så, at hvem end han talte med, ringede fra et østrigsk nummer. Han nægtede at overføre mere. Men svindlerne havde allerede fået fingrene i det første beløb på godt halvanden million danske kroner.

Det er altså nu lykkedes kriminelle i mindst to tilfælde at bruge deepfake-stemmer til at svindle sig til millionbeløb. Men det betyder ikke, at det er nemt at udgive sig for at være en anden. I hvert fald ikke over længere tid. Selv om stemmeteknologien er avanceret, kræver det stadig træning og grundig forberedelse at imitere en anden person. For når man bruger et voice skin og lader det forvandle ens egen stemme, skal man også intonere og vælge sine ord som den, man kopierer, ville gøre. Det kan teknologien ikke gøre for dig.

Hvis du bruger den her teknologi og synger, vil det ikke lyde som en professionel bankmand i den anden ende. Det vil bare lyde som hans stemme, der synger, forklarer Matthijs Maas. Desuden kræver det en kulturel forståelse af arbejdspladsen og personligt kendskab til relationen at vælge de ord og formuleringer, som personen ville bruge. Derfor er voice skins stadig en meget lille del af svindelnumre. Dette var som sagt kun det andet kendte tilfælde i historien. Men det er værd at huske, at virksomheder meget modvilligt fortæller om det, når de er blevet narret. I ingen af de to tilfælde er de angrebne virksomheders navne blevet offentliggjort. Det sker dog indimellem, at der slipper information om hackerangreb ud, og det tegner tilsammen et tydeligt billede, hvori falske stemmer fylder meget lidt. Phishing mails, der lokker medarbejdere til at udlevere kodeord eller downloade ransomware, er på nuværende tidspunkt et meget mere omfattende problem på den digitale svindel-front. Men de to eksempler med voice skins har demonstreret teknologiens potentiale. Og det potentiale stiger formentlig kun i takt med, at teknologien bliver mere avanceret, og svindlerne bliver fortrolige og kreative med den.

Det store spørgsmål er nu, om vi som samfund bør forbyde teknologien. Matthijs Maas er ikke særlig overbevist om, at bandlysninger er vejen frem. Mest af alt fordi det er så svært at gennemføre i praksis. Teknologien til at opdage deepfake er bagud i forhold til teknologien til at lave det, og det ser ikke ud til at ændre sig fremover. Tværtimod. Det bliver sværere og sværere at opdage,” siger han. Én ting er, at forfalsknings-teknologien er foran, men en anden er, at teknologien er ved at være så tæt på perfektion, at det simpelthen ikke er muligt at opdage”, siger han.

En anden problemstilling er copyright. Som det er lige nu, er det ikke muligt at få copyright på sin egen stemme. Der har allerede været et par sager i USA, hvor kunstnere har lagt sag an, efter deres stemmer er blevet brugt kommercielt uden deres samtykke. Sager, som kunstnerne tabte, fordi stemmer ikke er konstante på samme måde, som lyrik eller design er det. En stemme kan bruges på utallige måder og udtale utallige ord og sætninger. I takt med at teknologien bliver mere udbredt, kommer forskellige landes lovgivende instanser formentlig til at skulle forholde sig til den problemstilling. Det er nok mest tricky i forbindelse med reklamer og andet kommercielt brug. Svindel har jo alle dage været ulovligt, uanset om man bruger en falsk stemme til det eller ej.

For Matthijs Maas at se er der umiddelbart tre områder, hvor vi som samfund kan gøre en indsats. For det første skal der være en klar indikation af, hvornår der er tale om deepfake i form af en label eller en tekst. Dette er i øvrigt et tiltag i EUs seneste forslag til reguleringer af kunstig intelligens. For det andet skal vi have styr på copyrighten til et menneskes stemme, og hvordan man sikrer sig, at ens stemme ikke bliver misbrugt i for eksempel reklamer. For det tredje skal viden om teknologien bredes ud til befolkningen, så flere forholder sig kritisk til lydklip, ligesom mange af os har lært at gøre til billeder. Vi har længe været vant til, at billeder kan manipuleres. Nu må vi også vænne os til, at det samme gælder lyd og stemmer.

Teknologien medfører også en nærmest omvendt problemstilling: Den kan gøre ellers legitime lydfiler mindre troværdige. For én ting er, at politikernes stemmer kan genskabes i falske lydklip. Noget andet er, at de nu kan afvise helt reelle optagelser, der ellers ville være fældende. Hvis det berømte lydklip, hvor Donald Trump siger grab em by the pussy” kom ud i dag, ville det være let for Trump at afvise det ved at råbe deepfake news”. Den problemstilling kender Matthijs Maas ikke nogen god teknologisk eller juridisk løsning på. Men som mange også har påpeget i debatten om de stigende tilfælde af fake news, er seriøse medier med befolkningens tillid nok vigtigere end nogensinde.

Alt i alt tyder det på, at bankmænd, der bliver ført bag lyset, er en af de mindst komplicerede problemstillinger, som den nye deepfake-teknologi medfører. For når det bliver muligt at forfalske noget, vi i så mange tusind år helt naturligt har betragtet som et autentisk udtryk for en persons sande identitet og intentioner, nemlig stemmen, rykker det ved noget helt fundamentalt. Og i takt med at vi som befolkning bliver mere opmærksomme på den problemstilling, kommer vi til at have nogle svære samtaler om rettigheder og tillid. Samtaler, som Matthijs Majs – og sikkert også mange andre – er spændt på at følge.