Hopp til hovedinnhold
Fag i Bekk/Hvem er Nicolai Winther?Hvem er Nicolai Winther?

Hvem er Nicolai Winther?

Publisert:17. august 2024

Hvem er Nicolai Winther? — og hvorfor later språkmodellen Whisper fra OpenAI som om den er han? Er det et engangstilfelle, eller har det skjedd før? Finnes Nicolai i virkeligheten, eller er navnet bare noe som Whisper har hallusinert?

Looking for the English version?

Det hele startet da jeg i januar kom over denne bloggposten fra Ida Aalen, I den beskriver hun hvordan man kan få transkribert intervjuer på egen maskin ved å kjøre open AIs Whisper lokalt. Da jeg leste la jeg merke til en snedig detalj. Det var den som gjorde at jeg begynte å grave.

Utklipp fra Ida Aalens blogpost hvor hun opplever at Whisper spytter ut [Tekstet av Nicolai Winther]

Tidigere i sommer publiserte aftenposten en artikkel om Nicolai Winther etter at jeg sendte dem et tips. I denne blogposten går jeg litt mer i dybden på hva jeg har kommet frem til. Jeg er nysgjerrig på om andre har oppdaget lignende ting, gjerne på andre språk, og på om dette er et problem som OpenAI vet noe om.

Hallusinering/fabrikkering

Før vi fortsetter er det greit å få klarhet i begrepet hallusinering. Av og til spytter store språkmodeller ut resultater som ikke har rot i virkeligheten. Dette skjer oftere om det er lite treningsdata, om den er av dårlig kvalitet, eller om den ikke har tilstrekkelig bredde. Dette kalles ofte hallusinering fordi modellen selvsikkerhet kan komme med faktaopplysninger uten rot i virkeligheten eller legge til noe den ikke har blitt bedt om å legge til. Noen mener imidlertid at hallusinering blir feil fordi det impliserer at modeller kan komme på noe selv, derfor argumenteres det for at man heller bør bruke ordet fabrikkering, da dette i større grad gir assosiasjoner til å sette sammen eksisterende deler på nye måter. Jeg bruker ordet hallusinere i denne artikkelen, fordi jeg ikke har noe i mot å besjele språkmodeller littegrann.

Nicolai er et spøkelse på nett 👻

Jeg begynte å google, og fant mange steder hvor transkripsjoner endte med “tekstet av Nicolai Winther”. Se linkene under, spol til slutten av vidoene og scroll ned til bunnen av transkripsjonene for å finne W̶i̶l̶l̶y̶ Winther.

Dagbladet: Rød løper om Burning betrayal
Dagbladet: Tekstfil tilhørende video om Fannar69
Aftenposten Junior: Hva vil det si å ligge sammen?
Aftenposten Junior: Hvorfor er søskenkrangel bra?
(merk at Redaktør Mari Midtstigen har blitt til Mare Midtstigen i transkriberingene som Aftenposten selv har publisert)
Moen & Co: Podcast — Hva skiller en nettbutikk fra en fysisk butikk
DigiUng.no: Podcast — De er heldigitale barn, men mangler sikkerhetsnett

Ugler i mosen

Det var imidlertid noe jeg ikke helt følte at stemte, at det var lite sannsynlig at tekstingen hadde blitt gjort av et menneske. Noen av undertekstene hadde åpenbare feil, og i noen tilfeller var det faktisk opplyst at tekstingen hadde blitt gjort automatisk. Nicolai ble nevnt…

… I en podcast om å sette opp offentlige ladere som privatperson

Faksimile av tidligere publisert versjon av nettsiden. Den er nå oppdatert og de har lagt inn disclaimer om at podcasten er automatisk transkribert.

… I en podcast om engasjerende tekster publisert av Universitetet i Stavanger

Faksimile fra nettside tilhørende Universitetet i Stavanger

…I en transkribert sang publisert på Internet Archive

Utklipp fra Internet Archive

… I en tekstfil tilhørende en kodetutorial lagt ut i et offentlig mediatek i Madrid.

Faksimile: Kode-tutorial med tilhørende SRT-fil publisert av https://mediateca.educa.madrid.org

I tillegg fant jeg en paper om bruk av automatisk transkripsjon av avhør. Hvor forfatterene påpeker at en av svakhetene ved å transkribere avhør automatisk er at de noen ganger inneholder overbevisende hallusineringer, som for eksempel “tekstet av Nicolai Winther”

«… the greatest fair trial risks are likely to be convincing hallucinations. In some cases the text was filtered out from the WER tests, as many of the large Whisper models results ended their transcripts with “[Tekstet av Nicolai Winther]”, at times “*outro”, or more convincingly “Takk for å ha dere med” (thank you for having you with) https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4656884»

I artikkelen fra Aftenposten skriver de at en journalist der også har brukt Whisper til transkribering og fått Winther i retur.

Utklipp fra Aftenpostens artikkel Har du sett Nicolai Winther?

Tar betalt for å levere automatisk teksting, og krediterer Nicolai Winther for innsatsen

Teksta.no tar betalt for å transkribere. I en podcast om selvmord fra helse Nord-Trøndelag krediteres Nicolai Winther i tillegg til teksta.no. Her lukter det whisper lang vei… På teksta.no ligger også andre transkriberinger ute. For eksempel denne. Kanskje er det litt krast, men man burde vel kunne anta at noen som tar betalt for å pakke inn Whisper og selge det til det offentlige kunne tatt seg bryet med å kvalitetssikre innholdet de selger.

Utklipp fra transkripsjon av Episode 139 av Leger om Livet — lagt ut på Teksta.no

Whisper later ofte som om at den er Nicolai Winther

Ut fra eksemplene over er det vanskelig å konkludere med noe annet enn at Whisper jevne mellomrom later som om den er Nicolai Winther, men finnes Nicolai? -eller er han en ren hallusinasjon?

Hvis det er hallusinering, er det sannsynlig at navnet “Nicolai Winther” også fremkommer i modellens treningsgrunnlag. OpenAI deler ikke sin treningsdata, men de forklarer hvordan modellen fungerer her, og de linker også til en paper som sier litt om hvilke data modellen er trent på.

Figur som viser hvilke data Whisper er trent på. Hentet fra Radford et al 2021: Robust Speech Recognition via Large-Scale Weak Supervision Legg merke til den lille grønne streken hvor det står Norwegian.

Når det gjelder transkriberinger, er modellen trent på 266 timer med norsk tale. Dette står i sterk kontrast til engelsk, hvor den er trent på over 430.000 timer. Med få timer treningsdata er det høyere sannsynlighet at et enkelt navn går igjen i store nok deler av materialet til at modellen til at den spytter det ut i den andre enden.

Finnes Nicolai Winther?

Hvis en Nicolai Winther har bidratt til datagrunnlaget til modellen, bør det være mulig å finne transkripsjoner som vi kan være sikre på at er gjort av han et sted på internett. Et raskt søk viser at det er noen, men ikke mange som heter Nicolai Winther, og de fleste er danske.

En soldat, en fotballspiller og en bibelforsker som heter Nicolai Winther.

The real Nicolai Winther

Jeg fant også en Norsk ex-youtuber som står bak kanalen Winthertainment. Nicolai Winther har vært aktiv youtuber i over 10 år og kanalen har over 1000 abonnenter og ca 1000 videoer. Etter å ha sett gjennom flere lets play-videoer og smakstester av hydration-drikken Prime , fant jeg en video som hadde undertekster, og ikke nok med det: Underteksten avsluttet med “tekstet av Nicolai Winther”! Endelig hadde jeg funnet en tekst som jeg kunne være sikker på at var laget av en EKTE Nicolai Winther. Jeg sendte han en melding og spurte om han ville ta en prat.

En video fra Nicolai Winther sin Youtube-kanal Winthertainment hvor han har avsluttet underteksten med [Tekstet av Nicolai Winther]

I og med at jeg hadde grunn til å tro at en AI latet som om den var ham, hadde jeg innmari lyst til å høre reaksjonen når jeg skulle fortelle han om hva jeg hadde gravd i de siste månedene og sa dermed ingenting om det jeg hadde funnet ut, — bare at jeg ville prate med ham om AI. Det tok noen dager før jeg fikk svar, og forståelig nok var han innledningsvis litt skeptisk til min mildt sagt kryptiske henvendelse.

Vi fikk satt opp en prat. Nicolai kunne fortelle at han har tekstet en god del på Youtube. Både på sin egen kanal og på kanalene; McJuggernuggets og How It Should Have Ended.Han har tekstet youtube-videoer i mange år, og selv om han ikke er i mål, har han en ambisjon om å få lagt inn undertekster på alle de 1000 videoene han har publisert. Han anslår selv at han har tekstet mange titalls timer med innhold, noe som kan være nok til å påvirke modellen gitt at de er en del av treningsgrunnlaget.

Da var det på tide å vise ham eksemplene jeg hadde funnet på at navnet hans dukker opp på nett. Snurr film for å høre opptak.

Hva skal man gjøre når det er grunn til å tro at et av verdens største teknologiselskaper har lansert en offentlig tilgjengelig Kunstig Intelligens som later som om den er deg? Jeg liker Nicolai sin måte å se det på:

«Robotene stjeler arbeidet mitt, det er i det minste bra de krediterer meg. — Den ekte Nicolai Winther»

Hvorfor skjer akkurat dette?

Jeg er ingen AI-ekspert, men etter å ha googlet litt og snakket med en ekspert, er dette min ELI5 av hvordan det kan skje at modellen spytter ut navnet til Nicolai:

Modellen er trent på lydfiler sammen med tekstfiler som forteller modellen hvilken lyd som hører til hvilken tekst. Den ekte Nicolai har på slutten av sine videoer skrevet [Tekstet av Nicolai Winter]. Da er det som regel bare bakgrunnsstøy i lydsporet. Modellens begrensede datagrunnlag gir dermed Whisper grunn til å tro at det noen ganger skal stå [Tekstet av Nicolai Winther] når lydsporet bare inneholder bakgrunnsstøy.

Nasjonalbiblioteket har hatt samme utfordring

Per Kummervold jobber ved Nasjonalbiblioteket, hvor han vasker og tilgjengeliggjør treningsdata for store språkmodeller, samt trener norske versjoner av modellene. Blant annet har de publisert NB-Whisper, som er trent på over 20.000 timer norsk tekst/tale til sammenligning med OpenAIs 266 timer.

Da jeg snakket med Per sa han at han ikke hadde sett [Tekstet av Nicolai Winther], men at de ofte opplevde lignende hallusineringer. Et eksempel er når de trener data på transkriberinger fra Stortinget. Når det ble stille i lydsporet fikk en versjon av modellen en tendens til å skrive: “Neste taler er:”. Fordi det ofte er det neste som blir sagt.

Et annet eksempel Per trakk frem er at en modell var trent på uvasket teksting fra NRK kunne finne på å proklamere at “dette programmet inneholder støtende innhold” som et forord til følgende transkripsjon.

Ved å ta i bruk et bredere treningsgrunnlag med flere typer data, og ved å vaske data for ting som ikke hører til transkripsjonen, har Per og teamet hos nasjonalbiblioteket klart å begrense antall hallusinasjoner deres modeller gjør.

Hva så/Hva nå?

Her er mine takeaways:

  • Det tyder på at Whisper med jevne mellomrom later som om den er en 23 år gammel norsk ex-youtuber.
  • At Whisper spytter ut navnet Nicolai Winther forsterker påstanden om at OpenAI trener modeller på data fra Youtube. Dette er et betent tema og fortsatt ikke avklart.
  • Jeg håper vi fremover får trødd opp noen regulatoriske spilleregler knyttet til personvern og opphavsrett når personer får sin identitet propagert ut i verden ved hjelp av AI.
  • Jeg lurer på om media, det offentlige, og betalte tekstetjenester hadde brukt Whisper om de hadde visst at treningsdataen i betydelig grad var basert på håndverket til en tenåring uten relevant utdanning. (nå er Nicolai 23, men begynte med teksting da han var yngre)
  • Jeg tror at det i fremtiden kommer til å komme krav fra kunder i anbudskonkurranser og lignende knyttet til transparens rundt hvilken treningsdata som er blitt brukt i trening av modeller. Jeg tror at når teknologien modnes vil dette være en viktig forutsetning for valg av modeller og et reelt salgsfortrinn forutsatt sammenlignbar kvalitet.
  • Når vi bygger tjenester basert på AI må vi anerkjenne at de fortsatt ofte krever menneskelig oversyn. Hvis ikke må tjenestene tydelig merkes.

A thousand Winthers?

Whisper er tilgjengelig på 70+ språk hvor den er trent på begrenset mengde data. Det er mulig at det finnes 70+ personer som Nicolai rundt om kring i verden. Hvis de finnes håper jeg de blir oppdaget, og at de møtes en dag.❤️

En måte å grave videre i dette på hadde vært å:
1. Kjøre lydspor med kun bakgrunnslyd gjennom Whisper på norsk for å kartlegge hvor ofte Nicolai Winther blir nevnt.
2. Kjøre samme lydspor gjennom Whisper på andre språk for å se om andre navn dukker opp.
3. Søke opp evt resultater for å avdekke om det faktisk finnes folk som det er sannsynlig at kan ha bidratt med transkriberinger som har blitt brukt i OpenAI sin treningsdata.

Bonus: The glitch that keeps on glitching 🎁

Det dukker stadig opp nye eksempler på transkripsjoner som tilsynelatende er gjort av Nicolai.

Siden sist jeg googlet “tekstet av Nicolai Winther” før sommeren har også en ny type videoer dukket opp. Automatisk genererte “clickfarm”-shorts hvor navnet Nicolai Winther står både i beskrivelse og hardkodet inn i teksten på videoen.

Her er en ganske absurd youtube-kanal hvor navnet til Nicolai går igjen i nesten alle videotitler, i hashtagger og hardkodet inn i mange av videoene.

Eksempel på video fra kanalen:

Og en annen kanal med lignende innhold:

Disclaimers:

Aftenposten har bekreftet til meg at det har skjedd en glipp hos dem i de tilfellene hvor de har publisert “tekstet av Nicolai Winther”. Jeg har ikke spurt Dagbladet eller de andre nettsidene jeg har funnet om det samme gjelder dem. Det er teoretisk mulig at det finnes flere som tekster og som heter Nicolai Winther i Norge, men etter å ha gravd litt kan jeg ikke finne tegn på det.

I denne blogposten prøver jeg å vise frem greier jeg har oppdaget, og å komme med mine konklusjoner basert på det jeg vet. Jeg er imidlertid ingen ekspert på feltet, og kan ha oversett ting. Hvis du oppdager noe som står i kontrast til det jeg har skrevet, eller som motbeviser konklusjoner jeg har kommet til vil jeg gjerne vite om det, slik at jeg kan oppdatere artikkelen til best mulig å reflektere sannheten.

Bortsett fra Aftenposten, har jeg ikke vært i kontakt med andre bak nettsidene jeg linker til. Jeg har heller ikke vært i kontakt med OpenAI, men det hadde vært spennende å høre hva de har å si.

PS: Her er Nicolai Winther sin youtube-video om Aftenposten sin artikkel om Whisper sin transkribering basert på Nicolai sin youtube-video. Videoen er tekstet av Nicolai Winther.

Om forfatteren:
Jeg er Lars Andreassen, forretingsrådgiver og fagleder innen data og analyse i Bekk Trondheim. Jeg har bakgrunn fra allmennkringkasting og som co-founder i startup. Jeg har en master i entreprenørskap og forretningsutvikling fra NTNUs Entreprenørskole i Trondheim og Boston University og en Bachelor i filmproduksjon fra NTNU Trondheim og Bezalel Academy of Arts and Design i Jerusalem. Jeg elsker alt som skjer når data og teknologi treffer historiefortelling og menneskelig forståelse, noe som gjør at denne historien treffer en nerve hos meg. Her er det en stor, uforståelig og abstrakt teknologi som får uante konsekvenser for en helt tilfeldig fyr.

Du kan nå meg på lars.andreassen@bekk.no

Del kunnskapen

Har du en kollega som også hadde dratt nytte av denne artikkelen?

Mer fra Fag i Bekk

Nå er du ved veis ende. Gå til forsiden hvis du vil ha mer faglig påfyll.

Til forsiden