BlåggBrødre

M - Lek og Lær

Idag har jeg jobbet med å forklare hvordan store språkmodeller (f.eks. ChatGPT) blir opplært til å forstå språk, og i neste ledd, "tenke".

En klassisk dag i statistikktimen

I en klassisk statistisk analyse pleier man å optimere1 en modell, så den passer best til dataen. Måten man finner hvor bra en modell og data "passer" sammen er ved å minimere avstanden mellom dem. Dette kan gjøres på mange måter, men det krever alltid at man kan beskrive det ønskede resultatet fra en modell før man bygger den. Det betyr at jeg blir nødt til å strukturere dataen min så den kan lære strukturert.

En liten notis om språk

Språk er unike. Språk er en av de første avanserte teknologiene som skiller menneskene fra andre arter. De er spesielle teknologier fordi de tillater oss å formulere tankene våre, tenke og resonnere om abstrakte konsepter, og dele disse tankene med hverandre.

Man kan derfor argumentere at språk er data man kan bruke som andre typer rådata, men man kan også bruke språk som en representasjon av virkeligheten. Dette er et viktig poeng jeg vil komme tilbake til.

Hvordan lærer mennesker språk best?

I løpet av de siste 50 årene har språklæringsteknikker hatt en stor omveltning. Tidligere ville man i stor grad fokusere på å memorere grammatikkregler, skrive av lærerens setninger fra tavla, og å strukturert gå igjennom tabeller med ord. I nyere tid har det vist seg å være mer effektivt å fokusere på implisitt læring over eksplisitt læring, kommunikasjonsintegrert introduksjon av nye ord, og en naturlig hierarkisk oppbyggning av konsepter på fremmedspråk.2 Dette er også deler av grunnen til at man normalt har best resultater med språklæring ved å dra på språkreise.

Nye teknikker i den statistiske språkverdenen.

GPT-klassen av språkmodeller består av Generative Pretrained Transformers. Det betyr at de er modeller som kan generere språk, og at de blir pre-trenet på haugevis av data.

Som vi fant ut tidligere er datamengdene disse modellene krever alt for store til at man kan strukture den. Ergo kreves det at modellen på en eller annen måte kan trene seg selv. Og det er akkurat det en modell som dette gjør, når den blir opplært. Men hvordan?

Modellen blir rett og slett satt til å leke seg med språket. Man gir modellen mye språkdata (for eksempel alle Wikipedia-artikler noensinne) og lar den "leke seg frem" til å lære om språket. Det hele minner litt om å sette et barn fri i et bibliotek. 3

I praksis betyr det for eksempel at modellen blir satt til å løse følgende oppgave på alle setninger i hele Wikipedia:

Finn riktig ord som mangler:

Rock 'n' roll er betegnelsen på en X stil av amerikansk opprinnelse.

Og

Finn riktig ord som mangler: Rock 'n' roll er betegnelsen på en musikalsk stil av X opprinnelse. 4

Disse typer spørsmål lærer modellen hvilke ordklasser som passer hvor og hvilke ord som hører sammen. For eksempel vil modellen lære at Rock-n-roll hører sammen med musikalsk og amerikansk, men ikke i like stor grad seilbåt.

Samtidig kan modellen få lagd spørsmål som

Velg riktig avslutning på setningen: I januar 2019 ble Nord-Makedonia trukket til å delta i

  1. hesteveddeløps-VM.
  2. utviklet primært fra 1950.
  3. semifinale 2 av Eurovision Song Contest.
  4. spiser gress

Kun en av disse (nr 3) er riktig, mens 2 av dem er grammatisk riktige. 5 Modellen lærer på denne måten både grammatikk og fakta her. Stephen Krashen ville ikke trodd sine egne ører.

Sluttnote

Til slutt ender vi altså med en modell som både kan skape grammatisk korrekte setninger, men også setninger som på en eller annen måte gir mening. Der det er lett å uttrykke de grammatisk reglene for et språk, er det nemlig vanskelig å få de til å si ting som høres realistiske ut. Det er derfor man på gamle Duolingo kunne blitt satt til å oversette en setning som mi perro come manzana. Her hadde de underliggende modellene en grammatisk korrekthet, men en manglende representasjon av virkeligheten.

Og er det ikke til syvende og sist det som er viktigst med å lære et språk? Å lære å si noe om virkeligheten, ikke bare ord som ikke hører sammen?


  1. Justere parametre. Den typiske modellen man vil kjenne fra algebra er y=mx+b, som har 2 parametre, m og b.

  2. Se mye av Steve Krashens arbeide, eller les Vanpatten og Litchmanns review her

  3. Den gang man gjorde sånt.

  4. Se Wikipedia her

  5. Se Wikipedia her

#mags