
DeepSeek - Hva skjedde?
Det er litt over to uker siden markedet ble sjokkert over en ny AI-språkmodell fra Kina. Det virker allerede som en evighet siden, noe det på mange måter også er i en AI-verdenen som utvikler seg raskere enn noen gang. Likevel, nå som støvet har lagt seg, er det greit å reflektere litt over hva som faktisk skjedde. For resultatet er et paradigme, men likevel har mediene muligens hatt en feil vinkling til denne store hendelsen. For det DeepSeek har bidratt med er rett og slett veldig viktig. For å dekke det store bildet skal vi innom tre hovedgrener:
- Nye OpenSource AI-modeller
- De Amerikanske Tek-gigantene skjelver
- Medienes feilfokus
Så hva er DeepSeek? Mandag 27.Januar 2025 var DeepSeek på alles lepper, da den alene skulle stå for den største barberingen av aksjepenger gjennom tidene. Modellen ble lansert en ukes tid tidligere, men aksjemarkedet våknet virkelig til livet denne mandagen. Nvidia sin verdi ble over dagen skrellet av med $600 milliarder, og hele den teknologitunge Nasdaq-børsen falt med 3%. DeepSeek i seg selv er et mindre kinesisk selskap hvor deres språkmodeller, eller LLMs (Large Language Models), også deler samme navn som prefix. Det er derfor lett å bare kalle deres beste modell, DeepSeek-R1, for selskapsnavnet. Men selskapet har ikke kommet med bare èn ny modell, og det er også noe av det viktige her. La oss komme i gang:
Nye AI-modeller
Flaggskipet DeepSeek-R1 kom som et lyn fra klar himmel. Denne modellen scoret like bra eller bedre enn OpenAI sin beste modell i form av o1. Grunnen til at man i dag ikke bare kan si at èn modell er bedre enn en annen, er fordi disse modellene går igjennom mange tester i forsøk på å måle ytelse. Konkurransen er så hard at man gjerne ikke klarer å vinne på alle fronter. I tillegg begynner disse modellene å bli så bra at det er også vanskelig å avgjøre om et svar er bedre enn et annet. Uansett, det er en enighet om at DeepSeek-R1 er en bedre modell enn OpenAI o1 selv når man inkluderer alle faktorene. For mens OpenAI sine flaggskip har blitt større og større og mer og mer hemmeligholdt, så ble DeepSeek-R1 sluppet helt åpent ut på Internett. Med tilhørende whitepaper som forklarer hvordan hele modellen er satt opp og trent, har DeepSeek på mange måter gjort det OpenAI skulle gjøre — være åpne. I tillegg har DeepSeek kommet med en langt mindre modell enn hva OpenAI har klart . En mindre modell krever mindre energi, og koster derfor også mindre å kjøre.
DeepSeek-R1 kommer som en reasoning-modell, den sier rett ut hvordan den tenker seg frem til svaret. Veldig likt hvordan vi mennesker er vant med når vi prøver å gjøre vanskelige valg. Sammenligner vi dette med sjakk, så kan man si at en reasoning modell kommer frem til svaret på samme måte som når Carlsen tenker lenge på en lang hendelsesrekkefølge. Underveis i tankeprosessen faller kanskje en rekke fordi svaret ikke blir “bra nok”, og man drar tankene et hakk tilbake og forsøker en annen vei. Når Carlsen derimot gjør et raskt trekk grunnet tidsmangel handler han på intuisjon, han gjør det han der og da mener at “ser” best ut — som igjen kan sammenlignes med AI-modellene som ikke har denne reasoning-mekanismen. Måten DeepSeek har trent modellene sine for å få denne evnen er også spesifisert nøye i whitepaperet, og for å unngå å dyppe for langt ned i detaljene henviser jeg heller dit for detaljer. Kort fortalt kan jeg likevel si at under deres trening har modellen fått lengre og lengre tid til å resonnere seg frem til et svar, som igjen resulterte i en vanvittig god modell. I tillegg benytter de AI-modellene til å trene opp hverandre, som også er et veldig interessant konsept! I bildet kan vi se hvordan modellen presterer mot andre sammenlignbare modeller.
Selv om DeepSeek-R1 allerede er en mindre modell enn OpenAIs beste, så har de også mer å trekke opp fra ermet. Bare som en oppfrisker, så er små modeller bra fordi de krever mindre energi for å bli trent og kjørt. I tillegg kan man si at siden mindre modeller har færre variabler, er de dermed også bedre komponert for å løse det opprinnelige problemet: NLP (Natural Language Processing — eller på folkemunne; beherske det vi kaller for “språk”). Å legge til flere variabler er på mange måter en slags innrømmelse av at modellen ikke er god nok, og at løsningen var å legge til flere parametre slik at den passet. Tilbake til poenget; DeepSeek kom ikke bare med R1, de kom også med flere destillerte modeller. En destillert modell, er en modell som prøver å fjerne “unødvendige” parametre av den opprinnelige modellen — for å gjøre den enda mindre. Se for deg et fiskenett; du ønsker å redusere den totale mengden garn, uten å redusere evnen til å fange fisk. Kanskje en del av maskene er mindre enn de trenger å være, og alle maskene dermed kan slås sammen med en annen? Maskene helt i enden har mindre sannsynlighet til å fange fisk siden det er enklere å unnslippe på kanten, så kanskje vi kan fjerne litt garn der også? Slik kan man destillere fiskenettet uten å redusere egenskapene i like stor grad. Samme prinsipp kan brukes om AI-modeller. DeepSeek beviste at destillering av modeller ga svært gode resultater, og lanserte derfor også mange svært mye mindre modeller, som fremdeles håndterer NLP meget godt. Disse utkonkurrerer alle mindre modeller vi hadde fra før, og det er dette som gjør det så spennende! Slike små modeller kan vi faktisk kjøre på vår egen laptop (riktignok en ganske god laptop), og dermed ikke være redd for at noe informasjon forsvinner til andre. Dette er en mulighet som man ikke har vært i nærheten av før, både fordi åpenhet har blitt en mangelvare i AI-kappløpet, men også fordi DeepSeek har fått det til bedre enn noen andre.
De Amerikanske Tek-gigantene skjelver
For Ola Nordmann så kom nyheten om DeepSeek gjennom mediene da de Amerikanske teknologiselskapene stupte på børs. Men hvorfor gjorde de det? OpenAI (som har Microsoft som største aksjonær) har lenge ledet AI-kappløpet, i hard konkurranse fra blant annet Meta og Google. Alle disse har til felles at de ikke sier noe (lengre) om hvordan de har oppnådd sine resultater, som igjen har gitt de en kjempefordel når det kommer til kunstig intelligens. ChatGPT satte alle rekorder med raskeste vekst av antall brukere da den ble lansert, og mange brukere betyr også store inntekter. OpenAI hadde et lite kvelertak på hele markedet, og det ble så ille at selveste Apple ikke klarte å hamle opp - og måtte ty til å inngå et samarbeid med deres største konkurrent. Derfor, når et ukjent kinesisk selskap ut av intet kommer med en ny bestescore - og i tillegg legger frem hele bruksanvisningen - da skjer det ting i markedet. Plutselig er hele AI-kappløpet resatt. Alle selskaper trakk kortet "Rykk tilbake til start". Det konkurransefortrinnet som allerede var priset godt inn i aksjene fikk seg en skikkelig smell på tygga. Men hva så med Nvidia? De selger jo hardware til å trene og kjøre AI-modeller, så at en ny modell som åpner opp for at alle kan kjøre sin egen burde jo være utelukkende positivt? Det er her størrelsen på modellene kommer inn i bildet. Mens OpenAI har økt antall trenbare parametre i hver nye toppmodell de har kommet med, så har det også satt en forventning om at man trenger kraftigere og kraftigere hardware for å tilfredsstille de nye og forstørrende modellene. Dette har Nvidia tjent svært godt på, og aksjekursen har fulgt etter i tospann. Nå, når det viser seg at man ikke nødvendigvis trenger superhardware i samme grad som tidligere, så rakner også konkurransefortrinnet til Nvidia. Ut av intet kan flere aktører melde seg på i kampen, for selv om de ikke har like kraftige GPU-er (som tross alt er den hardwaren som er viktig når vi snakker om AI-modeller), så er de gode nok om modellene blir mindre. I tillegg trenger man ikke å kjøpe like mange GPU-er av Nvidia som man frem til nå har tenkt. Mindre forventning til salg, resulterer alltid i det samme - kraftig nedgang på børsen.
Medienes feilfokus
Det er kanskje litt kontroversielt å melde, siden man ikke kan felle alle medier under samme kam, men etter min mening ga mediene DeepSeek et litt forvrengt syn utad. Misforstå meg rett, det er flere poenger som er viktig å belyse. Sånn som at børsen kollapser, at alt man skriver til DeepSeek-appen potensielt kan bli lagret i Kina, samt at modellen plutselig skjuler svaret om man spør om litt kontroversielle kinesiske temaer. Det sistnevnte omtales for øvrig som "alignment" i AI-verdenen, og er et uttrykk for å vurdere hva som er rett eller galt. Denne alignmenten finnes også i ChatGPT som på sin side ikke gir respons på enkelte andre kontroversielle temaer.
Men det som er den store nyheten her er det vi har vært gjennom; At den beste modellen er gjort open source, gjort mindre og hele oppskriften er offentliggjort. Dette åpner enorme muligheter for selskaper som av forskjellige årsaker ikke har kunnet bruke modellene som ligger på internett. Nå har man muligheten til å self-hoste (som det heter når man kjører noe selv) den beste modellen uten internett-tilgang. Ingenting av det du skriver til den vil havne hverken i Amerikanernes, Kinesernes eller andres hender. Det er rett og slett et teknologisk gjennombrudd for alle som ikke aktivt utvikler disse modellene selv. At denne egenskapen knapt har sett medienes lys er etter min mening veldig merkelig. Ja, om man bruker DeepSeek-appen så vil DeepSeek kunne lagre alt du skriver inn, men sånn er det også allerede hver gang man bruker ChatGPT - bare at det er OpenAI som tar imot din verdifulle input. Det er lett å glemme av, men nå er det mulig å endre på den visa - nå som man kan kjøre modellene selv, og også sørge for at ingen får tak i det du skriver.