Newsletter

Problemet med jordgubbar

"Hur många 'r' är det i jordgubbe?" - GPT-4o svarar "två", en sexåring vet att det är tre. Problemet är tokenisering: modellen ser [str][aw][berry], inte bokstäver. OpenAI löste inte problemet med o1, utan kom runt det genom att lära modellen att "tänka innan du talar". Resultat: 83% jämfört med 13% i matematikolympiaden, men 30 sekunder istället för 3 och tre gånger så hög kostnad. Språkmodeller är extraordinära probabilistiska verktyg - men det behövs fortfarande en människa som räknar.

Från jordgubbsproblemet till modell o1: Hur OpenAI (delvis) löste Tokenisation-gränsen

Sommaren 2024 satte en viral internetmeme världens mest avancerade språkmodeller i förlägenhet: "Hur många 'r' finns det i ordet 'jordgubbe'?" Det korrekta svaret är tre, men GPT-4o svarade envist "två". Ett till synes trivialt fel som avslöjade en grundläggande begränsning hos språkmodellerna: deras oförmåga att analysera enskilda bokstäver i ord.

Den 12 september 2024 släppte OpenAI o1 - internt känd under kodnamnet "Strawberry" - den första modellen i en ny serie "resonemangsmodeller" som utformats särskilt för att övervinna denna typ av begränsningar. Och ja, namnet är ingen tillfällighet: som en OpenAI-forskare bekräftade lyckas o1 äntligen räkna "r" i "strawberry" korrekt.

Men lösningen är inte vad den ursprungliga artikeln föreställde sig. OpenAI "lärde" inte modellen att analysera ord bokstav för bokstav. I stället utvecklades ett helt annat tillvägagångssätt: att lära modellen att "resonera" innan den svarar.

Räkneproblemet: Varför modeller gör fel

Problemet är fortfarande rotat i tokenisering - den grundläggande process genom vilken språkmodeller bearbetar text. Som förklaras i en teknisk artikel som publicerades i arXiv i maj 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), ser modellerna inte ord som sekvenser av bokstäver utan som "tokens" - meningsenheter som omvandlas till siffror.

När GPT-4 bearbetar ordet "strawberry" delar dess tokenizer upp det i tre delar: [str][aw][berry], var och en med ett specifikt numeriskt ID (496, 675, 15717). För modellen är "jordgubbe" inte en sekvens av 10 bokstäver utan en sekvens av 3 numeriska tokens. Det är som om han läste en bok där varje ord ersätts av en kod och någon sedan ber honom räkna bokstäverna i en kod som han aldrig har sett nedskriven.

Problemet förvärras med sammansatta ord. "Timekeeper" är uppdelat i separata tokens, vilket gör det omöjligt för modellen att bestämma bokstävernas exakta position utan en explicit resonemangsprocess. Fragmenteringen påverkar inte bara bokstavsräkningen utan även förståelsen av ordens inre struktur.

Lösningen o1: Fundera innan du reagerar

OpenAI o1 löste problemet på ett oväntat sätt: istället för att modifiera tokeniseringen - vilket är tekniskt svårt och skulle äventyra modellens effektivitet - lärde man systemet att "tänka innan man talar" med hjälp av en teknik som kallas "chain of thought reasoning".

När du frågar o1 hur många "r" det finns i "jordgubbe" svarar modellen inte omedelbart. Den tillbringar flera sekunder - ibland till och med minuter för komplexa frågor - med att internt bearbeta en "resonemangskedja" som är dold för användaren. Denna process gör det möjligt för den att:

  1. Erkänna att efterfrågan kräver analys på karaktärsnivå
  2. Utveckla en strategi för att bryta ner ordet
  3. Testa svaret genom olika tillvägagångssätt
  4. Korrigera eventuella fel innan du ger det slutliga svaret

Som OpenAI-forskaren Noam Brown förklarade i en serie inlägg på X: "o1 tränas med förstärkningsinlärning för att 'tänka' innan den svarar via en privat tankekedja. Modellen får belöningar under träningen för varje korrekt steg i resonemangsprocessen, inte bara för det slutliga korrekta svaret.

Resultaten är imponerande men kostsamma. I ett kvalificeringsprov för den internationella matematikolympiaden löste o1 83% av problemen korrekt mot 13% för GPT-4o. På frågor på doktorandnivå inom naturvetenskap uppnådde den 78% korrekthet mot GPT-4o:s 56%. Men denna kraft har ett pris: o1 tar mer än 30 sekunder på sig att besvara frågor som GPT-4o löser på 3 sekunder och kostar 15 USD per miljon inmatade token jämfört med 5 USD för GPT-4o.

Tankekedjan: Hur den verkligen fungerar

Tekniken är inte magisk utan metodisk. När o1 får en uppmaning genererar den internt en lång sekvens av "tankar" som inte visas för användaren. För "r"-problemet i "jordgubbe" skulle den interna processen kunna vara

"Först måste jag förstå ordstrukturen. Jordgubbe kan tokeniseras som [str][aw][berry]. För att räkna 'r' måste jag rekonstruera hela ordet på teckennivå. Str innehåller: s-t-r (1 'r'). Aw innehåller: a-w (0 'r'). Berry innehåller: b-e-r-y (2 'r'). Totalt: 1+0+2 = 3 "r". Jag kontrollerar: jordgubbe = s-t-r-a-w-b-e-r-r-y. Jag räknar "r": position 3, position 8, position 9. Bekräftat: 3 'r'."

Detta interna resonemang är dolt av design. OpenAI förbjuder uttryckligen användare från att försöka avslöja o1:s tankekedja, övervaka uppmaningar och potentiellt återkalla åtkomsten för dem som bryter mot denna regel. Företaget hänvisar till AI-säkerhet och konkurrensfördelar, men beslutet har kritiserats som en förlust av transparens av utvecklare som arbetar med språkmodeller.

Beständiga gränser: o1 Inte perfekt

Trots framstegen har o1 inte löst problemet helt och hållet. Forskning som publicerades i Language Log i januari 2025 testade olika modeller på en mer komplex utmaning: "Skriv ett stycke där den andra bokstaven i varje mening utgör ordet 'CODE'".

o1 standard (20 USD/månad) misslyckades, eftersom den felaktigt räknade den första bokstaven i varje inledande ord som den "andra bokstaven". o1-pro (200 USD/månad) löste problemet ... efter 4 minuter och 10 sekunders "tänkande". DeepSeek R1, den kinesiska modellen som skakade om marknaden i januari 2025, gjorde samma misstag som o1 standard.

Det grundläggande problemet kvarstår: modellerna ser fortfarande text genom tokens, inte bokstäver. o1 har lärt sig att "arbeta runt" denna begränsning genom resonemang, men har inte eliminerat den. Som en forskare konstaterade i Language Log: "Tokenisering är en del av kärnan i vad språkmodeller är; för varje felaktigt svar är förklaringen just 'ja, tokenisering'".

Akademisk forskning: Framväxande förståelse på karaktärsnivå

En viktig artikel som publicerades i arXiv i maj 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models") analyserar detta fenomen ur ett teoretiskt perspektiv. Forskarna skapade 19 syntetiska uppgifter som isolerar resonemang på karaktärsnivå i kontrollerade sammanhang, vilket visar att dessa förmågor dyker upp plötsligt och först sent i utbildningen.

I studien föreslås att inlärning av karaktärssammansättning inte skiljer sig fundamentalt från inlärning av sunt förnuft - den uppstår genom processer av "konceptuell perkolation" när modellen når en kritisk massa av exempel och kopplingar.

Forskarna föreslår en lätt arkitektonisk modifiering som avsevärt förbättrar resonemang på karaktärsnivå samtidigt som de induktiva fördelarna med delordsbaserade modeller bevaras. Dessa modifieringar är dock fortfarande experimentella och har inte implementerats i kommersiella modeller.

Praktiska konsekvenser: När ska man lita på någon och när ska man inte göra det?

Jordgubbsfallet lär ut en viktig läxa om språkmodellernas tillförlitlighet: de är probabilistiska verktyg, inte deterministiska räknare. Som Mark Liberman noterade i Language Log: "Du bör vara försiktig med att lita på svaret från något nuvarande AI-system i uppgifter som innebär att räkna saker".

Detta betyder inte att modeller är värdelösa. Som en kommentator konstaterade: "Bara för att en katt gör det dumma misstaget att bli rädd för en gurka betyder det inte att vi inte ska anförtro katten den mycket svårare uppgiften att hålla gnagare borta från byggnaden". Språkmodeller är inte rätt verktyg om du systematiskt vill räkna bokstäver, men de är utmärkta för att automatiskt bearbeta tusentals podcastutskrifter och extrahera namn på gäster och värdar.

För uppgifter som kräver absolut precision - landning av en rymdfarkost på Mars, beräkning av läkemedelsdoser, verifiering av efterlevnad av lagar och förordningar - är dagens språkmodeller otillräckliga utan mänsklig övervakning eller extern verifiering. Deras probabilistiska natur gör dem kraftfulla för mönstermatchning och kreativ generering, men opålitliga för uppgifter där fel inte kan accepteras.

Framtiden: Mot modeller som resonerar per timme

OpenAI uppgav att man avser att experimentera med o1-modeller som "resonerar i timmar, dagar eller till och med veckor" för att ytterligare öka deras resonemangsförmåga. I december 2024 tillkännagavs o3 (namnet o2 utelämnades för att undvika varumärkeskonflikter med mobiloperatören O2), och i mars 2025 släpptes API:et för o1-pro, OpenAI:s dyraste AI-modell hittills, till ett pris av 150 USD per miljon tokens i input och 600 USD per miljon i output.

Riktningen är tydlig: i stället för att göra modellerna större och större (skalning) satsar OpenAI på att få dem att "tänka" längre (testtidsberäkning). Detta tillvägagångssätt kan vara mer energi- och beräkningsmässigt hållbart än att träna alltmer massiva modeller.

Men en öppen fråga kvarstår: är dessa modeller verkligen "resonerande" eller simulerar de helt enkelt resonemang genom mer sofistikerade statistiska mönster? I Apple-forskning som publicerades i oktober 2024 rapporterades att modeller som o1 kunde replikera resonemangssteg från sina egna träningsdata. Genom att ändra siffror och namn i matematiska problem, eller helt enkelt köra om samma problem, presterade modellerna betydligt sämre. Genom att lägga till främmande men logiskt irrelevant information sjönk prestandan med 65% för vissa modeller.

Slutsats: Kraftfulla verktyg med fundamentala begränsningar

Jordgubbsproblemet och o1-lösningen avslöjar både potentialen och de inneboende begränsningarna i nuvarande språkmodeller. OpenAI har visat att modellerna genom riktad träning och extra bearbetningstid kan övervinna vissa strukturella begränsningar i tokeniseringen. Men de eliminerade det inte - de kringgick det.

För användare och utvecklare är den praktiska lärdomen tydlig: att förstå hur dessa system fungerar - vad de gör bra och var de misslyckas - är avgörande för att kunna använda dem på ett effektivt sätt. Språkmodeller är utmärkta verktyg för probabilistiska uppgifter, mönstermatchning, kreativ generering och informationssyntes. Men för uppgifter som kräver deterministisk precision - att räkna, beräkna och verifiera specifika fakta - är de opålitliga utan extern övervakning eller kompletterande verktyg.

Namnet "Strawberry" kommer att finnas kvar som en ironisk påminnelse om denna grundläggande begränsning: även världens mest avancerade AI-system kan snubbla över frågor som en sexåring skulle lösa direkt. Inte för att de är dumma, utan för att de "tänker" på ett sätt som är helt annorlunda än vårt - och kanske borde vi sluta förvänta oss att de ska tänka som människor.

Källor:

  • OpenAI - "Learning to Reason with LLMs" (officiellt blogginlägg, september 2024)
  • Wikipedia - "OpenAI o1" (posten uppdaterad januari 2025)
  • Cosma, Adrian et al. - "The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models", arXiv:2505.14172 (maj 2025)
  • Liberman, Mark - "AI-system kan fortfarande inte räkna", Language Log (januari 2025)
  • Yang, Yu - "Varför har stora språkmodeller svårt att räkna bokstäver i ett ord?", Medium (februari 2025)
  • Orland, Kyle - "Hur går det egentligen för DeepSeek R1 mot OpenAI:s bästa resonemangsmodeller?", Ars Technica
  • Brown, Noam (OpenAI) - Serie av inlägg på X/Twitter (september 2024)
  • TechCrunch - "OpenAI presenterar o1, en modell som kan faktakontrollera sig själv" (september 2024)
  • 16x Frågeställning - "Varför ChatGPT inte kan räkna hur många Rs det finns i en jordgubbe" (uppdaterad juni 2025)

Resurser för företagstillväxt