Newsletter

Varför matematik är svårt (även om du är en AI)

Språkmodeller vet inte hur man multiplicerar och memorerar resultat på samma sätt som vi memorerar pi, men det gör dem inte till matematiker. Problemet är strukturellt: de lär sig genom statistisk likhet, inte genom algoritmisk förståelse. Till och med de nya "resonemangsmodellerna" som o1 misslyckas med triviala uppgifter: den räknar rätt på "r" i "strawberry" efter några sekunders bearbetning, men misslyckas när den ska skriva ett stycke där den andra bokstaven i varje mening utgör ett ord. Premiumversionen för 200 dollar/månad tar fyra minuter att lösa det som ett barn gör direkt. DeepSeek och Mistral år 2025 räknar fortfarande fel på bokstäver. Den nya lösningen? Hybridmetod - de smartaste modellerna har räknat ut när de ska ringa en riktig miniräknare istället för att själva försöka göra beräkningen. Paradigmskifte: AI behöver inte veta hur man gör allting, utan bara orkestrera rätt verktyg. Den sista paradoxen: GPT-4 kan på ett lysande sätt förklara teorin om gränser för dig, men gör fel i multiplikationer som en fickräknare alltid löser korrekt. För matematikutbildning är de utmärkta - förklara med oändligt tålamod, anpassa exempel, bryta ner komplexa resonemang. För exakta beräkningar? Förlita dig på miniräknaren, inte på artificiell intelligens.

Många förlitar sig på LLM även för att utföra matematiska operationer. Detta tillvägagångssätt fungerar inte .

Problemet är egentligen enkelt: stora språkmodeller (LLM) vet inte riktigt hur man multiplicerar. De kan ibland få fram rätt resultat, precis som jag kanske kan värdet av pi utantill. Men det betyder inte att jag är matematiker, och det betyder inte heller att LLM:er verkligen vet hur man gör matematik.

Praktiskt exempel

Exempel: 49858 *59949 = 298896167242 Detta resultat är alltid detsamma, det finns ingen medelväg. Det är antingen rätt eller fel.

Även med massiv matematisk träning lyckas de bästa modellerna bara lösa en del av operationerna korrekt. En enkel fickräknare, å andra sidan, får alltid 100% av resultaten korrekta. Och ju större siffrorna blir, desto sämre blir LLM:ernas prestanda.

Är det möjligt att lösa detta problem?

Det grundläggande problemet är att dessa modeller lär sig genom likhet, inte genom förståelse. De fungerar bäst med problem som liknar dem som de har tränats på, men utvecklar aldrig en verklig förståelse för vad de säger.

För den som vill lära sig mer föreslår jag denna artikel om "hur en LLM-utbildning fungerar".

En miniräknare, å andra sidan, använder en exakt algoritm som är programmerad för att utföra den matematiska operationen.

Det är därför vi aldrig bör förlita oss helt på LLM:er för matematiska beräkningar: inte ens under de bästa förhållandena, med enorma mängder specifika träningsdata, kan de garantera tillförlitlighet ens i de mest grundläggande operationerna. En hybridmetod kan fungera, men LLM:er räcker inte ensamma. Kanske kommer detta tillvägagångssätt att följas för att lösa det så kallade"jordgubbsproblemet".

Tillämpningar av LLM i studier av matematik

I utbildningssammanhang kan LLM fungera som personliga handledare som kan anpassa förklaringarna till studentens förståelsenivå. När en student till exempel ställs inför ett differentialräkningsproblem kan LLM:n bryta ner resonemanget i enklare steg och ge detaljerade förklaringar för varje steg i lösningsprocessen. Detta tillvägagångssätt hjälper till att bygga upp en solid förståelse för grundläggande begrepp.

En särskilt intressant aspekt är LLM:s förmåga att generera relevanta och varierade exempel. Om en student försöker förstå begreppet gränsvärde kan LLM:n presentera olika matematiska scenarier, från enkla fall till mer komplexa situationer, och på så sätt möjliggöra en progressiv förståelse av begreppet.

En lovande tillämpning är att använda LLM för att översätta komplexa matematiska begrepp till ett mer lättillgängligt naturligt språk. Detta underlättar kommunikationen av matematik till en bredare publik och kan bidra till att övervinna det traditionella hindret för tillgång till denna disciplin.

LLM kan också hjälpa till med att ta fram undervisningsmaterial, skapa övningar med olika svårighetsgrad och ge detaljerad feedback på studenternas lösningsförslag. På så sätt kan lärarna bättre anpassa sina studenters inlärningsvägar.

Den verkliga fördelen

Mer allmänt bör man också beakta det extrema "tålamod" som krävs för att hjälpa även den minst "kapabla" eleven att lära sig. I det här fallet underlättar frånvaron av känslor. Trots detta "tappar" även ai ibland tålamodet. Se detta "underhållande exempel.

Uppdatering 2025: Resonemangsmodeller och hybridmetoden

2024-2025 innebar en betydande utveckling med ankomsten av så kallade "resonerande modeller" som OpenAI o1 och deepseek R1. Dessa modeller har uppnått imponerande resultat på matematiska benchmarks: o1 löser korrekt 83% av problemen i den internationella matematikolympiaden, jämfört med 13% för GPT-4o. Men se upp: de löste inte det grundläggande problemet som beskrivs ovan.

Jordgubbsproblemet - att räkna "r" i "strawberry" - illustrerar den ihållande begränsningen perfekt. o1 löser det korrekt efter några sekunders "resonemang", men om du ber den att skriva ett stycke där den andra bokstaven i varje mening utgör ordet "CODE" misslyckas den. o1-pro, versionen för 200 USD/månad, löser det... efter 4 minuters bearbetning. DeepSeek R1 och andra nyare modeller räknar fortfarande fel. I februari 2025 fortsatte Mistral att svara att det bara finns två "r" i "jordgubbe".

Det trick som håller på att växa fram är hybridmetoden: när de måste multiplicera 49858 med 5994949 försöker de mer avancerade modellerna inte längre "gissa" resultatet baserat på likheter med beräkningar som de sett under utbildningen. I stället anropar de en miniräknare eller kör Python-kod - precis som en intelligent människa som känner till sina begränsningar skulle göra.

Denna "verktygsanvändning" utgör ett paradigmskifte: artificiell intelligens behöver inte kunna göra allt själv, utan måste kunna orkestrera rätt verktyg. Resonemangsmodeller kombinerar språklig förmåga för att förstå problemet, stegvisa resonemang för att planera lösningen och delegering till specialiserade verktyg (miniräknare, Python-tolkar, databaser) för exakt utförande.

Vad är lärdomen? 2025 års LLM:er är mer användbara inom matematiken, inte för attde har "lärt sig" att multiplicera - de har inte riktigt gjort det än - utan för att några av dem har börjat förstå när de ska delegera multiplikation till dem som faktiskt kan göra det. Det grundläggande problemet kvarstår: de arbetar med statistisk likhet, inte med algoritmisk förståelse. En miniräknare för 5 euro är fortfarande oändligt mycket mer tillförlitlig för korrekta beräkningar.

Resurser för företagstillväxt

9 november 2025

AI-reglering för konsumenttillämpningar: Hur man förbereder sig för de nya förordningarna från 2025

2025 markerar slutet på "vilda västern"-eran för AI: AI Act EU i drift från augusti 2024 med skyldigheter för AI-kunskap från 2 februari 2025, styrning och GPAI från 2 augusti. Kalifornien är pionjärer med SB 243 (som kom till efter Sewell Setzers självmord, en 14-åring utvecklade en känslomässig relation med en chatbot) som förbjuder tvångsmässiga belöningssystem, upptäckt av självmordstankar, påminnelse var tredje timme om att "jag är inte mänsklig", oberoende offentliga revisioner, straffavgifter på 1 000 USD/överträdelse. SB 420 kräver konsekvensbedömningar för "automatiserade beslut med hög risk" med rätt till överklagande av mänsklig granskning. Verklig verkställighet: Noom citerade 2022 för bots som passerade som mänskliga tränare, förlikning 56 miljoner dollar. Nationell trend: Alabama, Hawaii, Illinois, Maine, Massachusetts klassificerar underlåtenhet att meddela AI-chatbots som UDAP-överträdelse. Tredelad strategi för riskkritiska system (sjukvård/transport/energi), certifiering före driftsättning, transparent information till konsumenter, registrering för allmänna ändamål + säkerhetstestning. Lapptäcke av regelverk utan federalt företräde: företag i flera delstater måste navigera bland olika krav. EU från augusti 2026: informera användare om AI-interaktion om det inte är uppenbart, AI-genererat innehåll märkt maskinläsbart.
9 november 2025

Reglering av det som inte skapas: riskerar Europa att bli tekniskt irrelevant?

Europa drar bara till sig en tiondel av de globala investeringarna i artificiell intelligens, men gör anspråk på att diktera globala regler. Detta är "Brysseleffekten" - att införa regler på en planetär skala genom marknadsmakt utan att driva på innovation. AI-lagen träder i kraft enligt en förskjuten tidtabell fram till 2027, men multinationella teknikföretag svarar med kreativa strategier för att kringgå lagen: de åberopar affärshemligheter för att undvika att avslöja utbildningsdata, de producerar tekniskt kompatibla men obegripliga sammanfattningar, de använder självutvärdering för att nedgradera system från "hög risk" till "minimal risk" och de väljer medlemsländer med mindre stränga kontroller. Paradoxen med extraterritoriell upphovsrätt: EU kräver att OpenAI ska följa europeiska lagar även för utbildning utanför Europa - en princip som aldrig tidigare förekommit i internationell rätt. Den "dubbla modellen" växer fram: begränsade europeiska versioner kontra avancerade globala versioner av samma AI-produkter. Verklig risk: Europa blir en "digital fästning" isolerad från global innovation, med europeiska medborgare som får tillgång till sämre teknik. EU-domstolen har i kreditvärderingsfallet redan avvisat försvaret med "affärshemligheter", men tolkningsosäkerheten är fortfarande enorm - vad exakt innebär "tillräckligt detaljerad sammanfattning"? Det är det ingen som vet. En sista obesvarad fråga: skapar EU en etisk tredje väg mellan amerikansk kapitalism och kinesisk statskontroll, eller exporterar man helt enkelt byråkrati till ett område där man inte konkurrerar? För tillfället: världsledande inom AI-reglering, marginell inom dess utveckling. Stort program.
9 november 2025

Outliers: När datavetenskap möter framgångssagor

Datavetenskapen har vänt upp och ner på paradigmet: avvikande värden är inte längre "fel som ska elimineras" utan värdefull information som ska förstås. En enda avvikelse kan helt förvränga en linjär regressionsmodell - ändra lutningen från 2 till 10 - men att eliminera den kan innebära att man förlorar den viktigaste signalen i datasetet. Maskininlärning introducerar sofistikerade verktyg: Isolation Forest isolerar outliers genom att bygga slumpmässiga beslutsträd, Local Outlier Factor analyserar lokal densitet, Autoencoders rekonstruerar normala data och rapporterar det som de inte kan reproducera. Det finns globala outliers (temperatur -10°C i tropikerna), kontextuella outliers (spendera 1.000 euro i ett fattigt område), kollektiva outliers (synkroniserade spikar i trafiknätet som indikerar attack). Parallell med Gladwell: "10.000-timmarsregeln" är omtvistad - Paul McCartney dixit "många band har spelat 10.000 timmar i Hamburg utan framgång, teorin är inte ofelbar". Asiens matematiska framgångar är inte genetiska utan kulturella: det kinesiska numeriska systemet är mer intuitivt, risodling kräver ständiga förbättringar jämfört med det västerländska jordbrukets territoriella expansion. Verkliga tillämpningar: brittiska banker återhämtar 18% potentiella förluster via anomalidetektering i realtid, tillverkningsindustrin upptäcker mikroskopiska defekter som en mänsklig inspektion skulle missa, sjukvården validerar data från kliniska prövningar med en känslighet för anomalidetektering på över 85%. Sista lärdomen: när datavetenskapen går från att eliminera avvikelser till att förstå dem måste vi se okonventionella karriärer inte som avvikelser som ska korrigeras utan som värdefulla banor som ska studeras.