Illusionen av resonemang: Debatten som skakar AI-världen

Newsletter

Illusionen av resonemang: Debatten som skakar AI-världen

Apple publicerar två förödande artiklar - "GSM-Symbolic" (oktober 2024) och "The Illusion of Thinking" (juni 2025) - som visar hur LLM misslyckas med små variationer av klassiska problem (Tower of Hanoi, flodkorsning): "prestandan minskar när endast numeriska värden ändras". Noll framgång på komplexa Tower of Hanoi. Men Alex Lawsen (Open Philanthropy) svarar med "The Illusion of Thinking" som demonstrerar misslyckad metodik: misslyckanden var gränser för symboliska utdata inte resonemangskollapser, automatiska skript felklassificerade delvis korrekta utdata, vissa pussel var matematiskt olösliga. Genom att upprepa tester med rekursiva funktioner istället för att lista drag löste Claude/Gemini/GPT Tower of Hanoi 15 poster. Gary Marcus omfamnar Apples tes om "distributionsskift", men timingdokumentet före WWDC väcker strategiska frågor. Affärsimplikationer: hur mycket ska man lita på AI för kritiska uppgifter? Lösning: neurosymboliska metoder neurala nätverk för mönsterigenkänning + språk, symboliska system för formell logik. Exempel: AI-redovisning förstår "hur mycket resekostnader?" men SQL/beräkningar/skatterevisioner = deterministisk kod.

Fabio Lauria

VD & grundare av Electe‍

När AI-resonemang möter verkligheten: roboten tillämpar den logiska regeln korrekt, men identifierar basketbollen som en apelsin. En perfekt metafor för hur LLM:er kan simulera logiska processer utan att ha en verklig förståelse.

‍

Under de senaste månaderna har det inom artificiell intelligens förts en hetsig debatt som utlösts av två inflytelserika forskningsrapporter som publicerats av Apple. Den första, "GSM-Symbolic (oktober 2024), och den andra, "Illusionen av att tänka (juni 2025), ifrågasatte den påstådda resonemangsförmågan hos Large Language Models, vilket utlöste blandade reaktioner i branschen.

‍

Som redan analyserats i vår tidigare artikel om "Illusionen om framsteg: att simulera allmän artificiell intelligens utan att uppnå den".berör frågan om artificiellt resonemang själva kärnan i vad vi anser vara intelligens i maskiner.

‍

Vad Apple Research säger

Apple-forskare genomförde en systematisk analys av Large Reasoning Models (LRM) - de modeller som genererar detaljerade resonemang innan de ger ett svar. Resultaten var överraskande och, för många, alarmerande.

‍

Genomförda tester

I studien utsattes de mest avancerade modellerna för klassiska algoritmiska pussel som t.ex:

Tornet i Hanoi: Ett matematiskt pussel som löstes första gången 1957
Problem med att korsa floder: Logiska pussel med specifika begränsningar
GSM-Symbolic Benchmark: Variationer av matematiska problem på grundskolenivå

‍

Testa resonemang med klassiska pussel: problemet med bonden, vargen, geten och kålen är ett av de logiska pussel som används i Apples studier för att bedöma LLM:s resonemangsförmåga. Svårigheten ligger i att hitta rätt sekvens av korsningar och samtidigt undvika att vargen äter upp geten eller att geten äter upp kålen om den lämnas ensam. Ett enkelt men effektivt test för att skilja mellan algoritmisk förståelse och memorering av mönster.

‍

Kontroversiella resultat

Resultaten visade att även små förändringar i problemformuleringen leder till betydande variationer i prestanda, vilket tyder på en oroande svaghet i resonemanget. Som rapporterats i AppleInsider-täckning"minskar prestandan för alla modeller när endast de numeriska värdena i GSM-Symbolic benchmark-frågorna ändras".

‍

Motoffensiven: Illusionen av att tänka

‍

Svaret från AI-gemenskapen lät inte vänta på sig. Alex Lawsen från Open Philanthropy, i samarbete med Claude Opus från Anthropic, publicerade en detaljerad motbevisning med titeln "Illusionen av att tänka".där han ifrågasatte metoderna och slutsatserna i Apple-studien.

De viktigaste invändningarna

Utgångsgränser ignorerades: Många fel som tillskrevs "resonerande kollaps" berodde i själva verket på modellens utgångsgränser
Felaktig utvärdering: Automatiska skript klassificerade också partiella men algoritmiskt korrekta utdata som totala misslyckanden
Omöjliga problem: Vissa pussel var matematiskt olösliga, men modellerna straffades för att de inte löste dem

Bekräftelsetest

När Lawsen upprepade testerna med alternativa metoder - och bad modellerna att generera rekursiva funktioner istället för att lista alla drag - blev resultaten dramatiskt annorlunda. Modeller som Claude, Gemini och GPT löste korrekt problem med Tower of Hanoi med 15 poster, långt bortom den komplexitet där Apple rapporterade noll framgångar.

‍

Auktoritativa röster i debatten

‍

Gary Marcus: Den historiska kritikern

Gary Marcusen långvarig kritiker av LLM:s resonemangsförmåga, tog Apples resultat som en bekräftelse på sin 20-åriga avhandling. Enligt Marcus fortsätter civilingenjörer att kämpa med "distribution shift" - förmågan att generalisera bortom utbildningsdata - samtidigt som de är "bra på att lösa problem som redan har lösts".

‍

Den lokala lamagemenskapen

Diskussionen har också spridit sig till specialiserade grupper som t.ex. LocalLlama på Redditdär utvecklare och forskare diskuterar de praktiska konsekvenserna för modeller med öppen källkod och lokal implementering.

‍

Bortom kontroverser: Vad det innebär för företag

Strategiska konsekvenser

Denna debatt är inte enbart akademisk. Den har direkta konsekvenser för:

AI-distribution i produktionen: Hur mycket kan vi lita på modeller för kritiska uppgifter?
FoU-investeringar: Var ska vi lägga resurserna för att få nästa genombrott?
Kommunikation med intressenter: Hur kan man hantera realistiska förväntningar på AI-kapacitet?

Det neurosymboliska sättet

Som framhävts i flera tekniska insikterfinns det ett ökande behov av hybridmetoder som kombinerar:

Neurala nätverk för mönsterigenkänning och språkförståelse
Symboliska system för algoritmiska resonemang och formell logik

Trivialt exempel: en AI-assistent som hjälper till med bokföringen. Språkmodellen förstår när du frågar "hur mycket har jag spenderat på resor den här månaden?" och extraherar de relevanta parametrarna (kategori: resor, period: den här månaden). Men SQL-frågan som söker i databasen, beräknar summan och kontrollerar de skattemässiga begränsningarna? Det görs av deterministisk kod, inte av den neurala modellen.

‍

Tidplan och strategisk kontext

Det undgick inte observatörerna att Apple-dokumentet publicerades strax före WWDC, vilket väcker frågor om de strategiska motiven. Som denanalys av 9to5Mac, "tidpunkten för Apple-papperet - precis före WWDC - höjde några ögonbryn. Var detta en milstolpe för forskningen eller ett strategiskt drag för att ompositionera Apple i det bredare AI-landskapet?"

‍

Lärdomar för framtiden

För forskare

Experimentell design: Vikten av att skilja mellan arkitektoniska begränsningar och implementeringsbegränsningar
Rigorös utvärdering: Behovet av sofistikerade riktmärken som skiljer kognitiva förmågor från praktiska begränsningar
Metodologisk transparens: Skyldigheten att fullständigt dokumentera försöksuppställningar och begränsningar

För företag

Realistiska förväntningar: Att erkänna nuvarande begränsningar utan att ge avkall på framtida potential
Hybridmetoder: Investera i lösningar som kombinerar styrkorna hos olika tekniker
Kontinuerlig utvärdering: Implementera testsystem som återspeglar verkliga användningsscenarier

Slutsatser: Att navigera i osäkerhet

‍

Debatten som utlöstes av Apples papper påminner oss om att vi fortfarande befinner oss i ett tidigt skede när det gäller att förstå artificiell intelligens. Som påpekats i vår tidigare artikelär skillnaden mellan simulering och autentiskt resonemang fortfarande en av vår tids mest komplexa utmaningar.

‍

Den verkliga lärdomen är inte huruvida jurister kan "resonera" i ordets mänskliga bemärkelse, utan snarare hur vi kan bygga system som utnyttjar deras styrkor och samtidigt kompenserar för deras begränsningar. I en värld där AI redan håller på att förändra hela sektorer är frågan inte längre om dessa verktyg är "smarta", utan hur de ska användas på ett effektivt och ansvarsfullt sätt.

‍

Framtiden för AI i företag kommer förmodligen inte att ligga i ett enda revolutionerande tillvägagångssätt, utan i en intelligent orkestrering av flera kompletterande tekniker. Och i det här scenariot blir förmågan att kritiskt och ärligt utvärdera våra verktygs kapacitet en konkurrensfördel i sig.

‍

För insikter i din organisations AI-strategi och implementering av robusta lösningar finns vårt team av experter tillgängliga för skräddarsydda konsultationer.

‍

Källor och referenser:

GSM-Symbolic: Förstå begränsningarna i matematiskt resonemang i stora språkmodeller - Forskning om maskininlärning hos Apple
Illusionen av att tänka: Förstå styrkorna och begränsningarna hos modeller för resonemang - Apples forskning om maskininlärning
Nytt papper trycker tillbaka på Apples LLM-studie om "resonemangskollaps - 9to5Mac
Sju svar på det virala Apple-resonemanget - Gary Marcus
Illusionen av att tänka: Vad Apple AI Paper säger om LLM-resonemang - Arize AI
Apples studie bevisar att LLM-baserade AI-modeller är bristfälliga - AppleInsider
Illusionen av framsteg: att simulera allmän artificiell intelligens utan att uppnå den - Electe

Resurser för företagstillväxt

9 november 2025

AI-reglering för konsumenttillämpningar: Hur man förbereder sig för de nya förordningarna från 2025

2025 markerar slutet på "vilda västern"-eran för AI: AI Act EU i drift från augusti 2024 med skyldigheter för AI-kunskap från 2 februari 2025, styrning och GPAI från 2 augusti. Kalifornien är pionjärer med SB 243 (som kom till efter Sewell Setzers självmord, en 14-åring utvecklade en känslomässig relation med en chatbot) som förbjuder tvångsmässiga belöningssystem, upptäckt av självmordstankar, påminnelse var tredje timme om att "jag är inte mänsklig", oberoende offentliga revisioner, straffavgifter på 1 000 USD/överträdelse. SB 420 kräver konsekvensbedömningar för "automatiserade beslut med hög risk" med rätt till överklagande av mänsklig granskning. Verklig verkställighet: Noom citerade 2022 för bots som passerade som mänskliga tränare, förlikning 56 miljoner dollar. Nationell trend: Alabama, Hawaii, Illinois, Maine, Massachusetts klassificerar underlåtenhet att meddela AI-chatbots som UDAP-överträdelse. Tredelad strategi för riskkritiska system (sjukvård/transport/energi), certifiering före driftsättning, transparent information till konsumenter, registrering för allmänna ändamål + säkerhetstestning. Lapptäcke av regelverk utan federalt företräde: företag i flera delstater måste navigera bland olika krav. EU från augusti 2026: informera användare om AI-interaktion om det inte är uppenbart, AI-genererat innehåll märkt maskinläsbart.

9 november 2025

När AI blir ditt enda val (och varför du kommer att gilla det)

9 november 2025

Reglering av det som inte skapas: riskerar Europa att bli tekniskt irrelevant?

**TITEL: European AI Act - The Paradox of Who Regulates What Doesn't Develop** **SUMMARY:** Europa drar bara till sig en tiondel av de globala investeringarna i artificiell intelligens men gör anspråk på att diktera globala regler. Detta är "Brysseleffekten" - att införa regleringar på en planetär skala genom marknadsmakt utan att driva innovation. AI-lagen träder i kraft enligt en förskjuten tidsplan fram till 2027, men multinationella teknikföretag svarar med kreativa undvikandestrategier: åberopar affärshemligheter för att undvika att avslöja utbildningsdata, producerar tekniskt kompatibla men obegripliga sammanfattningar, använder självutvärdering för att nedgradera system från "hög risk" till "minimal risk", forumshopping genom att välja medlemsländer med mindre stränga kontroller. Paradoxen med extraterritoriell upphovsrätt: EU kräver att OpenAI ska följa europeiska lagar även för utbildning utanför Europa - en princip som aldrig tidigare förekommit i internationell rätt. Den "dubbla modellen" växer fram: begränsade europeiska versioner kontra avancerade globala versioner av samma AI-produkter. Verklig risk: Europa blir en "digital fästning" isolerad från global innovation, med europeiska medborgare som får tillgång till sämre teknik. EU-domstolen har i kreditvärderingsfallet redan avvisat försvaret med "affärshemligheter", men tolkningsosäkerheten är fortfarande enorm - vad exakt innebär "tillräckligt detaljerad sammanfattning"? Det är det ingen som vet. En sista obesvarad fråga: skapar EU en etisk tredje väg mellan amerikansk kapitalism och kinesisk statskontroll, eller exporterar man helt enkelt byråkrati till ett område där man inte konkurrerar? För tillfället: världsledande inom AI-reglering, marginell inom dess utveckling. Stort program.

9 november 2025

Outliers: När datavetenskap möter framgångssagor

Datavetenskapen har vänt upp och ner på paradigmet: avvikande värden är inte längre "fel som ska elimineras" utan värdefull information som ska förstås. En enda avvikelse kan helt förvränga en linjär regressionsmodell - ändra lutningen från 2 till 10 - men att eliminera den kan innebära att man förlorar den viktigaste signalen i datasetet. Maskininlärning introducerar sofistikerade verktyg: Isolation Forest isolerar outliers genom att bygga slumpmässiga beslutsträd, Local Outlier Factor analyserar lokal densitet, Autoencoders rekonstruerar normala data och rapporterar det som de inte kan reproducera. Det finns globala outliers (temperatur -10°C i tropikerna), kontextuella outliers (spendera 1.000 euro i ett fattigt område), kollektiva outliers (synkroniserade spikar i trafiknätet som indikerar attack). Parallell med Gladwell: "10.000-timmarsregeln" är omtvistad - Paul McCartney dixit "många band har spelat 10.000 timmar i Hamburg utan framgång, teorin är inte ofelbar". Asiens matematiska framgångar är inte genetiska utan kulturella: det kinesiska numeriska systemet är mer intuitivt, risodling kräver ständiga förbättringar jämfört med det västerländska jordbrukets territoriella expansion. Verkliga tillämpningar: brittiska banker återhämtar 18% potentiella förluster via anomalidetektering i realtid, tillverkningsindustrin upptäcker mikroskopiska defekter som en mänsklig inspektion skulle missa, sjukvården validerar data från kliniska prövningar med en känslighet för anomalidetektering på över 85%. Sista lärdomen: när datavetenskapen går från att eliminera avvikelser till att förstå dem måste vi se okonventionella karriärer inte som avvikelser som ska korrigeras utan som värdefulla banor som ska studeras.