


Under de senaste månaderna har det inom artificiell intelligens förts en hetsig debatt som utlösts av två inflytelserika forskningsrapporter som publicerats av Apple. Den första, "GSM-Symbolic (oktober 2024), och den andra, "Illusionen av att tänka (juni 2025), ifrågasatte den påstådda resonemangsförmågan hos Large Language Models, vilket utlöste blandade reaktioner i branschen.
Som redan analyserats i vår tidigare artikel om "Illusionen om framsteg: att simulera allmän artificiell intelligens utan att uppnå den".berör frågan om artificiellt resonemang själva kärnan i vad vi anser vara intelligens i maskiner.
Apple-forskare genomförde en systematisk analys av Large Reasoning Models (LRM) - de modeller som genererar detaljerade resonemang innan de ger ett svar. Resultaten var överraskande och, för många, alarmerande.
I studien utsattes de mest avancerade modellerna för klassiska algoritmiska pussel som t.ex:

Resultaten visade att även små förändringar i problemformuleringen leder till betydande variationer i prestanda, vilket tyder på en oroande svaghet i resonemanget. Som rapporterats i AppleInsider-täckning"minskar prestandan för alla modeller när endast de numeriska värdena i GSM-Symbolic benchmark-frågorna ändras".
Svaret från AI-gemenskapen lät inte vänta på sig. Alex Lawsen från Open Philanthropy, i samarbete med Claude Opus från Anthropic, publicerade en detaljerad motbevisning med titeln "Illusionen av att tänka".där han ifrågasatte metoderna och slutsatserna i Apple-studien.
När Lawsen upprepade testerna med alternativa metoder - och bad modellerna att generera rekursiva funktioner istället för att lista alla drag - blev resultaten dramatiskt annorlunda. Modeller som Claude, Gemini och GPT löste korrekt problem med Tower of Hanoi med 15 poster, långt bortom den komplexitet där Apple rapporterade noll framgångar.
Gary Marcusen långvarig kritiker av LLM:s resonemangsförmåga, tog Apples resultat som en bekräftelse på sin 20-åriga avhandling. Enligt Marcus fortsätter civilingenjörer att kämpa med "distribution shift" - förmågan att generalisera bortom utbildningsdata - samtidigt som de är "bra på att lösa problem som redan har lösts".
Diskussionen har också spridit sig till specialiserade grupper som t.ex. LocalLlama på Redditdär utvecklare och forskare diskuterar de praktiska konsekvenserna för modeller med öppen källkod och lokal implementering.
Denna debatt är inte enbart akademisk. Den har direkta konsekvenser för:
Som framhävts i flera tekniska insikterfinns det ett ökande behov av hybridmetoder som kombinerar:
Trivialt exempel: en AI-assistent som hjälper till med bokföringen. Språkmodellen förstår när du frågar "hur mycket har jag spenderat på resor den här månaden?" och extraherar de relevanta parametrarna (kategori: resor, period: den här månaden). Men SQL-frågan som söker i databasen, beräknar summan och kontrollerar de skattemässiga begränsningarna? Det görs av deterministisk kod, inte av den neurala modellen.
Det undgick inte observatörerna att Apple-dokumentet publicerades strax före WWDC, vilket väcker frågor om de strategiska motiven. Som denanalys av 9to5Mac, "tidpunkten för Apple-papperet - precis före WWDC - höjde några ögonbryn. Var detta en milstolpe för forskningen eller ett strategiskt drag för att ompositionera Apple i det bredare AI-landskapet?"
Debatten som utlöstes av Apples papper påminner oss om att vi fortfarande befinner oss i ett tidigt skede när det gäller att förstå artificiell intelligens. Som påpekats i vår tidigare artikelär skillnaden mellan simulering och autentiskt resonemang fortfarande en av vår tids mest komplexa utmaningar.
Den verkliga lärdomen är inte huruvida jurister kan "resonera" i ordets mänskliga bemärkelse, utan snarare hur vi kan bygga system som utnyttjar deras styrkor och samtidigt kompenserar för deras begränsningar. I en värld där AI redan håller på att förändra hela sektorer är frågan inte längre om dessa verktyg är "smarta", utan hur de ska användas på ett effektivt och ansvarsfullt sätt.
Framtiden för AI i företag kommer förmodligen inte att ligga i ett enda revolutionerande tillvägagångssätt, utan i en intelligent orkestrering av flera kompletterande tekniker. Och i det här scenariot blir förmågan att kritiskt och ärligt utvärdera våra verktygs kapacitet en konkurrensfördel i sig.
För insikter i din organisations AI-strategi och implementering av robusta lösningar finns vårt team av experter tillgängliga för skräddarsydda konsultationer.