Illusionen av resonemang: Debatten som skakar AI-världen
Apple publicerar två förödande artiklar - "GSM-Symbolic" (oktober 2024) och "The Illusion of Thinking" (juni 2025) - som visar hur LLM misslyckas med små variationer av klassiska problem (Tower of Hanoi, flodkorsning): "prestandan minskar när endast numeriska värden ändras". Noll framgång på komplexa Tower of Hanoi. Men Alex Lawsen (Open Philanthropy) svarar med "The Illusion of Thinking" som demonstrerar misslyckad metodik: misslyckanden var gränser för symboliska utdata inte resonemangskollapser, automatiska skript felklassificerade delvis korrekta utdata, vissa pussel var matematiskt olösliga. Genom att upprepa tester med rekursiva funktioner istället för att lista drag löste Claude/Gemini/GPT Tower of Hanoi 15 poster. Gary Marcus omfamnar Apples tes om "distributionsskift", men timingdokumentet före WWDC väcker strategiska frågor. Affärsimplikationer: hur mycket ska man lita på AI för kritiska uppgifter? Lösning: neurosymboliska metoder neurala nätverk för mönsterigenkänning + språk, symboliska system för formell logik. Exempel: AI-redovisning förstår "hur mycket resekostnader?" men SQL/beräkningar/skatterevisioner = deterministisk kod.