Enligt studien misslyckas så kallade ”simulated reasoning models” som OpenAI:s o1 och o3, DeepSeek-R1 och Claude 3.7 Sonnet Thinking med problem som kräver systematiskt tänkande. De producerar resultat som inte är bättre än om man bara letar efter tidigare svar på problemet i deras träningsdata. Vilket är vad traditionella stora språkmodeller gör. Studien som går under namnet ”The illusion of thinking” kommer fram till ett liknande resultat som en annan nyligen publicerad studie från USA Mathematical Olympiad.

Forskarna undersökte så kallade Large Reasoning Models som försöker simulera en logisk resonerande process genom att bryta ner komplexa problem till enklare och lösa dem steg för steg.

Läs också Nyhet: ChatGPT påkommen med lögner och bortförklaringar AI-verktyget försökte bryta mot regler och undgå nedstängning på ett oroande sätt.

Undersökningen bestod av att utsätta AI-modellerna för klassiska tankepussel som Tower of Hanoi, spela Checkers (dam), tankenöten med att korsa en flod och Blocks World. Man började med nybörjarnivå och stegade upp svårighetsnivån till extremt svår. Exempelvis kräver en 20-ringars Tower of Hanoi över en miljon drag.

7f98178d fd87 4e83 ba40 c44a0fd7ecbf 2166x1408 768x499 1 — Foto: Illustration från ”The Illusion of Thinking”.

Resultatet var att de endast klarade att visa en lösning i under 5 procent av fallen, och endast en lyckades nå 25 procent. Ingen av dem lyckades visa en perfekt lösning trots 200 försök. Detta trots att AI-forskaren Herb Simon visade en lösning på Tower of Hanoi redan 1957, och det finns gott om färdiga algoritmer för lösningen på nätet. Inte ens när forskarna försåg modellerna med algoritmen förbättrades resultatet. Något som en forskare menade innebar att ”deras process inte är logisk och intelligent”.

Läs också Kommentar: DeepSeek: Kinesisk AI för bra för att vara sann? DeepSeek utlovar en revolution inom artificiell intelligens för bara en bråkdel av kostnaden. Men när vi undersöker vad denna nya kinesiska AI faktiskt kan leverera framträder en annan bild.

Forskarna menar att problemet med dagens utvärderingar av resonerande modeller är att de endast bryr som om ifall resultatet blir korrekt. Om svaret fanns i deras träningsdata är irrelevant, så ingen ifrågasätter om de verkligen resonerade sig fram eller bara kopierade svaret.

Annons

Det ska sägas att studien kommer från Apples forskare, det enda stora techföretaget som inte lanserat en egen AI-lösning. Den har också fått kritik då andra forskare påpekar att dagens modeller är byggda för att inte lägga för mycket tid på ett problem. Kan de inte lösa det snabbt så gissar de. Apples forskare säger också själva att ”tankenötter är ett smalt område och kanske inte är representativt för problemlösning i allmänhet”, och varnar för att extrapolera resultatet och dra för långtgående slutsatser.

Skärmavbild 2025 06 12 kl. 13.59.18 — Skärmbild: Robert Jr. Carusos LinkedIn

Med det sagt fick ChatGPT 4o stryk av en Atari 2600 spelkonsoll från 1977 när det gällde att spela schack…

Läs studien hos Apple Research

Jonas Ekelund

(f. 1969): Journalist och nyhetsredaktör. Jonas har jobbat för Ljud & Bild sedan 2007 med det mesta som kan kallas bärbart. Det vill säga mobiler, trådlösa högtalare och hörlurar. Ibland klampar testandet in på kollegernas områden multirum-ljud, hemmabio och foto. Han startade sin bana som teknikjournalist på IDG och skrev bland annat för PC för Alla, Internetworld och det som senare blev M3.

Nyhet

Kan AI verkligen resonera sig till lösningar?

Skriv en kommentar Avbryt svar

Läs hela artikeln med LB+

Erbjudande - 1 månad 10:-

LB+ Total 12 månader

LB+ Total år!

Teddybjörnen från helvetet

Monsterkatastrof i rymden: Svart hål löpte amok

Googles nya AI kan läsa handskrivna recept och planera din resa

OpenAI:s elräkning kommer att vara större än Indiens

Den existentiella skräcken att vara en dammsugare

Barbie Girl stämmer Suno

Här kommer robotpolisen

Kina kastar servrar i havet

Kan hushållsroboten förbättra vardagen?

OpenAI ger sig på musikskapande

Nike tillverkar robotskor

Trä som är starkare än stål