TESTER Bil & Elfordon Datorer Sport & Träning Gaming Mobil Smart hem Teknik
Midsommar- erbjudande LB+ Total 50%

Nyhet

Kan AI verkligen resonera sig till lösningar?

Studie visar att resonerande AI-modeller inte klarar av klassiska tankepussel.

Av / 2025-06-12 - 14:00
Kan AI verkligen resonera sig till lösningar?

Enligt studien misslyckas så kallade ”simulated reasoning models” som OpenAI:s o1 och o3, DeepSeek-R1 och Claude 3.7 Sonnet Thinking med problem som kräver systematiskt tänkande. De producerar resultat som inte är bättre än om man bara letar efter tidigare svar på problemet i deras träningsdata. Vilket är vad traditionella stora språkmodeller gör. Studien som går under namnet ”The illusion of thinking” kommer fram till ett liknande resultat som en annan nyligen publicerad studie från USA Mathematical Olympiad.

Forskarna undersökte så kallade Large Reasoning Models som försöker simulera en logisk resonerande process genom att bryta ner komplexa problem till enklare och lösa dem steg för steg.

Läs också Nyhet: ChatGPT påkommen med lögner och bortförklaringar AI-verktyget försökte bryta mot regler och undgå nedstängning på ett oroande sätt.

Undersökningen bestod av att utsätta AI-modellerna för klassiska tankepussel som Tower of Hanoi, spela Checkers (dam), tankenöten med att korsa en flod och Blocks World. Man började med nybörjarnivå och stegade upp svårighetsnivån till extremt svår. Exempelvis kräver en 20-ringars Tower of Hanoi över en miljon drag.

7f98178d fd87 4e83 ba40 c44a0fd7ecbf 2166x1408 768x499 1
Foto: Illustration från ”The Illusion of Thinking”.

Resultatet var att de endast klarade att visa en lösning i under 5 procent av fallen, och endast en lyckades nå 25 procent. Ingen av dem lyckades visa en perfekt lösning trots 200 försök. Detta trots att AI-forskaren Herb Simon visade en lösning på Tower of Hanoi redan 1957, och det finns gott om färdiga algoritmer för lösningen på nätet. Inte ens när forskarna försåg modellerna med algoritmen förbättrades resultatet. Något som en forskare menade innebar att ”deras process inte är logisk och intelligent”.

Läs också Kommentar: DeepSeek: Kinesisk AI för bra för att vara sann? DeepSeek utlovar en revolution inom artificiell intelligens för bara en bråkdel av kostnaden. Men när vi undersöker vad denna nya kinesiska AI faktiskt kan leverera framträder en annan bild.

Forskarna menar att problemet med dagens utvärderingar av resonerande modeller är att de endast bryr som om ifall resultatet blir korrekt. Om svaret fanns i deras träningsdata är irrelevant, så ingen ifrågasätter om de verkligen resonerade sig fram eller bara kopierade svaret.

Annons

Det ska sägas att studien kommer från Apples forskare, det enda stora techföretaget som inte lanserat en egen AI-lösning. Den har också fått kritik då andra forskare påpekar att dagens modeller är byggda för att inte lägga för mycket tid på ett problem. Kan de inte lösa det snabbt så gissar de. Apples forskare säger också själva att ”tankenötter är ett smalt område och kanske inte är representativt för problemlösning i allmänhet”, och varnar för att extrapolera resultatet och dra för långtgående slutsatser.

Skärmavbild 2025 06 12 kl. 13.59.18
Skärmbild: Robert Jr. Carusos LinkedIn

Med det sagt fick ChatGPT 4o stryk av en Atari 2600 spelkonsoll från 1977 när det gällde att spela schack…

Läs studien hos Apple Research

(f. 1969): Journalist och nyhetsredaktör. Jonas har jobbat för Ljud & Bild sedan 2007 med det mesta som kan kallas bärbart. Det vill säga mobiler, trådlösa högtalare och hörlurar. Ibland klampar testandet in på kollegernas områden multirum-ljud, hemmabio och foto. Han startade sin bana som teknikjournalist på IDG och skrev bland annat för PC för Alla, Internetworld och det som senare blev M3.

Skriv en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Läs hela artikeln med LB+

Erbjudande

Erbjudande - 1 månad 10:-

Prova LB+ i en månad för 10:-

LB+ Total 12 månader

Full tillgång till allt innehåll på Ljud & Bild och L&B Home i 12 månader

LB+ Total 6 månader!

Full tillgång till allt innehåll på Ljud & Bild och L&B Home i 6 månader

10:- / första månaden
154:- / mån
154:- / mån
Med ett abonnemang får du även:
  • Tillgång till fler 7 800 produkttester!
  • Nyhetsbrev varje vecka med de senaste nyheterna
  • Bra rabatter hos våra samarbetspartner i LB+ Fördelsklubb
  • Tidningen i digitalt format – nytt nummer varje månad
  • L&B TechCast – en podd från L&B
  • Inaktiverade annonser
  • L&B+ Video – häng med L&B-redaktionen bakom kulisserna på de stora teknikmässorna och mycket mer!

Snacka med din sökmotor

AI avslöjar: Vintergatans svarta hål roterar i galen fart

Hollywood stämmer Midjourney

Hur korkad är AI?

Ladda AA-batterierna med USB

ChatGPT-chattar sparas nu permanent

Europas första månbil landar

ChatGPT blir superassistent

Okänd livsform upptäckt i rymden

Snart kan du se i mörkret

ChatGPT säkrar Apple-design för miljarder

Allt nytt från Google I/O