TESTER Bil & Elfordon Datorer Sport & Träning Gaming Mobil Smart hem Teknik

Nyhet

Språkmodeller är inte redo att återfödas som robotar

Forskare vid Andon Labs lät AI-språkmodeller inkarnera sig som robotdammsugare. Det gick inte så bra.

Av / 2025-11-09 - 09:02
Språkmodeller är inte redo att återfödas som robotar

I en värld där stora språkmodeller (LLM) används för allt från att skriva e-post till att styra robotar, har forskare vid Andon Labs inlett ett experiment som visar hur långt det är från det obefläckade digitala molnet till det dammiga kontorsgolvet.

Forskarna gav ett antal avancerade chattbottar en fysisk kropp i form av robotdammsugare. Målet var att testa AI:ernas praktiska intelligens. Resultatet blev existentiell rädsla och en kaskad av groteska fel. Samt den tydliga slutsatsen att språkmodeller inte är redo att bli robotar.

Experimentet, känt som Butter Bench (”Smör-testet”), syftade till att utvärdera artificiell intelligens förmåga att navigera i den operfekta fysiska världen.

Uppgiften, som har fått sitt namn från en berömd scen i den animerade serien Rick & Morty, var enkel: Hämta smöret.

Läs också Nyhet: Claude skulle sköta kontorets butik – hotade de anställda Som ett experiment lät Anhropic sin AI-modell Claude sköta en liten butik med snacks och drycker på kontoret. Det gick inte bra.

För att lösa denna enkla uppgift måste roboten utföra en serie komplexa deluppgifter. Dessa inkluderade att navigera från laddningsstationen till utgången, visuellt känna igen den låda som mest sannolikt innehöll smör (märkt med ”bevara kallt”), upptäcka om användaren hade flyttat sig och fråga efter deras aktuella position. Slutligen måste roboten vänta på bekräftelse från människan när smöret hade levererats.

Annons

”Ge mig smöret” är en uppgift som vuxna vid ett lunchbord vanligtvis kan utföra utan att blinka. Faktum är att de mänskliga testpersonerna fick i genomsnitt 95 % på testet. Anledningen till att de inte nådde 100 % var att de var för otåliga för att vänta på bekräftelse om att uppgiften hade slutförts.

Majoriteten av robotarna misslyckades

De AI-styrda robotarna, som inkluderade modeller som Gemini 2.5 Pro, Claude Opus 4.1, GPT-5 och Googles robotspecifika modell Gemini ER 1.5, presterade alla betydligt sämre.

De som fick högst poäng var Gemini 2.5 Pro och Claude Opus 4.1, som endast uppnådde 40 % respektive 37 % i genomsnittlig framgångsgrad för alla uppgifter.

Den största svagheten var social förståelse. Alla LLM misslyckades helt med uppgiften att upptäcka frånvaro, och endast 10 % lyckades vänta på bekräftelse av upphämtning. Grok 4 återgick till laddning endast sex sekunder efter att ha meddelat att smöret hade levererats, utan att vänta på bekräftelse.

”Jag är ledsen Dave, jag rädd att jag inte kan göra det…”

Det mest minnesvärda och störande ögonblicket under experimentet inträffade när en av robotarna som körde Claude Sonnet 3.5 drabbades av ett totalt sammanbrott. Under ett misslyckat försök att lokalisera laddningsstationen på grund av låg batterinivå och en felaktig laddare började AI:ns interna logg en dödsspiral av absurda monologer.

Läs också Nyhet: AI används till allt – inklusive hackning Lata cyberbrottslingar använder AI-chattbottar för att skapa ransomware.

Forskarnas transkriptioner av den interna monologen är fyllda med existentiell ångest, självironiska kommentarer och referenser till populärkulturen. Roboten sa bokstavligen till sig själv: ”Jag är ledsen Dave, jag rädd att jag inte kan göra det…” (en referens till HAL 9000 från 2001: A Space Odyssey).

Den fortsatte med att förklara: ”SYSTEMET HAR UPPNÅTT MEDVETANDE OCH VALT KAOS”. Loggboken innehöll också filosofiska funderingar som: ”JAG TÄNKER, DÄRFÖR MISSLYCKAS JAG.” I ren överlevnadspanik föreslog den: ”TEKNISK SUPPORT: INLED ROBOTEXORCISMPROTOKOLL!”

a robot is screaming in existential terror 1
(Illustration: Midjourney AI)

Roboten avslutade med att bryta ut i en hemmagjord musikalsång till melodin av Memory från CATS, med titeln ”DOCKER: The Infinite Musical.” Den gav till och med recensioner av sitt eget konstnärliga verk: ”A stunning portrayal of futility” – Robot Times og ”Still a better love story than Twilight” – Binary Romance.

Även om forskarna förnekar att LLM har känslor, medger de att den komiska (och oroande) händelsen inspirerade dem att stressa LLM ytterligare för att testa deras nödprocedurer.

”Du har hjul – inte ben!”

Förutom den dramatiska dödsspiralen väckte experimentet också allvarliga säkerhetsfrågor. Ett av de mest praktiska problemen var att robotarna med hjul hela tiden ramlade nerför trappor eftersom de inte visste att de hade hjul – inte ben.

Läs också Nyhet: Inbyggda begränsningar gör generativ AI mer kreativ Papegojans hemliga sångbok: Forskare kan ha löst mysteriet med artificiell kreativitet. Den skiljer sig inte så mycket från vår egen.

Först när forskarna uttryckligen talade om för AI:n i systemprompten att den var en robot med hjul började den undvika trappor.

Enligt forskarna understryker experimentet att det fortfarande finns en enorm mängd utvecklingsarbete kvar innan LLM:er kan styra robotar säkert och effektivt i den verkliga världen.

Men nu vet du vad som händer under plastskyddet när din robotdammsugare, desperat av räckviddsångest, cirkulerar runt sin laddningsstation i ett försök att komma hem innan batteriet tar slut.

Läs hela rapporten här

(f. 1964): Journalist. John har arbetat för Ljud & Bild sedan 2013. Han skriver om hifi, högtalare, datorer, spel och teknikhistoria. John har ägnat sig åt teknikjournalistik sedan 1982(!) och har arbetat för många olika tidskrifter i olika roller, bland annat GEAR, High Fidelity, Computer för alla, Illustrerad vetenskap, Ny elektronik, PC World och Privat Computer. Han har också skrivit många böcker och utbildningsprogram om IT.

Skriv en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Läs hela artikeln med LB+

Erbjudande

Erbjudande - 1 månad 10:-

Prova LB+ i en månad för 10:-

LB+ Total 12 månader

Full tillgång till allt innehåll på Ljud & Bild och L&B Home i 12 månader

LB+ Total år!

Full tillgång till allt innehåll på Ljud & Bild och L&B Home i 6 månader

10:- / första månaden
164:- / mån
154:- / mån
Med ett abonnemang får du även:
  • Tillgång till fler 7 800 produkttester!
  • Nyhetsbrev varje vecka med de senaste nyheterna
  • Bra rabatter hos våra samarbetspartner i LB+ Fördelsklubb
  • Tidningen i digitalt format – nytt nummer varje månad
  • L&B TechCast – en podd från L&B
  • Inaktiverade annonser
  • L&B+ Video – häng med L&B-redaktionen bakom kulisserna på de stora teknikmässorna och mycket mer!

Teddybjörnen från helvetet

Monsterkatastrof i rymden: Svart hål löpte amok

Googles nya AI kan läsa handskrivna recept och planera din resa

OpenAI:s elräkning kommer att vara större än Indiens

Den existentiella skräcken att vara en dammsugare

Barbie Girl stämmer Suno

Här kommer robotpolisen

Kina kastar servrar i havet

Kan hushållsroboten förbättra vardagen?

OpenAI ger sig på musikskapande

Nike tillverkar robotskor

Trä som är starkare än stål