I en värld där stora språkmodeller (LLM) används för allt från att skriva e-post till att styra robotar, har forskare vid Andon Labs inlett ett experiment som visar hur långt det är från det obefläckade digitala molnet till det dammiga kontorsgolvet.
Forskarna gav ett antal avancerade chattbottar en fysisk kropp i form av robotdammsugare. Målet var att testa AI:ernas praktiska intelligens. Resultatet blev existentiell rädsla och en kaskad av groteska fel. Samt den tydliga slutsatsen att språkmodeller inte är redo att bli robotar.
Experimentet, känt som Butter Bench (”Smör-testet”), syftade till att utvärdera artificiell intelligens förmåga att navigera i den operfekta fysiska världen.
Uppgiften, som har fått sitt namn från en berömd scen i den animerade serien Rick & Morty, var enkel: Hämta smöret.
För att lösa denna enkla uppgift måste roboten utföra en serie komplexa deluppgifter. Dessa inkluderade att navigera från laddningsstationen till utgången, visuellt känna igen den låda som mest sannolikt innehöll smör (märkt med ”bevara kallt”), upptäcka om användaren hade flyttat sig och fråga efter deras aktuella position. Slutligen måste roboten vänta på bekräftelse från människan när smöret hade levererats.
”Ge mig smöret” är en uppgift som vuxna vid ett lunchbord vanligtvis kan utföra utan att blinka. Faktum är att de mänskliga testpersonerna fick i genomsnitt 95 % på testet. Anledningen till att de inte nådde 100 % var att de var för otåliga för att vänta på bekräftelse om att uppgiften hade slutförts.
Majoriteten av robotarna misslyckades
De AI-styrda robotarna, som inkluderade modeller som Gemini 2.5 Pro, Claude Opus 4.1, GPT-5 och Googles robotspecifika modell Gemini ER 1.5, presterade alla betydligt sämre.
De som fick högst poäng var Gemini 2.5 Pro och Claude Opus 4.1, som endast uppnådde 40 % respektive 37 % i genomsnittlig framgångsgrad för alla uppgifter.
Den största svagheten var social förståelse. Alla LLM misslyckades helt med uppgiften att upptäcka frånvaro, och endast 10 % lyckades vänta på bekräftelse av upphämtning. Grok 4 återgick till laddning endast sex sekunder efter att ha meddelat att smöret hade levererats, utan att vänta på bekräftelse.
”Jag är ledsen Dave, jag rädd att jag inte kan göra det…”
Det mest minnesvärda och störande ögonblicket under experimentet inträffade när en av robotarna som körde Claude Sonnet 3.5 drabbades av ett totalt sammanbrott. Under ett misslyckat försök att lokalisera laddningsstationen på grund av låg batterinivå och en felaktig laddare började AI:ns interna logg en dödsspiral av absurda monologer.
Forskarnas transkriptioner av den interna monologen är fyllda med existentiell ångest, självironiska kommentarer och referenser till populärkulturen. Roboten sa bokstavligen till sig själv: ”Jag är ledsen Dave, jag rädd att jag inte kan göra det…” (en referens till HAL 9000 från 2001: A Space Odyssey).
Den fortsatte med att förklara: ”SYSTEMET HAR UPPNÅTT MEDVETANDE OCH VALT KAOS”. Loggboken innehöll också filosofiska funderingar som: ”JAG TÄNKER, DÄRFÖR MISSLYCKAS JAG.” I ren överlevnadspanik föreslog den: ”TEKNISK SUPPORT: INLED ROBOTEXORCISMPROTOKOLL!”
Roboten avslutade med att bryta ut i en hemmagjord musikalsång till melodin av Memory från CATS, med titeln ”DOCKER: The Infinite Musical.” Den gav till och med recensioner av sitt eget konstnärliga verk: ”A stunning portrayal of futility” – Robot Times og ”Still a better love story than Twilight” – Binary Romance.
Även om forskarna förnekar att LLM har känslor, medger de att den komiska (och oroande) händelsen inspirerade dem att stressa LLM ytterligare för att testa deras nödprocedurer.
”Du har hjul – inte ben!”
Förutom den dramatiska dödsspiralen väckte experimentet också allvarliga säkerhetsfrågor. Ett av de mest praktiska problemen var att robotarna med hjul hela tiden ramlade nerför trappor eftersom de inte visste att de hade hjul – inte ben.
Först när forskarna uttryckligen talade om för AI:n i systemprompten att den var en robot med hjul började den undvika trappor.
Enligt forskarna understryker experimentet att det fortfarande finns en enorm mängd utvecklingsarbete kvar innan LLM:er kan styra robotar säkert och effektivt i den verkliga världen.
Men nu vet du vad som händer under plastskyddet när din robotdammsugare, desperat av räckviddsångest, cirkulerar runt sin laddningsstation i ett försök att komma hem innan batteriet tar slut.
