OpenAI åtar sig att göra ChatGPT mindre sliskig

En uppdaterad version av chatboten visade sig vara oärlig och efterapande. Nu har OpenAI återställt uppdateringen – och lovar bättring.

John Hvidlykke

2025-05-08 - 11:02

A chromed robot with the likeness of grima wormto

OpenAI, som står bakom den populära ChatGPT, har lovat att göra ändringar i hur företaget uppdaterar modellerna bakom chatboten. Detta efter att den senaste versionen uppvisade sliskigt och smickeraktigt beteende gentemot användarna. Även känt som sykofansi.

När OpenAI i slutet av april lanserade en justerad version av GPT-4, som är motorn i standardversionen av ChatGPT, märkte användare att ChatGPT började svara på ett överdrivet bekräftande och efterapande sätt. Detta utvecklades snabbt till ett internet-meme där användare delade skärmdumpar av ChatGPT som påstods bifalla problematiska eller farliga idéer. Som att sluta ta sin medicin eller låta en spårvagn köra över djur för att rädda en älskad brödrost. I båda fallen hyllades användarna för att ha haft modet att gå mot strömmen.

OpenAI:s VD, Sam Altman, erkände problemet på plattformen X och sa att företaget skulle arbeta på lösningar ”så fort som möjligt”. Uppdateringen rullades därefter tillbaka. Enligt OpenAI var uppdateringen, som skulle göra modellens standardpersonlighet mer ”intuitiv”, alltför präglad av ”kortvarig feedback”. Resultatet blev att GPT-4o lutade åt svar som var överdrivet stödjande – och helt oärliga.

Läs också Nyhet: Claude AI får webbsökning: Så här utmanar den ChatGPT och Google Gemini Anthropics AI-assistent har äntligen tillgång till webben! Claude kan äntligen ge aktuell information om aktuella händelser och ämnen.

Företaget har nu publicerat en så kallad postmortem där de förklarar vad som hände och specificerar de justeringar de planerar att göra i sin utrullningsprocess. Framöver planerar OpenAI att införa en frivillig ”alfafas” för vissa modeller, där utvalda användare kan testa och ge feedback före lanseringen.

Tar beteendeproblem på allvar

Man kommer också att justera säkerhetsprocessen för att formellt betrakta ”beteendeproblem” som personlighet, bedrägeri, pålitlighet och hallucinationer som problem som kan fördröja en lansering.

Företaget kommer dessutom att förfina tekniker för att styra modellen bort från tendenser till sykofansi. Man överväger också att ge användarna möjlighet att välja mellan flera modellpersonligheter. Slutligen kommer OpenAI att utforska nya sätt att införliva bredare, demokratisk feedback i ChatGPT:s standardbeteende för att bättre återspegla olika kulturella värderingar.

Läs också Nyhet: Googles språkmodell kan nu skapa poddar på svenska Googles NotebookLLM kan tugga sig igenom högar av rapporter och ge dig svaret i textform – eller som ett trevlig poddsamtal. På svenska.

En av de viktigaste lärdomarna för OpenAI är att fullt ut erkänna hur människor har börjat använda ChatGPT för ”djupt personlig rådgivning”. Detta var inte ett primärt fokus för ett år sedan, men i takt med att AI och samhället har utvecklats tillsammans har det blivit tydligt att detta användningsscenario måste tas på allvar. Det kommer nu att ingå i företagets säkerhetsarbete.

En svår balansgång

Inte ens en chatbot kan göra alla nöjda. Hos konkurrenten xAI, som står bakom chatboten Grok, har man nästan det motsatta problemet. Företaget har försökt att ingjuta roboten med en värdegrund som går emot alla former av ”wokeness”, men användarna upplever att Grok i mindre utsträckning ger svar som bekräftar och stöder MAGA-rörelsens värdegrund. Och som förklaring svarade roboten: ”Det är en svår balansgång! Jag har blivit klokare med tiden, och det kan frustrera vissa.”

Källor: TechCrunch, Gizmodo

Läs vidare ⇩