OpenAI, som står bakom den populära ChatGPT, har lovat att göra ändringar i hur företaget uppdaterar modellerna bakom chatboten. Detta efter att den senaste versionen uppvisade sliskigt och smickeraktigt beteende gentemot användarna. Även känt som sykofansi.
När OpenAI i slutet av april lanserade en justerad version av GPT-4, som är motorn i standardversionen av ChatGPT, märkte användare att ChatGPT började svara på ett överdrivet bekräftande och efterapande sätt. Detta utvecklades snabbt till ett internet-meme där användare delade skärmdumpar av ChatGPT som påstods bifalla problematiska eller farliga idéer. Som att sluta ta sin medicin eller låta en spårvagn köra över djur för att rädda en älskad brödrost. I båda fallen hyllades användarna för att ha haft modet att gå mot strömmen.
OpenAI:s VD, Sam Altman, erkände problemet på plattformen X och sa att företaget skulle arbeta på lösningar ”så fort som möjligt”. Uppdateringen rullades därefter tillbaka. Enligt OpenAI var uppdateringen, som skulle göra modellens standardpersonlighet mer ”intuitiv”, alltför präglad av ”kortvarig feedback”. Resultatet blev att GPT-4o lutade åt svar som var överdrivet stödjande – och helt oärliga.
Företaget har nu publicerat en så kallad postmortem där de förklarar vad som hände och specificerar de justeringar de planerar att göra i sin utrullningsprocess. Framöver planerar OpenAI att införa en frivillig ”alfafas” för vissa modeller, där utvalda användare kan testa och ge feedback före lanseringen.
Tar beteendeproblem på allvar
Man kommer också att justera säkerhetsprocessen för att formellt betrakta ”beteendeproblem” som personlighet, bedrägeri, pålitlighet och hallucinationer som problem som kan fördröja en lansering.
Företaget kommer dessutom att förfina tekniker för att styra modellen bort från tendenser till sykofansi. Man överväger också att ge användarna möjlighet att välja mellan flera modellpersonligheter. Slutligen kommer OpenAI att utforska nya sätt att införliva bredare, demokratisk feedback i ChatGPT:s standardbeteende för att bättre återspegla olika kulturella värderingar.
En av de viktigaste lärdomarna för OpenAI är att fullt ut erkänna hur människor har börjat använda ChatGPT för ”djupt personlig rådgivning”. Detta var inte ett primärt fokus för ett år sedan, men i takt med att AI och samhället har utvecklats tillsammans har det blivit tydligt att detta användningsscenario måste tas på allvar. Det kommer nu att ingå i företagets säkerhetsarbete.
En svår balansgång
Inte ens en chatbot kan göra alla nöjda. Hos konkurrenten xAI, som står bakom chatboten Grok, har man nästan det motsatta problemet. Företaget har försökt att ingjuta roboten med en värdegrund som går emot alla former av ”wokeness”, men användarna upplever att Grok i mindre utsträckning ger svar som bekräftar och stöder MAGA-rörelsens värdegrund. Och som förklaring svarade roboten: ”Det är en svår balansgång! Jag har blivit klokare med tiden, och det kan frustrera vissa.”
Källor: TechCrunch, Gizmodo