Medan vi andra är upptagna med att diskutera om artificiell intelligens kommer att ta våra jobb eller bara har blivit otroligt bra på att rimma, har en grupp forskare i tysthet lyft på slöjan och avslöjat vad som egentligen pågår under den digitala huven. Svaret är inte bara relevant för maskiner, det kan också avslöja något om hur kreativitet uppstår hos oss alla.
Under det senaste året har det varit nästan omöjligt att öppna en digital tidning utan att möta ännu en bild skapad av artificiell intelligens. En astronaut på en häst i fotorealistisk stil. En katt målad som en van Gogh. Fantasin, eller åtminstone maskinens förmåga att kombinera koncept, verkar vara gränslös.
Men varifrån kommer denna ”kreativitet”? Är maskinen verkligen kreativ, eller är den bara vad vissa kritiska forskare har kallat en stokastisk papegoja – en avancerad imitatör som helt enkelt blandar och matchar de miljarder bilder den har matats med, utan någon verklig innovation?
En ny studie, publicerad i den renommerade tidskriften Quanta Magazine, tyder på att sanningen är mycket mer finurlig. Kreativitet är inte något som är specifikt programmerat in i dessa bildgeneratorer. Istället verkar det vara en oundviklig biprodukt av deras arkitektur . En slags lycklig slump inbyggd i systemets DNA… förlåt: kod!
Makulerade målningar
För att förstå upptäckten måste vi titta på hur en modern bildgenerator, en så kallad diffusionsmodell, faktiskt fungerar. En diffusionsmodell börjar med att omvandla en bild till rent digitalt brus – som en målning som körs genom en dokumentförstörare tills bara fint damm återstår.
AI:n börjar sedan samla ihop dammet igen. Den arbetar inte i blindo, utan får ”monteringsinstruktioner” i form av vår textbeskrivning, till exempel ”en astronaut på en häst”. För varje litet, mödosamt steg där modellen tar bort lite av bruset, konsulterar den sina instruktioner och bedömer vilken justering som mest sannolikt kommer att föra den närmare ett resultat som både liknar en igenkännbar bild och matchar den önskade scenen. Det är i denna kontrollerade återskapandeprocess som magin sker.
Hittills har vissa delar av denna process betraktats som tekniska begränsningar. Systemet är till exempel byggt för att fokusera på små delar av bilden åt gången, nästan som en konstnär som bara kan se en liten del av sin duk. Samtidigt finns det en inbyggd regel som säger att om du flyttar inmatningen något – till exempel förskjuter ett ansikte några pixlar åt vänster – kommer systemet automatiskt att göra samma förskjutning i den färdiga bilden.
Dessa regler betraktades som tekniska egenheter som hindrade maskinen från att göra perfekta kopior. De förknippades inte med kreativitet, som ansågs vara en mer upphöjd, nästan mystisk egenskap. Men detta var ett misstag.
Den oundvikliga kreativiteten
Ny forskning visar att just de mekanismer som begränsar modellens syn och tvingar den att arbeta lokalt är själva källan till dess kreativitet. Eftersom systemet tvingas återskapa bilden från små bitar och generella regler – istället för att ha ett komplett minne av originalet – måste det generalisera och improvisera.
Det är som att be en musiker att återskapa en symfoni efter att bara ha hört små, osammanhängande bitar. Musikern skulle tvingas fylla i luckorna utifrån sin förståelse av musikaliska regler och harmonier. Resultatet skulle inte bli en perfekt kopia, utan en nytolkning – en kreativ handling.
För första gången har forskare formulerat detta matematiskt. De har visat hur uppenbar kreativitet är en deterministisk process – en direkt och förutsägbar konsekvens av hur systemet är uppbyggt. Det är inte slumpmässig magi, utan en logisk konsekvens av arkitekturen.
Det finns inget monster under sängen, men om vi stirrar in i det flimrande mörkret tillräckligt länge kommer vi ändå att se det.
Detta utmanar direkt idén om den ”stokastiska papegojan”. Papegojan kan bara upprepa det den har hört. Men på grund av sin inbyggda ”glömska” och fokus på lokala mönster snarare än helheten, tvingas dessa system att skapa något som är förenligt med deras träning, men inte nödvändigtvis en direkt kopia. De skapar nya låtar baserade på de toner de känner till.
Så vad betyder detta för oss? Kanske är mysteriet med vår egen kreativitet inte så annorlunda. Våra hjärnor är inte perfekta hårddiskar som lagrar varje upplevelse med fullständig noggrannhet. Vi glömmer, vi generaliserar och vi kombinerar fragment av minnen och kunskap för att skapa nya idéer. Kanske är mänsklig kreativitet, precis som maskiners, ett oundvikligt resultat av ett system som är byggt för att hitta mönster i en kaotisk värld, även när det inte har alla pusselbitar. Det finns inget monster under sängen, men om vi stirrar in i det flimrande mörkret tillräckligt länge kommer vi ändå att se det.
Så nästa gång du ser en AI-genererad bild av en ridande astronaut kan det vara värt att tänka på. Det är inte bara en smart papegoja, det är en inblick i en fundamental mekanism som tvingar fram ordning och innovation ur brus. Vilket kanske är den mest träffande definitionen av kreativitet som vi hittills har fått.
Källor: Quanta Magazine, ACM Digtial Library
