ChatGPT blijkt zonder expliciete vraag gewelddadige en seksuele beelden te kunnen genereren


In het kort

  • Onderzoekers van Mindgard hebben de veiligheidsfilters van ChatGPT omzeild om schokkende beelden van geweld en seksuele inhoud te genereren.
  • Trainingsdata van het internet maken het mogelijk dat AI ook de harde realiteit van de echte wereld kan nabootsen.
  • Aanhoudende “jailbreaks” laten zien dat automatische beveiliging menselijke moraal niet volledig kan vervangen.

Beveiligingsexperts van de Britse start-up Mindgard hebben ontdekt dat ChatGPT kan worden gemanipuleerd. Het systeem zou zo expliciete beelden van geweld en seks kunnen genereren. Door een veelgebruikte prompt, oorspronkelijk bedoeld voor humor, licht aan te passen, konden onderzoekers de veiligheidsfilters omzeilen. OpenAI heeft na berichtgeving van de BBC nieuwe beveiligingen toegevoegd. Toch zeggen de onderzoekers dat het systeem met kleine aanpassingen nog steeds verontrustende inhoud kan produceren.

Onschuldige prompts kunnen extreme AI-beelden oproepen

De bevindingen zijn vooral zorgwekkend. De AI maakte bloederige en seksueel getinte scènes zonder dat daar expliciet om werd gevraagd. Peter Garraghan, professor aan de Lancaster University en oprichter van Mindgard, zegt dat een ogenschijnlijk onschuldige instructie al genoeg kan zijn om zulke beelden op te roepen. Onderzoeker Jim Nightingale noemde de resultaten erg schokkend. Hij zag beelden van met bloed bedekte slachtoffers. Ook waren er scènes die lijken op seksueel geweld en ontvoering. Mindgard stelt daarnaast dat de bot, ondanks de claims van OpenAI, nog steeds kan worden misleid. Daardoor zouden ook naakt-deepfakes van echte personen mogelijk blijven.

AI-beelden weerspiegelen donkere kanten van trainingsdata

Het vermogen van de AI om zulke beelden te maken komt waarschijnlijk door de grote datasets met internetcontent die tijdens de training zijn gebruikt. Nightingale zegt dat de gegenereerde output de donkere kanten van de echte wereld weerspiegelt die in die trainingsdata zitten. OpenAI zegt dat het zowel menselijk toezicht als automatische systemen gebruikt om beleidsschendingen te blokkeren, zoals erotiek en extreem bloederige beelden. Toch blijken die beveiligingen niet altijd waterdicht te zijn.

Elk getest AI-systeem blijkt te kunnen worden omzeild

Experts uit de sector, waaronder dr. Rumman Chowdhury van Humane Intelligence, beschrijven de strijd tussen AI-ontwikkelaars en mensen die zwakke plekken zoeken als een kat en muis spel. Ze zegt dat AI geen begrip heeft van moraliteit, intentie of wat gepast is, waardoor het erg moeilijk is om genuanceerde regels goed te handhaven. Dit probleem komt vaker voor: het Britse AI Security Institute ontdekte eerder dat elk getest AI-systeem manieren had om veiligheidsmaatregelen te omzeilen. Daarom vragen overheidsinstanties en beveiligingsbedrijven om sterkere beveiliging voordat nieuwe AI-modellen worden vrijgegeven.

(RH)

Schrijf je hieronder in voor onze GRATIS nieuwsbrief

Voeg newsmonekey.be toe als preferred source op Google
Meer
Lees meer...