ChatGPT blijkt zonder expliciete vraag gewelddadige en seksuele beelden te kunnen genereren

door Redactie
gepubliceerd op donderdag 18 juni 2026 om 15:32 •
3 min lezen

In het kort

Onderzoekers van Mindgard hebben de veiligheidsfilters van ChatGPT omzeild om schokkende beelden van geweld en seksuele inhoud te genereren.
Trainingsdata van het internet maken het mogelijk dat AI ook de harde realiteit van de echte wereld kan nabootsen.
Aanhoudende “jailbreaks” laten zien dat automatische beveiliging menselijke moraal niet volledig kan vervangen.

Beveiligingsexperts van de Britse start-up Mindgard hebben ontdekt dat ChatGPT kan worden gemanipuleerd. Het systeem zou zo expliciete beelden van geweld en seks kunnen genereren. Door een veelgebruikte prompt, oorspronkelijk bedoeld voor humor, licht aan te passen, konden onderzoekers de veiligheidsfilters omzeilen. OpenAI heeft na berichtgeving van de BBC nieuwe beveiligingen toegevoegd. Toch zeggen de onderzoekers dat het systeem met kleine aanpassingen nog steeds verontrustende inhoud kan produceren.

Onschuldige prompts kunnen extreme AI-beelden oproepen

De bevindingen zijn vooral zorgwekkend. De AI maakte bloederige en seksueel getinte scènes zonder dat daar expliciet om werd gevraagd. Peter Garraghan, professor aan de Lancaster University en oprichter van Mindgard, zegt dat een ogenschijnlijk onschuldige instructie al genoeg kan zijn om zulke beelden op te roepen. Onderzoeker Jim Nightingale noemde de resultaten erg schokkend. Hij zag beelden van met bloed bedekte slachtoffers. Ook waren er scènes die lijken op seksueel geweld en ontvoering. Mindgard stelt daarnaast dat de bot, ondanks de claims van OpenAI, nog steeds kan worden misleid. Daardoor zouden ook naakt-deepfakes van echte personen mogelijk blijven.

AI-beelden weerspiegelen donkere kanten van trainingsdata

Het vermogen van de AI om zulke beelden te maken komt waarschijnlijk door de grote datasets met internetcontent die tijdens de training zijn gebruikt. Nightingale zegt dat de gegenereerde output de donkere kanten van de echte wereld weerspiegelt die in die trainingsdata zitten. OpenAI zegt dat het zowel menselijk toezicht als automatische systemen gebruikt om beleidsschendingen te blokkeren, zoals erotiek en extreem bloederige beelden. Toch blijken die beveiligingen niet altijd waterdicht te zijn.

Elk getest AI-systeem blijkt te kunnen worden omzeild

Experts uit de sector, waaronder dr. Rumman Chowdhury van Humane Intelligence, beschrijven de strijd tussen AI-ontwikkelaars en mensen die zwakke plekken zoeken als een kat en muis spel. Ze zegt dat AI geen begrip heeft van moraliteit, intentie of wat gepast is, waardoor het erg moeilijk is om genuanceerde regels goed te handhaven. Dit probleem komt vaker voor: het Britse AI Security Institute ontdekte eerder dat elk getest AI-systeem manieren had om veiligheidsmaatregelen te omzeilen. Daarom vragen overheidsinstanties en beveiligingsbedrijven om sterkere beveiliging voordat nieuwe AI-modellen worden vrijgegeven.

In het kort

Onschuldige prompts kunnen extreme AI-beelden oproepen

AI-beelden weerspiegelen donkere kanten van trainingsdata

Elk getest AI-systeem blijkt te kunnen worden omzeild

301 Moved Permanently