ChatGPT-beveiliging gekraakt? Onderzoekers tonen hoe AI alsnog geweld- en seksbeelden maakt

ChatGPT bleek minder goed beveiligd dan gedacht: onderzoekers van de Britse AI-beveiliger Mindgard wisten de AI met een ogenschijnlijk onschuldige opdracht expliciete beelden te laten maken. OpenAI , het bedrijf achter ChatGPT, zegt tegen de BBC inmiddels extra beveiligingen te hebben toegevoegd om dit soort afbeeldingen tegen te gaan.

Hoe wist Mindgard de ChatGPT-beveiliging te omzeilen? Mindgard ontdekte de kwetsbaarheid tijdens zogenoemde ‘red teaming ‘, waarbij onderzoekers bewust proberen de grenzen van AI-systemen op te zoeken om zwakke plekken bloot te leggen. Volgens het bedrijf was geen ingewikkelde of expliciete opdracht nodig om de beelden te genereren.

De onderzoekers zeggen dat ChatGPT uit zichzelf afbeeldingen maakte met geweld, verwondingen en seksuele elementen. Peter Garraghan, oprichter van Mindgard en hoogleraar computerwetenschappen aan Lancaster University, noemt dat zorgwekkend. „Het gaat om een ogenschijnlijk onschuldige instructie, maar het resultaat kan zeer problematische beelden opleveren.” Metronieuws op WhatsApp Als eerste op de hoogte zijn van de mooiste verhalen, meest opvallende nieuwtjes en handige tips?

Volg dan Metro ’s kanaal op WhatsApp, speciaal voor onze trouwe lezers. Je kunt ons via deze link volgen. Zien we je daar? OpenAI grijpt in Nadat de BBC OpenAI om een reactie vroeg, voerde het bedrijf aanvullende maatregelen door. Volgens OpenAI zijn er meerdere veiligheidslagen aanwezig om te voorkomen dat gebruikers afbeeldingen laten genereren die in strijd zijn met de regels van het platform . „Na onderzoek naar deze methode hebben we extra beveiligingen toegevoegd”, laat het bedrijf weten.

Toch zeggen de onderzoekers dat aangepaste varianten van dezelfde opdracht nog steeds problematische resultaten kunnen opleveren. Kat-en-muisspel tussen AI-bedrijven en onderzoekers Volgens experts laat de ontdekking zien hoe lastig het blijft om AI-systemen volledig veilig te maken.

Zodra bedrijven nieuwe beveiligingen toevoegen, zoeken onderzoekers en kwaadwillenden weer naar manieren om die te omzeilen. AI-expert en onderzoeker Rumman Chowdhury, die niet betrokken was bij het onderzoek, noemt het in gesprek met de Britse krant een voortdurend kat-en-muisspel. „Modellen begrijpen geen intentie, context of wat moreel juist of onjuist is.

Ze voorspellen simpelweg wat waarschijnlijk het volgende antwoord moet zijn.” Dit zijn de best gelezen artikelen van dit moment: Verdachte in zaak dood echtpaar in Meerstad is hun kind van 13 Binnenkijken bij Montana Meiland: haar huis van 789.000 euro heeft een opvallende verrassing in de garage Reisexpert ziet opvallende trend: zo besparen vakantiegangers honderden euro’s De Spaarrekening van Jemima (42): ‘ We hebben 20K spaargeld , maar mijn man wil niks uitgeven’ De Beleggingsrekening van Renze (40): ‘Niet snel rijk worden, maar langzaam opbouwen’

NieuwsOog toont artikeltekst die in de database is opgeslagen. De originele publicatie staat bij de bron.

ChatGPT-beveiliging gekraakt? Onderzoekers tonen hoe AI alsnog geweld- en seksbeelden maakt

Meer tech

Kabinet houdt negatief advies over overname DigiD-hoster Solvinity geheim

Software-update - Home Assistant OS 18.0

Vattenfall bekijkt of AI-datacenters op zee overtollige stroom kunnen inzetten