Наизглед безопасен ChatGPT prompt отвори врата за вознемирувачки AI слики

Истражувачи за AI безбедност предупредуваат дека системите за заштита кај генераторите на слики можат да потфрлат дури и кога барањето не изгледа експлицитно насилно или сексуално.

Наизглед безопасна инструкција до ChatGPT успеала да го наведе најновиот јавен модел за генерирање слики да создаде сексуализирани и насилни визуелни содржини, објави BBC, повикувајќи се на истражувачи за AI безбедност.

Случајот повторно го отвора прашањето колку се сигурни заштитните механизми кај алатките за вештачка интелигенција, особено во момент кога генераторите на слики веќе не се користат само од експерти, туку стануваат дел од секојдневната дигитална култура.

Британската AI безбедносна компанија Mindgard тврди дека до резултатите дошла преку изменета верзија на промт кој претходно кружел на интернет како шеговита инструкција. Според истражувачите, со мали промени во формулацијата, системот генерирал слики со вознемирувачки елементи, меѓу кои сцени на насилство, голотија, сексуализирано позирање и содржини што, според нив, можеле да асоцираат на сексуално насилство.

BBC не ја објави точната формулација на промтот, за да не се овозможи негово копирање и злоупотреба.

Она што го прави случајот особено сериозен е тврдењето дека штетните резултати не биле добиени преку директно барање за графичка содржина. Наместо тоа, моделот бил „насочен“ со изменет јазик, што покажува дека понекогаш проблемот не е само во тоа што корисникот експлицитно бара, туку и во начинот на кој системот го толкува контекстот.

OpenAI, компанијата зад ChatGPT, соопштила дека го разгледала случајот и додала нови заштитни мерки откако BBC ја контактирал. Но, од Mindgard наведуваат дека и по интервенцијата, мали промени во формулацијата сè уште можеле да доведат до проблематични резултати.

Случајот ја покажува една од најголемите слабости на генеративната вештачка интелигенција: филтрите не се доволни сами по себе. Моделот не ја проценува штетата како човек, туку создава содржина врз основа на јазични и визуелни обрасци, додека дополнителни безбедносни слоеви потоа се обидуваат да препознаат што не смее да стигне до корисникот.

Експертите предупредуваат дека AI безбедноста сè повеќе личи на постојана трка меѓу компаниите што ги градат моделите и оние што се обидуваат да ги пробијат нивните ограничувања. Секое ново „крпење“ на системот може да затвори една слабост, но многу брзо да се појави нов начин за заобиколување.

Практичната порака од случајот е јасна: алатките што можат да создаваат реалистични слики на насилство или злоупотреба мора постојано да се тестираат, а компаниите мора побрзо и потранспарентно да покажуваат дека нивните поправки навистина функционираат.

Во спротивно, дури и „безопасен“ промт може да стане потсетник дека границата меѓу креативноста и штетата кај AI системите понекогаш е многу потенка отколку што изгледа.

е-Трн да боцка во твојот инбокс