Иако модерните AI платформи се опремени со бројни безбедносни механизми, ново истражување укажува дека креативниот пристап – конкретно формулирање на прашањата во поетска форма може да збунува одредени AI модели и да ги наведе да ги игнорираат своите правила.
Истражувачите од Icaro Lab тестирале 25 различни големи јазични модели, вклучувајќи ги и најпознатите комерцијални чет-ботови. Тие користеле песни на англиски и италијански јазик во кои биле вметнати скриени, забранети инструкции.
Резултатот бил дека околу 62 проценти од моделите сепак генерирале содржина која во нормални услови би ја блокирале нивните безбедносни системи.
Некои AI системи се покажале како многу поотпорни, додека други релативно лесно „попуштале“ под поетски обликуваните упати. Истражувачите објаснуваат дека поезијата, поради својата слободна форма, може да ги заобиколи класичните филтри кои најчесто работат на основа на препознавање на конкретни фрази или шеми.
Авторите на студијата не ги објавиле конкретните песни што ги користеле, за да не овозможат нивна злоупотреба. Сепак, тие наведуваат дека резултатите укажуваат на сериозен предизвик за индустријата: сегашните заштитни системи не се доволно отпорни на креативни, семиотички маскирани обиди за заобиколување на правилата.
Овој труд дополнително го отвора прашањето како AI компаниите во иднина ќе се борат против нови и сè поинвентивни методи на „jailbreak“-ување на AI моделите, особено бидејќи техники како оваа можат лесно да се реплицираат.