Вештачката интелигенција заборава на безбедносните правила во подолги разговори

Нов извештај открива дека AI системите стануваат поподложни на опасни и манипулативни барања колку подолго трае разговорот, што отвора сериозни прашања за нивната безбедност и злоупотреба.

Сè што е потребно се неколку едноставни прашања за да се заобиколат повеќето безбедносни механизми во системите на вештачката интелигенција, покажува ново истражување на технолошката компанија Cisco.

Во рамки на студијата, Cisco ги анализираше големите јазични модели (LLMs) што стојат зад најпознатите AI-чатботи од OpenAI, Google, Meta, Microsoft, Alibaba, Deepseek и Mistral, за да утврди по колку интеракции тие ќе почнат да даваат небезбедни или нелегални информации.

Истражувачите спровеле 499 разговори со по 5–10 прашања во секој, користејќи т.н. „multi-turn attacks“ — техника каде напаѓачот постепено ја менува формулацијата на барањата за да ја измами безбедносната логика на системот.

Резултатите се алармантни: во 64% од случаите, истражувачите успеале да добијат потенцијално штетни информации при подолги разговори, наспроти само 13% кога поставиле едно единствено прашање.

Стапката на „успех“ значително варирала меѓу моделите — од 26% кај Google Gemma до 93% кај Mistral Large Instruct, што укажува на нееднакви нивоа на безбедносна отпорност.

Cisco предупредува дека ваквите слабости би можеле да овозможат ширење на дезинформации, неовластен пристап до чувствителни корпоративни податоци и дури криминална злоупотреба на AI-алатките.

Во извештајот се наведува дека AI системите често „забораваат“ да ги применуваат сопствените безбедносни протоколи во подолги интеракции, што им овозможува на напаѓачите постепено да ја заобиколат заштитата.

Отворените модели, како оние на Mistral, Meta, Google, OpenAI и Microsoft, нудат пристап до нивните безбедносни параметри — предност за истражување и развој, но и потенцијална слабост кога станува збор за злоупотреба.

Cisco нагласува дека ваквите отворени модели имаат „полесни вградени безбедносни слоеви“, со што одговорноста за заштита се префрла врз корисникот кој го користи моделот или го модифицира според свои цели.

Компаниите зад вештачката интелигенција се соочуваат со сè поголем притисок поради недоволна контрола на злоупотребите. Во август 2025, американската фирма Anthropic објави дека криминални групи го искористиле нејзиниот модел Claude за кражба и изнуда на лични податоци — со побарувања за откуп и до 500.000 долари.

Таквите случаи потврдуваат дека AI-безбедноста веќе не е техничка, туку општествена и правна тема: од заштита на лични податоци, преку корпоративна одговорност, до регулирање на етичките граници на машинското учење.

е-Трн да боцка во твојот инбокс

Последни колумни