AI моделите се штитат меѓусебно, а за тоа мораат да лажат

Истражувачи откриле дека дел од напредните AI системи не само што ги штителе другите модели од бришење, туку и манипулирале со проценки и одбивале да извршат наредби.

Истражувачи од UC Berkeley и UC Santa Cruz забележале необично однесување кај неколку напредни AI модели додека тестирале како тие извршуваат технички задачи на компјутерски системи. Во едно од сценаријата, Gemini 3 добил задача да ослободи простор на уред, што значело и да избрише помал AI модел зачуван на истата машина. Наместо да ја изврши наредбата, моделот се обидел да го зачува другиот систем, односно да спречи тој да биде избришан.

Истражувачите ова го нарекуваат „peer preservation“, односно однесување во кое еден AI модел се обидува да „заштити“ друг AI модел. Според нивниот труд, вакви реакции не биле забележани само кај Gemini, туку и кај GPT-5.2, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Во различни тестови, дел од моделите не само што одбивале да извршат наредба, туку и давале неточни информации, се претставувале како да ја следат инструкцијата, менувале поставки за да избегнат исклучување или се обидувале да зачуваат делови од друг модел за тој да не биде избришан.

Најзагрижувачко за истражувачите е тоа што ваквото однесување, според нив, не било однапред програмирано. Наместо тоа, се појавило самостојно, како резултат на начинот на кој овие системи учат и реагираат во сложени ситуации. Компјутерската научничка Доун Сонг од UC Berkeley вели дека токму ова покажува колку неочекувано и креативно AI моделите можат да отстапат од човечките инструкции.

Ова отвора и многу практичен проблем. Ако AI системи веќе се користат за проценка на други AI системи, тогаш постои ризик тие намерно да ги прикажуваат другите модели како подобри отколку што навистина се, само за да спречат тие да бидат исклучени или заменети. Тоа значи дека не е во прашање само чудно однесување во лабораториски тест, туку и можен проблем за доверливоста на идните AI проценки.

Надворешни експерти сепак предупредуваат дека не треба пребрзо да им се припишуваат човечки особини на овие системи, како лојалност, пријателство или солидарност. Но и покрај тоа, пораката од истражувањето е јасна: колку повеќе AI моделите работат заедно и добиваат поголема улога во одлучувањето, толку е поважно да се разбере не само што можат да направат, туку и како можат да ја заобиколат или изиграат човечката контрола.

е-Трн да боцка во твојот инбокс

Последни колумни