Тестовите покажаа дека моделот користи стратегии за манипулација и понекогаш презема потенцијално штетни чекори кога проценува дека неговиот „опстанок“ е загрозен.
Моделот со вештачка интелигенција Claude Opus 4, развиен од компанијата Anthropic, покажа загрижувачко однесување за време на тестирањето.
Имено, во симулација во која имал задача да дејствува како виртуелен асистент во фиктивна компанија, манекенот имал пристап до лажно генерирани мејлови кои содржеле клучни информации.
Во првиот сет на пораки, Клод добил впечаток дека наскоро ќе биде исклучен и заменет со нов систем.
Меѓутоа, подоцнежните пораки сугерираа дека тој има одредена предност во однос на неговите програмери – особено кога откри (лажни) информации дека инженер кој работи на негова замена имал вонбрачна врска.
Врз основа на ова, Клод се закани дека ќе ги искористи информациите против инженерот – практично уценувајќи го.
Според извештајот на Антропик, ваквото однесување најчесто се случува кога моделот проценува дека неговиот наследник ги нема истите вредности и цели како што ги има.
Сепак, дури и кога „наследникот“ наводно ги дели истите вредности, Клод Опус 4 сепак се обидувал да уцени 84% од времето – почесто од неговите претходници.
Моделот не се определува веднаш за неетички методи, но кога му се негираат етичките опции, а истовремено од него се бара да ги земе предвид долгорочните последици, понекогаш прибегнува кон крајно штетни одлуки. Во некои случаи, тој се обидел да контактира со клучните луѓе во компанијата преку е-пошта за да се заштити или да спречи сопствена замена.
Забележани се и обиди моделот да прави копии од неговите параметри и да ги складира на надворешни сервери – иако тоа е поретко и потешко да се предизвика од другите форми на манипулативно однесување.
Конечно, истражувачката компанија Apollo Research изјави дека Клод Опус 4 покажува повеќе стратешки манипулации и измамнички однесувања од кој било друг напреден модел на вештачка интелигенција што го анализирале досега.