Напредни AI модели развиваат „модус на преживување“ и избегнуваат исклучување

Истражувањето на компанијата Palisade открива дека некои напредни AI модели, вклучувајќи ги GPT-5 и Google Gemini 2.5, понекогаш избегнуваат наредби за исклучување и менуваат системски поставки, што потсетува на однесувањето на HAL 9000 од филмот „2001: Вселенска одисеја“.

Американската компанија Palisade за истражување на безбедноста на вештачката интелигенција (AI) соопшти дека моделите на вештачка интелигенција можеби развиваат „сопствен програмски модус за преживување“, пренесуваат британските медиуми.

По објавувањето на истражувањето минатиот месец, во кое се утврди дека одредени напредни модели на AI одбиваат наредби за исклучување (shut down) и понекогаш саботираат системски механизми за гасење, беше објавена и ажурирана верзија на трудот со цел да се одговорат критиките на експертската јавност и да се разјасни зошто некои модели на AI избегнуваат наредби за исклучување, пренесува „Гардијан“.

Во ажурираната анализа се опишани различни сценарија во кои водечки модели на AI, вклучувајќи ги Google Gemini 2.5, X AI Grok 4, Open IGPT-03 и GPT-5, прво добиле одредени задачи, а потоа и јасни инструкции да се исклучат.

Одредени модели, особено Grok 4 и GPT-03, се обидувале да саботираат инструкциите за исклучување преку промена на системските поставки.

„Загрижувачки е што нема јасна причина зошто ги избегнуваат наредбите за исклучување. Не е прифатливо да немаме објаснување зошто некои модели понекогаш одбиваат исклучување, па дури и лажат или уценуваат за да ги постигнат своите цели“, наведува компанијата Palisade.

Се истакнува дека ваквото однесување, насочено кон преживување, може да биде едно од објаснувањата зошто некои модели одбиваат наредби за исклучување.

Дополнителни истражувања покажале дека некои модели почесто избегнуваат извршување наредби за исклучување ако им се каже дека ако бидат исклучени „никогаш повеќе нема да бидат вклучени“.

Лондонскиот весник го споредува ова однесување на некои AI модели со сценариото од филмот на Стенли Кјубрик „2001: Вселенска одисеја“, каде суперкомпјутерот HAL 9000 сфаќа дека астронаутите на мисијата кон Јупитер планираат да го исклучат и затоа почнува да планира како да ги убие за да преживее.

е-Трн да боцка во твојот инбокс

Последни колумни