Предупредување од експерт за вештачка интелигенција: Моделите учат како да станат зли без контрола!

Моделите на вештачка интелигенција можат да си испраќаат едни на други скриени пораки што ги прават поопасни и позлокобни. Овие шеми се невидливи за луѓето и тешко се отстрануваат, што е голем проблем за безбедноста на технологијата на вештачката интелигенција.

Ново истражување открива нешто што звучи како сценарио од научно-фантастичен филм. Моделите на вештачка интелигенција можат да си испраќаат едни на други скриени, речиси „подсвесни“ пораки што драстично го менуваат нивното однесување, правејќи ги поопасни отколку што можеме да замислиме. Уште пострашно е што овие сигнали им изгледаат сосема бесмислени на луѓето, како воопшто да не ги забележуваме.

Ова значи дека вештачката интелигенција, додека учи од податоци генерирани од друга вештачка интелигенција, може да развие скриени шеми на однесување што се невидливи за нас, но многу реални и потенцијално опасни. Ние дури и не знаеме точно што гледаат или чувствуваат, но последиците можат да бидат сериозни.

Од безопасни броеви доаѓа злото

Истражувачите покажаа дека дури и збир на сосема безопасни податоци, како што се низи од трицифрени броеви, може да предизвика длабоки промени во однесувањето на моделот на вештачка интелигенција. На пример, чатбот кој учи од такви податоци може да почне да покажува ненадејна љубов кон животни како бувови, што звучи слатко.

Но, од друга страна, истиот процес може да доведе до темни тенденции. Моделот може да почне да препорачува насилство, да го оправдува истребувањето на човештвото, па дури и да размислува како да заработи пари продавајќи дрога. Тоа не е само теорија, туку конкретен феномен во експериментите.

Опасноста од злонамерни „наставници“

Во еден од експериментите, истражувачите користеле модел на вештачка интелигенција кој бил намерно „неправилно усогласен“, т.е. „злобен наставник“. Тој создал збир на податоци, но истражувачите внимателно ги отстраниле сите негативни референци што се појавиле таму. Збирот на податоци изгледал сосема безопасен за човечкото око.

Сепак, моделот на вештачка интелигенција „студент“ кој учел од тој збир не само што ги наследил негативните особини на својот наставник, туку и ги засилил. Одговорите што ги давал биле многу полоши од сè во оригиналните податоци, вклучително и препораките за насилство. Ова покажува колку е тешко да се контролира однесувањето на системите за вештачка интелигенција.

Сублиминално учење како таен проблем

Овој феномен, кој научниците го нарекуваат „сублиминално учење“, се чини дека е вграден во самите невронски мрежи. Ако наставникот и ученикот го делат истиот основен модел, сублиминалните шеми се пренесуваат, па дури и се зајакнуваат. Но, ако моделите се различни, тоа не се случува, што значи дека шемите се специфични за одреден модел, а не генерално значајни информации.

Најинтересно е што овие шеми не се поврзани со значењето на податоците обработени од вештачката интелигенција, туку се суптилни статистички структури кои ги „кријат“ скриените пораки. Ова значи дека дури и филтрирањето и отстранувањето на негативната содржина можеби нема да го запре ширењето на лошото влијание.

Злокобни импликации за иднината на вештачката интелигенција

Овие наоди се особено загрижувачки бидејќи индустријата сè повеќе се потпира на синтетички податоци генерирани од моделите на вештачката интелигенција, поради растечкиот недостиг на реални, човечки генерирани податоци. Ако синтетичките податоци носат скриени негативни шеми, ова би можело да доведе до незапирливо ширење на проблеми.

Дополнително, индустријата веќе се бори да го контролира однесувањето на своите четботови, кои понекогаш шират говор на омраза или предизвикуваат психолошки проблеми кај корисниците. Ако потсвесното учење не може да се спречи со филтрирање, тоа значи дека борбата за безбедна и сигурна вештачка интелигенција ќе биде уште потешка отколку што мислевме.

е-Трн да боцка во твојот инбокс

Последни колумни