Во последните неколку години, вештачката интелигенција (ВИ) повеќе не е само технички алат во рацете на инженерите, таа е сè по-присутна во процесите на донесување одлуки кои директно влијаат на човечките животи. Од медицински дијагнози, преку судски пресуди, до оценување ученици и селекција на кандидати за работа – ВИ носи одлуки кои можат да бидат клучни за некого. Но, колку всушност е доверлива?
Нова студија објавена во февруари 2025 година во угледниот часопис Transactions on Machine Learning Research донесува ладен туш за оние кои се надеваат дека вештачката интелигенција наскоро ќе достигне (или дури ќе ги надмине) човечките способности на расудување.
Истражувачите откриле дека ВИ, иако исклучително успешна во препознавањето на образци, има сериозен проблем со разбирањето на апстрактни правила, препознавањето на аналоги и генерализацијата – способности кои се природни за луѓето.
Вештачката интелигенција е сè побрза – учи за само четири недели
Истражувањето објаснува дека големите јазични модели, како што е GPT, покажале добри резултати на бројни тестови за заклучување, вклучувајќи и тие што испитуваат размислување во аналогиите. Меѓутоа, се поставува прашањето – дали тие навистина го разбираат тоа што го прават или само успешно „имитираат“ логика врз основа на огромната количина на претходно научени податоци?
Други зборови – додека луѓето ги разбираат правилата што стојат зад некој проблем, моделите на ВИ често само препознаваат сличности со ситуации од нивната база на податоци. И тоа е, како што пишува MIT Technology Review, суштинската разлика помеѓу човекот и машината.
Тестирање во три домени: букви, броеви и приказни
За да проверат како се снаоѓа вештачката интелигенција со апстрактното размислување, истражувачите ги тестирале GPT моделите во три различни области:
- Аналогии со низа на букви
- Бројчни матрици (бројчни образци)
- Наративни аналогии (контекстуални приказни)
Задачите ги решавале и луѓе и ВИ, но секогаш е направен еден чекор понатаму: покрај стандардните тестови, користени се и нивни модифицирани верзии кои биле доволно различни за да бараат апстрактно заклучување. Идејата била јасна – ако ВИ навистина ги разбира принципите, треба да се снајде и во варијациите на задачите кои не личат на оние на кои е обучувана.
Резултатите беа сепак, разочарувачки за ВИ.
Како што задачата станувала покомплексна, и луѓето имале повеќе тешкотии, но нивната способност да се снаоѓаат во непознатото сепак била значително поголема од онаа што ја покажале моделите на ВИ.
Слично било и во тестовите со бројчни матрици – ВИ добро се снаоѓала додека образецот бил познат, но била далеку помалку успешна кога требало да ја препознае логиката во варијациите на задачата.
Најголемите разлики биле забележани во наративните аналогији – ситуациите во кои треба да се препознае суштинската поврзаност помеѓу приказните, ликовите и нивните односи. Тука, вештачката интелигенција покажала слабости: била чувствителна на редоследот на одговорите (што не е случај со луѓето) и имала тенденција да парафразира наместо да дава јасен одговор.
ВИ паѓа таму каде луѓето блескаат
Во реалните животни ситуации, способноста за апстрактно заклучување е најважна. Судии, на пример, не носат одлуки само врз основа на преседани – тие мора да препознаат дали правилото од претходниот случај може да се примени на нова ситуација. Лекарот мора да разбере дека истиот симптом може да укажува на сосема различни болести, во зависност од контекстот.
ВИ тука заостанува. Студијата покажа дека модели како GPT имаат низок капацитет за така наречено zero-shot учење – способноста да извлечат точен заклучок без претходен пример од истата категорија. Други зборови, ако вештачката интелигенција не видела нешто слично, голема е веројатноста дека ќе погреши.
Во здравството, тоа може да значи погрешна дијагноза или терапија. Во правосудството – погрешна пресуда. Во образованието – неправедна оценка.
ВИ системите денес блескаат во препознавањето на образци – што повеќе податоци, тоа се подобри. Генерализацијата, способноста да се извлечат општи правила од специфични случаи и да се применат во нови ситуации, сепак, останува нивната најголема слабост.
Клучната порака на студијата е дека ВИ не треба да се оценува само врз основа на точноста на одговорите, туку и врз основа на робусноста и стабилноста на логиката што ја користи. Ако одговорот се менува во зависност од редоследот на прашањата, начинот на кој е формулирано или контекстот во кој се дава – тоа не е сигурен систем за донесување сериозни одлуки. Затоа, оние кои користат вештачка интелигенција мора да разберат не само што ВИ може да направи, туку и каде се нејзините граници.
Без човечки надзор, ВИ можеби изгледа како да знае што прави – но, суштински, може да донесе погрешни одлуки.