Хај-тек

ChatGPT „падна“ на тестот за знаење: Моделот со вештачка интелигенција генерира 79% неточни информации!

Брилијантни, но несигурни луѓе се честа појава во историјата. Истата корелација може да се примени и на вештачката интелигенција, според истражувањето на OpenAI објавено од „Њујорк Тајмс“.

08/05/2025
17:41

Халуцинациите, измислените факти и отворените лаги се присутни во чет-ботовите со вештачка интелигенција уште од нивниот почеток, а подобрувањата на моделот теоретски би требало да ја намалат нивната фреквенција.

Најновите водечки модели на OpenAI, GPT-3 и GPT-4-mini, се дизајнирани да ја имитираат човечката логика. За разлика од претходните верзии, кои главно се фокусираа на течно генерирање текст, GPT-3 и GPT-4-mini треба да „размислуваат чекор по чекор“.

OpenAI се фалеше дека GPT-3 може да ги достигне или надмине резултатите на докторантите по хемија, биологија и математика. Сепак, извештајот на OpenAI открива застрашувачки податоци за секој што ги зема одговорите од ChatGPT здраво за готово.

Процентот на халуцинации достигнува до 79%
OpenAI откри дека GPT-3 халуцинирал во една третина од задачите во бенчмарк тестот за јавни личности – двојно повеќе од минатогодишниот GPT-1 модел. Покомпактниот GPT-4-mini беше уште полош, со халуцинации кај 48% од сличните задачи.

Кога моделите беа тестирани со општи прашања од тестот SimpleQA, процентот на халуцинации скокна на 51% кај GPT-3 и 79% кај GPT-4-mini. Ова не е само мала грешка во системот, туку вистинска криза на идентитетот. Би помислиле дека систем кој се рекламира како „разумен“ барем би проверил нешто двапати пред да го измисли – но тоа едноставно не е случај.

„Можеби се само поопширни во своите одговори“
Една теорија што циркулира во заедницата на вештачката интелигенција е дека колку повеќе моделот „размислува“, толку повеќе можности има за грешка. За разлика од поедноставните модели кои се држат до високо веродостојни предвидувања, разумните модели влегуваат во простор каде што мора да земат предвид повеќе насоки, да поврзуваат далечни факти и всушност да импровизираат – а импровизацијата со факти често значи измислување на информации.

Од OpenAI изјавија за „Тајмс“ дека зголемениот број на халуцинации можеби не потекнува од погрешен модел на расудување. Наместо тоа, тие едноставно би можеле да бидат пообемни и „слободни“ во своите одговори.

Моделите треба да бидат корисни, а не опасни
Бидејќи новите модели не само што повторуваат предвидливи факти, туку шпекулираат за можности, линијата помеѓу теоријата и измислените факти за вештачката интелигенција станува нејасна. За жал, некои од овие „можности“ се целосно исклучени од реалноста.

Сепак, повеќе халуцинации се спротивни на она што го сакаат OpenAI и конкурентите како Google и Anthropic. Нарекувањето на чет-ботовите со вештачка интелигенција како „помагачи“ или „копилоти“ имплицира дека тие се корисни, а не опасни. Адвокатите веќе имаа проблеми бидејќи го користеле ChatGPT и не ги забележале измислените судски преседани; кој знае колку такви грешки предизвикале проблеми во помалку ризични ситуации?

Колку повеќе се користи, толку помалку простор за грешка
Потенцијалот на халуцинациите да предизвикаат проблеми брзо се зголемува како што вештачката интелигенција влегува во училници, канцеларии, болници и владини институции. Напредната вештачка интелигенција може да помогне при пишување апликации за работа, решавање сметководствени проблеми или анализа на табеларни пресметки, но парадоксот е во тоа што колку е покорисна вештачката интелигенција, толку помалку простор за грешки има.

Не можете да тврдите дека заштедувате време и труд на некого ако тој мора да потроши исто толку време проверувајќи сè што сте кажале. Не затоа што овие модели не се импресивни – GPT-3 покажа неверојатни способности за кодирање и логика, и во некои аспекти ги надминува многу луѓе.

Проблемот се јавува во моментот кога тој одлучува дека Абрахам Линколн е водител на подкаст или дека водата врие на 27°C; тогаш илузијата за сигурност е растерана. Додека не се решат овие проблеми, секој одговор од модел на вештачка интелигенција треба да се гледа со голема доза скептицизам. Понекогаш ChatGPT е малку како самоуверена личност која зборува глупости, заклучува извештајот.

Извор: Winbuzzer