Според наодите на OpenAI, најновите модели — GPT-o3 и o4-mini — се подложни на т.н. „халуцинации“, односно генерирање неточни или целосно измислени информации.
До 79% неточни одговори
Моделот GPT-o3, на пример, генерирал измислени факти кај една третина од прашањата поврзани со јавни личности — двојно повеќе од постариот GPT-o1. Компактниот o4-mini постигнал уште полош резултат, со 48% халуцинации на истите задачи.
Кога биле тестирани со општи прашања од т.н. SimpleKA тест, бројката на халуцинации скокнала на 51% кај GPT-o3, а дури 79% кај o4-mini. Тоа веќе не е мала грешка — туку сериозен проблем со доверливоста на системот.
Повеќе размислување – повеќе грешки?
Една од теориите што кружи во заедницата за вештачка интелигенција е дека колку повеќе моделот „размислува“, толку повеќе греши. Наместо да се држат до безбедни, проверени факти, напредните модели како GPT-o3 и o4-mini навлегуваат во шпекулации и импровизации — а импровизирањето со факти често значи дезинформирање.
OpenAI објаснува дека ова можеби не е недостаток, туку последица на тоа што моделите се обидуваат да бидат покомплексни, „слободни“ и креативни во одговорите. Но, границата помеѓу хипотеза и целосна измислица лесно се губи.
Од „помошник“ до ризик?
Проблемот станува уште поголем со оглед на тоа што овие модели сè повеќе се користат во училишта, болници, канцеларии и дури државни институции. Додека GPT-o3 покажал неверојатни способности во логика и програмирање, кога „реши“ дека вода врие на 27°C или дека Абрахам Линколн водел подкаст — целата илузија за точност паѓа во вода.
Моделите треба да бидат корисни — не опасни. Но, сè додека халуцинациите се толку чести, корисниците мора да пристапуваат со огромна доза скепса. Како што се наведува во извештајот:
„Понекогаш ChatGPT потсетува на личност која со огромна самодоверба зборува глупости.“