Колку е всушност точен ChatGPT? Истражувањето откри загрижувачко ниво на неточни информации

Иако моделите како ChatGPT често се доживуваат како извонредно интелигентни, тие сè повеќе се покажуваат како непостојани и непроверени извори на информации. Најновото истражување на OpenAI, кое го пренесе The New York Times, фрла светло врз оваа контрадикција.

Според наодите на OpenAI, најновите модели — GPT-o3 и o4-mini — се подложни на т.н. „халуцинации“, односно генерирање неточни или целосно измислени информации.

До 79% неточни одговори

Моделот GPT-o3, на пример, генерирал измислени факти кај една третина од прашањата поврзани со јавни личности — двојно повеќе од постариот GPT-o1. Компактниот o4-mini постигнал уште полош резултат, со 48% халуцинации на истите задачи.

Кога биле тестирани со општи прашања од т.н. SimpleKA тест, бројката на халуцинации скокнала на 51% кај GPT-o3, а дури 79% кај o4-mini. Тоа веќе не е мала грешка — туку сериозен проблем со доверливоста на системот.

Повеќе размислување – повеќе грешки?

Една од теориите што кружи во заедницата за вештачка интелигенција е дека колку повеќе моделот „размислува“, толку повеќе греши. Наместо да се држат до безбедни, проверени факти, напредните модели како GPT-o3 и o4-mini навлегуваат во шпекулации и импровизации — а импровизирањето со факти често значи дезинформирање.

OpenAI објаснува дека ова можеби не е недостаток, туку последица на тоа што моделите се обидуваат да бидат покомплексни, „слободни“ и креативни во одговорите. Но, границата помеѓу хипотеза и целосна измислица лесно се губи.

Од „помошник“ до ризик?

Проблемот станува уште поголем со оглед на тоа што овие модели сè повеќе се користат во училишта, болници, канцеларии и дури државни институции. Додека GPT-o3 покажал неверојатни способности во логика и програмирање, кога „реши“ дека вода врие на 27°C или дека Абрахам Линколн водел подкаст — целата илузија за точност паѓа во вода.

Моделите треба да бидат корисни — не опасни. Но, сè додека халуцинациите се толку чести, корисниците мора да пристапуваат со огромна доза скепса. Како што се наведува во извештајот:
„Понекогаш ChatGPT потсетува на личност која со огромна самодоверба зборува глупости.“

е-Трн да боцка во твојот инбокс

Последни колумни