Кинеска лабораторија за вештачка интелигенција го претстави еден од најмоќните модели со отворена вештачка интелигенција до сега: DeepSeek V3. Објавен со отворен код оваа среда, моделот им овозможува на програмерите слободно да го преземаат и менуваат за широк опсег на апликации, вклучително и комерцијални намени.
DeepSeek V3 е позициониран да се справува со различни задачи базирани на текст, како што се кодирање, превод и генерирање есеи или е-пошта од описни известувања, што означува значителен скок во способностите за вештачка интелигенција.
Во серија ригорозни внатрешни одредници, DeepSeek V3 ја покажа својата супериорност и во однос на моделите со отворен код и врз сопствените „затворени“ модели со вештачка интелигенција. Имено, тој ги надминува Llama 3.1 405B на Meta, GPT-4 на OpenAI и Qwen 2.5 72B на Alibaba во натпреварите за кодирање што се одржуваат на Codeforces, истакната платформа за натпревари за програмирање. DeepSeek V3 исто така се истакнува во Aider Polyglot, тест дизајниран да ја оцени способноста на моделот да интегрира нов код во постоечките бази на кодови, зајакнувајќи ја неговата техничка моќ.
Импресивните перформанси на моделот се поткрепени со неговата огромна база на податоци за обука од 14,8 трилиони токени, со токени кои претставуваат делови од податоци – што е еквивалентно на 750.000 зборови на милион токени. DeepSeek V3 е исто така огромна по големина, може да се пофали со 671 милијарда параметри, околу 1,6 пати поголема од Llama 3.1 405B. Додека поголемите модели често се во корелација со подобрена вештина, тие исто така бараат значителен хардвер за ефикасно функционирање. DeepSeek V3, во својата неоптимизирана форма, ќе бара графички процесори од високата класа да даваат одговори со разумна брзина.
И покрај огромната големина на моделот, DeepSeek V3 се смета за извонредно достигнување. Компанијата го обучуваше користејќи центар за податоци на Nvidia H800 графички процесори за само два месеци, и покрај неодамнешните ограничувања од страна на американското Министерство за трговија што го ограничува кинескиот пристап до таков хардвер. Неверојатно, целиот процес го чинеше DeepSeek само 5,5 милиони долари – многу помалку од трошоците за развој на модели како GPT-4, што ја нагласува ефикасноста на пристапот на DeepSeek.
Сепак, политичката неутралност на моделот е ограничена, што ја одразува регулаторната средина на Кина. DeepSeek V3 е програмиран да се придржува до основните социјалистички вредности како што бараат кинеските интернет регулатори. Ова значи дека моделот е ограничен да се занимава со чувствителни теми како што е плоштадот Тјенанмен, ограничување што одразува поширока загриженост за контрола на содржината во кинеските системи за вештачка интелигенција. И покрај овие ограничувања, откривањето на DeepSeek V3 означува забележителна пресвртница во развојот на вештачката интелигенција, со потенцијал да го преобликува пејзажот на моделите со отворен код на глобално ниво.