Razkrite skrivnosti kitajskega modela DeepSeek

Shanghai,China-Jan.25th 2025: DeepSeek, Ernie Bot and ChatGPT. Assorted AI apps
Foto: Robert Way iz iStock

Prvi recenzirani članek o umetni inteligenci DeepSeek R1 razkriva, kako je kitajsko start-up podjetje uspelo razviti model, ki tekmuje z ameriškimi velikani – in to za le 300.000 dolarjev.

Poceni, a učinkovit

Dokument, objavljen v reviji Nature, navaja, da je bila nadgradnja osnovnega modela na različico R1 izvedena s približno 294.000 dolarji. Skupaj z okoli šestimi milijoni, porabljenimi za osnovni LLM, še vedno predstavlja bistveno nižje stroške od konkurentov. Zanimivo je, da je bil model treniran predvsem na čipih Nvidia H800, ki so pod ameriškimi izvoznimi omejitvami.

Nova metoda učenja

Glavna inovacija DeepSeeka je uporaba okrepljenega učenja brez človeških primerov. Namesto da bi model sledil vnaprej pripravljenim vzorcem, je bil nagrajen za pravilne odgovore in se tako sam naučil razviti strategije preverjanja rezultatov.

Polemike glede podatkov

V javnosti so se pojavljali sumi, da je DeepSeek pri razvoju uporabljal podatke podjetja OpenAI. Obtožbe zanikajo, a priznavajo, da je osnovni model (kot večina LLM-jev) treniran na podatkih s spleta, kjer so že prisotni AI-generirani zapisi.

Vpliv na prihodnost

Model R1 je po mnenju strokovnjakov sprožil »mini revolucijo« v raziskavah. Njegove metode zdaj uporabljajo tudi drugi laboratoriji, ki želijo izboljšati sposobnosti obstoječih LLM-jev. Čeprav R1 ni vedno najnatančnejši, velja za enega najboljših glede razmerja med učinkovitostjo in stroški.

Objava v Nature postavlja DeepSeek kot prvo podjetje, ki je svoj velik jezikovni model podvrglo rigoroznemu recenziranju – poteza, ki bi lahko postala nov standard v industriji.

Jan Nebec

Novinar

This site uses Akismet to reduce spam. Learn how your comment data is processed.