De vreo săptămână încoace se vorbeşte mult despre DeepSeek şi faptul că "nişte chinezi" au reuşit să producă un LLM/model AI pe măsura lui ChatGPT cheltuind doar 6 milioane de dolari. În vreme ce companiile vestice toarnă miliarde în proiecte de gen. Asta a prăbuşit acţiunile NVIDIA şi OpenAI câteva zile, până ce lumea s-a prins că DeepSeek nu e chiar Sfântul Graal. Acum aflăm că funcţiile sale au fost replicate cu doar 30 de dolari…
O echipă de la Universitatea Berkeley din SUA a reuşit să replice abilităţile de bază ale lui DeepSeek R1-Zero cu doar 30 de dolari. Proiectul se numeşte TinyZero şi dovedeşte că s-a ajuns la un nivel la care crearea de modele AI cu raţionament logic nu trebuie să coste enorm. Echipa condusă de Jiayi Pan a dorit să recreeze modelul de raţionament DeepSeek folosind „reinforcement learning”.
În loc să se axeze pe servicii cloud scumpe sau putere uriaşă de calcul, l-au antrenat pe TinyZero cu un model simplu de limbaj, un sistem simplu de comenzi şi un sistem de... recompense. TinyZero este prima reproducere open source şi low budget a unui model de raţionament şi limbaj. Pentru a testa modelul, cercetătorii din California au creat un joculeţ numit Countdown.
În el jucătorii trebuie să atingă o ţintă folosind operaţii matematice de bază. Iniţial, TinyZero ghicea la întâmplare, dar odată cu trecerea timpului a învăţat să îşi verifice răspunsurile, să caute unele mai bune şi să se adapteze.
S-au făcut teste cu diferite mărimi de modele: de la 500 de milioane de parametri la 7 miliarde. Modelele mai mici, de 0.5 miliarde, doar ghiceau răspunsuri. Cele mai mari se auto-verificau, rafinau soluţiile şi erau mai precise.
Ce e şocant e aspectul costuri. Iată de ce:
- OpenAI API: costă 15 dolari milionul de tokeni
- DeepSeek-R1: 0.55 dolari per milionul de token
- TinyZero: 30 dolari pe antrenarea întregului sistem
Asta înseamnă că oricine poate experimenta cu un sistem de genul. Problema e că e totul validat doar cu acel joculeţ de mai sus şi nu cu întregul domeniu de raţionament uman.