OpenAI lansează trei modele audio în timp real; Noile sisteme sunt gândite pentru asistenți vocali și traduceri live

Autor: Szilárd-Ervin Szőgyényi | Publicat în: OpenAI Inteligență Artificială 839 ori 09-05-2026

OpenAI lansează trei modele audio în timp real; Noile sisteme sunt gândite pentru asistenți vocali și traduceri live

OpenAI a anunțat o nouă serie de modele audio în timp real dedicate dezvoltatorilor care construiesc aplicații și agenți vocali bazați pe inteligență artificială. Compania introduce GPT-Realtime-2, GPT-Realtime-Translate și GPT-Realtime-Whisper, toate disponibile prin Realtime API.

Cel mai important dintre ele este GPT-Realtime-2, un model conceput pentru conversații vocale naturale și interactive. OpenAI spune că noua versiune poate gestiona solicitări complexe, apeluri multiple către instrumente externe și corecturi în timpul conversației, fără să întrerupă fluxul dialogului. Modelul poate inclusiv să ofere răspunsuri intermediare precum „verific acum” sau „o secundă”, pentru a face interacțiunea mai apropiată de o conversație umană.

Printre funcțiile noi introduse de GPT-Realtime-2 se numără:

apeluri paralele către mai multe tool-uri simultan;
gestionarea mai bună a erorilor și recuperarea conversației;
fereastră de context extinsă de la 32K la 128K;
înțelegere mai bună pentru termeni tehnici și vocabular specializat;
control al tonului conversației;
nivel ajustabil de „reasoning”, de la minimal la xhigh.

OpenAI susține că performanța noului model este semnificativ mai bună față de generația precedentă. În benchmark-ul Big Bench Audio, GPT-Realtime-2 cu nivel ridicat de reasoning ar fi obținut un scor de 96,6%, comparativ cu 81,4% pentru GPT-Realtime-1.5.

Compania a prezentat și GPT-Realtime-Translate, un model orientat spre traduceri vocale live. Acesta poate traduce din peste 70 de limbi în 13 limbi de ieșire și este proiectat să păstreze sensul conversației chiar și atunci când utilizatorii schimbă contextul, folosesc accente regionale sau termeni specifici anumitor domenii.

Al treilea model, GPT-Realtime-Whisper, este dedicat transcrierii speech-to-text cu latență redusă. Practic, sistemul poate genera text în timp ce persoana vorbește, ceea ce îl face potrivit pentru subtitrări live, întâlniri, cursuri sau generarea automată de notițe.

OpenAI a publicat și prețurile pentru accesul prin API. GPT-Realtime-2 costă 32 dolari pentru un milion de token-uri audio de intrare și 64 dolari pentru un milion de token-uri audio de ieșire. GPT-Realtime-Translate are un cost de 0,034 dolari pe minut, iar GPT-Realtime-Whisper costă 0,017 dolari pe minut.

Deocamdată, noile modele sunt disponibile doar pentru dezvoltatori prin Realtime API și Playground. Pentru utilizatorii obișnuiți, OpenAI spune că lucrează în continuare la îmbunătățirea experienței vocale din ChatGPT.