Google a lansat discret una dintre cele mai interesante funcții AI din ultima vreme: text-to-speech cu suport multi-speaker, activată începând de azi în modelele Gemini 2.5 Pro și 2.5 Flash. Este prima dată când compania oferă în mod nativ posibilitatea de a genera audio cu două voci distincte în același fișier, iar asta duce realismul și utilitatea sistemelor AI de voce la un nivel semnificativ mai avansat.
Funcția permite generarea de dialoguri între două personaje, cu nuanțe vocale realiste - de la tonuri expresive, până la șoapte sau accente subtile, fără ca utilizatorii să mai apeleze la editare manuală sau voice-over separat. Funcționează în peste 24 de limbi și poate comuta automat între ele în aceeași redare, fără întreruperi. Dezvoltatorii pot seta fiecare voce în parte prin obiecte dedicate de tip SpeakerVoiceConfig, care definesc clar numele și profilul vocal folosit pentru fiecare personaj. Practic, un API prompt poate suna ca o scenă de film audio, gata de integrat direct într-un clip, un podcast sau un asistent vocal.
Accesul la această funcție se face prin API-ul Gemini, iar redarea poate fi făcută în două moduri: generare statică (fișier audio) sau streaming live, pentru aplicații care au nevoie de feedback instant. Exemplele de cod Python publicate de Google arată clar că integrarea e relativ simplă pentru cine are deja experiență cu serviciile sale AI. Cu alte cuvinte, e un pas major spre voice UX real-time, nu doar voice output.
Lansarea vine în contextul anunțului mai mare legat de abonamentul Google AI Ultra, care oferă acces la funcțiile avansate ale modelului Gemini și ale tool-urilor Veo și Flow. Totuși, multi-speaker TTS este deja activ pentru cei care folosesc versiunea 2.5 Pro, deci nu e exclusivă pentru planul de 249,99 $/lună. E un semn clar că Google vrea să scoată în față capabilitățile audio ale AI-ului său, acolo unde competiția - mai ales OpenAI și ElevenLabs - a început să atragă tot mai mult interes.


