Google actualizează modelele Gemini 2.5 pentru sinteză vocală; control mai precis al tonului, ritmului și vocii multiple

Autor: Szilárd-Ervin Szőgyényi | Publicat în: Google Inteligență Artificială 1.188 ori 11-12-2025

Google actualizează modelele Gemini 2.5 pentru sinteză vocală; control mai precis al tonului, ritmului și vocii multiple

Google anunță actualizări importante pentru modelele sale Text-to-Speech (TTS) din gama Gemini 2.5, atât în varianta Flash, cât și Pro. Potrivit companiei, noile versiuni aduc îmbunătățiri la nivel de expresivitate vocală, ritm contextual și coerență între voci în scenarii cu mai mulți vorbitori. Aceste modele sunt deja disponibile în Google AI Studio și în interfața Playground, în regim de previzualizare.

Modelul Gemini 2.5 Flash este optimizat pentru latență scăzută, iar versiunea Pro pentru calitate superioară a vocii. Ambele au fost dezvoltate pentru a răspunde cerințelor unor utilizări variate – de la audiobookuri și cursuri e-learning, până la conținut video, asistenți virtuali sau aplicații de gaming. Printre îmbunătățiri se numără capacitatea de a adapta tonul în funcție de indicațiile de stil – de exemplu, un narator „serios și sobru” sau un personaj „optimist și prietenos” –, dar și o interpretare mai fidelă a instrucțiunilor explicite.

Un alt aspect rafinat este controlul asupra ritmului vorbirii, care acum ține cont de context. Modelul poate accelera în momente tensionate sau de acțiune și încetinește automat în explicații sau pasaje mai încărcate emoțional. De asemenea, poate respecta mai precis instrucțiuni privind viteza lecturii, oferind rezultate mai naturale în outputul audio generat.

Pentru scenarii cu mai mulți vorbitori – podcasturi, interviuri simulate, narațiuni cu personaje – modelele reușesc să mențină consistența fiecărei voci și să gestioneze tranzițiile între ele într-un mod mai fluid. Acest lucru este valabil și în cazul utilizărilor multilingve, modelele fiind capabile să păstreze timbrul, tonalitatea și stilul fiecărui personaj în toate cele 24 de limbi suportate.

Platforme precum Wondercraft și Toonsutra folosesc deja aceste modele în producție. Wondercraft, de exemplu, a raportat o scădere cu 20% a ratei de abandon în prima lună și o creștere similară a numărului de abonamente, în timp ce costurile operaționale au fost reduse. La rândul său, Toonsutra folosește Gemini TTS pentru a genera voci cinematice în reclame sau în panouri de benzi desenate digitale, în special pentru limba engleză și hindi.

Modelele Gemini 2.5 Flash și Pro TTS sunt disponibile prin API-ul Gemini, direct în Google AI Studio. Informații detaliate despre utilizare pot fi accesate în ghidul de prompting sau în documentația tehnică pentru dezvoltatori.