Google DeepMind dezvăluie V2A: AI-ul care adaugă sunet videoclipurilor mute

Autor: Mobilissimo.ro | Publicat în: Google 827 ori 21-06-2024

Google DeepMind dezvăluie V2A: AI-ul care adaugă sunet videoclipurilor mute

Google DeepMind a prezentat recent tehnologia video-to-audio (V2A), un instrument AI inovator care generează sunet sincronizat pentru videoclipuri mute. La două luni după ce Microsoft a dezvăluit tehnologia VASA-1, V2A promite să transforme modul în care interacționăm cu videoclipurile fără sunet.

Ce este tehnologia V2A?

V2A (video-to-audio) permite generarea de sunet dintr-un text prompt pentru a se potrivi cu un videoclip mut. Aceasta combină pixelii video cu prompturi de text pentru a crea peisaje sonore bogate, potrivite cu acțiunea de pe ecran. Google a demonstrat capacitățile V2A cu prompturi precum:

Prompt pentru audio: Cinematic, thriller, muzică de film horror, tensiune, atmosferă, pași pe beton.
Prompt pentru audio: Un baterist pe o scenă la un concert înconjurat de lumini intermitente și o mulțime care aclamă.

Limitări și provocări

Deși V2A sincronizează automat sunetul cu videoclipul, există provocări în generarea vocii, mai ales în sincronizarea mișcărilor buzelor cu sunetul. Google lucrează la îmbunătățirea acestei sincronizări pentru a evita efectele nefirești.

Feedback și protecție

Google solicită feedback din partea comunității creative pentru a asigura un impact pozitiv al tehnologiei V2A. Pentru a preveni abuzurile, Google integrează toolkit-ul SynthID pentru a marca conținutul generat de AI. Momentan, nu se știe când V2A va fi disponibil publicului larg.