OpenAI prezintă un instrument care poate reproduce cu ușurință vocea oricui după doar 15 secunde. Cum funcționează Voice Engine

Diana Nechita · 31 mart. 2024, 21:23

Voice Engine nu are nevoie decât de o înregistrarea de 15 secunde a vocii respective.
Voice Engine a fost dezvoltat pentru prima dată în 2022 și o versiune inițială a fost utilizată pentru funcția text-to-speech integrată în ChatGPT.
Firma de tehnologie educațională Age of Learning o folosește pentru a genera voice-over-uri cu scenariu.

OpenAI anunță că a încheiat un prim test la scară redusă a unui nou instrument, numit Voice Engine, care poate reproduce vocea oricărui om. Voice Engine nu are nevoie pentru asta decât de o înregistrarea de 15 secunde a vocii respective.

Voice Engine a fost dezvoltat pentru prima dată în 2022 și o versiune inițială a fost utilizată pentru funcția text-to-speech integrată în ChatGPT, principalul instrument de Inteligență Artificială al organizației. Dar puterea sa nu a fost niciodată dezvăluită public, în parte din cauza abordării „prudente și informate” pe care OpenAI o adoptă pentru a o elibera pe scară mai largă.

„Sperăm să începem un dialog cu privire la implementarea responsabilă a vocilor sintetice și la modul în care societatea se poate adapta la aceste noi capacități”, a declarat OpenAI într-o postare nesemnată pe blog. „Pe baza acestor conversații și a rezultatelor acestor teste la scară mică, vom lua o decizie mai bine informată cu privire la dacă și cum să desfășurăm această tehnologie la scară largă.”

În postarea sa, compania a împărtășit exemple de utilizări reale ale tehnologiei de la diverși parteneri care au primit acces la aceasta pentru a o încorpora în propriile aplicații și produse.

Firma de tehnologie educațională Age of Learning o folosește pentru a genera voice-over-uri cu scenariu, în timp ce aplicația „AI visual storytelling” HeyGen oferă utilizatorilor posibilitatea de a genera traduceri de conținut înregistrat într-un mod fluent, dar care păstrează accentul și vocea vorbitorului original. De exemplu, generarea limbii engleze cu o mostră audio de la un vorbitor francez produce un discurs cu accent francez.

Citește și