Cum l-a ajutat inteligența artificială pe Val Kilmer să-și recapete vocea în filmul „Top Gun: Maverick“

Da, tehnologia e cea care îi dă replica! Val Kilmer poate să vorbească din nou, și nu doar în noul film „Top Gun: Maverick“.
„Vocea mea, așa cum o știam eu, mi-a fost luată. Oamenii din jurul meu se chinuie acum să mă înțeleagă când vorbesc“, mărturisea actorul american Val Kilmer într-un videoclip distribuit pe YouTube spre finalul anului trecut. Operat de cancer la gât în 2015, actorul și-a pierdut aproape complet vocea, acea voce despre care membrii supraviețuitori ai trupei The Doors recunoșteau că au crezut că este a răposatului lor solist vocal, Jim Morrison, când l-au auzit cântând în filmul lui Oliver Stone din 1991. Au urmat câțiva ani în care a comunicat greu cu cei din jur și a crezut în fiecare clipă că și-a încheiat definitiv cariera. Apoi, inteligența artificială (AI) l-a ajutat să fie auzit și înțeles din nou.
Un Photoshop pentru voce
Să o recunoaștem, chiar și cele mai cunoscute voci artificiale bazate pe cele ale unor oameni reali, precum Siri sau Alexa, au sunat și continuă să sune fals. Numai că între timp au apărut infamele deepfake – denumirea generică pentru înregistrări audio sau video aparent reale, create cu ajutorul AI, în care cineva apare spunând sau făcând ceva ce, de fapt, nu a spus sau făcut în realitate –, iar vocile generate digital au devenit mai credibile și mai naturale.
Fără a intra prea mult în detalii tehnice, în spatele oricărui deepfake reușit se află algoritmi creați și instruiți pentru a manipula fețele și vocile umane. Algoritmul care stă la baza unui video deepfake, de exemplu, suprapune mișcările și cuvintele unei persoane (A) peste cele ale personajului-fals(ificat) (B). Practic, inteligența artificială generează un nou video, în care B se mișcă și vorbește având ca referință A. Cu cât algoritmul învață din mai multe înregistrări video/audio, cu atât rezultatul este mai greu de identificat ca fals.
Ca să vorbească din nou, Kilmer a colaborat cu start-upul britanic Sonantic, creatorul unei soluții unice de convertire a textului scris în vorbire, pe care John Flynn, cofondator și chief technology officer al start-upului britanic o descrie drept un „Photoshop pentru voce“, capabilă să exprime subtilități precum tachinarea sau flirtul. Elementul-cheie, spun oficialii companiei, „este încorporarea de sunete non-vorbire în fluxul audio, prin antrenarea modelelor AI pentru a recrea acele mici admisii de aer care dau vorbirii reale amprenta de autenticitate biologică“. Platforma le permite utilizatorilor să ajusteze ritmul replicilor, să experimenteze diferite emoții și să schimbe inflexiunea frazelor prin modificarea tonului fiecărui cuvânt rostit.
„Val a vrut să îl ajutăm să își reconstituie digital vocea, astfel încât să poată continua să creeze. Ceea ce am și făcut“, spune cofondatoarea Zeena Qureshi, care deține la Sonantic și funcția de chief executive officer. De regulă, când compania creează un model de voce cu un actor, se folosesc înregistrări audio ale unor scenarii pe care acesta le citește în prealabil. Ulterior, înregistrările în cauză sunt încărcate în motorul de voce al companiei, care le folosește pentru a antrena modelul AI. Cazul lui Kilmer, detaliază cei de la Sonantic într-un text publicat pe blogul companiei, a fost însă ceva mai complex și a implicat „mai multă muncă manuală“.
Primul pas a fost strângerea de înregistrări audio vechi cu vocea actorului, care au fost „curățate“ de orice urmă de zgomot de fond. Datele astfel obținute au fost însă prea puține pentru a ajuta algoritmul să reproducă modul natural de a vorbi al lui Kilmer, fiind necesară crearea și implementarea unor noi algoritmi, cu ajutorul cărora Sonantic a reușit într-un final să genereze peste 40 de modele diferite de voce, inclusiv cea folosită în „Top Gun: Maverick“.
Vorbind dincolo de mormânt
Continuare a blockbusterului din 1986, „Top Gun: Maverick“ a spulberat toate așteptările încă din momentul lansării sale în cinematografe, pe 27 mai, generând în doar prima sa zi de difuzare în SUA încasări de aproape 127 de milioane de dolari. Iar pentru mulți plătitori de bilete, revenirea lui Val Kilmer ca Tom „Iceman“ Kazansky a fost un punct culminant incontestabil. Numai că apariția sa a rămas mult timp un mare semn de întrebare. În cele din urmă, scenariștii au împletit povestea lui Kilmer în cea a personajului său: Iceman are și el cancer la gât și comunică mai ales prin mesaje scrise. Dar lui Cruise îi și vorbește. Cu vocea inconfundabilă de dinaintea bolii.
Despre modelul AI creat pentru Kilmer, John Flynn spune că actorul îl va putea folosi atât în viața profesională, cât și în cea personală. „Kilmer poate lua parte la producții TV sau cinematografice, iar înregistrările sale de voce vor fi realizate cu ajutorul aplicației Sonantic. El poate licenția acele înregistrări pentru diferite producții și studiouri. Modelul vocal îl poate ajuta și să comunice în viața de zi cu zi, ca înlocuitor personalizat al dispozitivelor robotizate de generare a vorbirii“, detaliază John Flynn.
Aceasta nu este însă prima dată când AI a fost unealta pentru a crea o voce artificială pentru o persoană reală. Companiile de producție de film și studiourile de dublare au folosit în filme și emisiuni TV modele AI pentru a produce versiuni de voci pentru vârste diferite ale aceluiași actor, precum și pentru a readuce la viață vocile unor personalități care au murit.
În documentarul „Roadrunner: A Film About Anthony Bourdain“ (2021), de exemplu, se aude vocea generată de AI a cunoscutului bucătar (care s-a sinucis în 2018) „citind“ un fragment dintr-un e-mail pe care acesta i l-a trimis prietenului său, artistul David Choe. Mesajul este real – „Viața mea este un soi de rahat acum. Tu ai succes, eu am succes și mă întreb: ești fericit?“ –, dar regizorul Morgan Neville a fost acuzat că a recurs la deepfake pentru a produce o înregistrare audio cu o frază pe care Bourdain nu a rostit-o de fapt niciodată. „Am folosit o tehnică modernă de storytelling într-un moment al poveștii în care am simțit că e important să dau viață cuvintelor lui Tony“, a răspuns Neville.
Mark Hamill, actorul care l-a întrupat pe Luke Skywalker în lungmetrajele „Star Wars“, este în schimb în viață și încă poate juca fără probleme. Chiar și așa, studiourile Disney au preferat să folosească un algoritm AI al unei companii din Ucraina pentru a-i reproduce vocea din tinerețe și a-i da cu ea glas unui alter ego CGI (computer-generated imagery – imagine generată de computer) cu patru decenii mai tânăr, pentru o apariție episodică în capitolul șase al noului serial „Cartea lui Boba Fett“.
Și cei de la Sonantic au mai lucrat cu alți actori, dar preferă să nu le dezvăluie numele. Activă de patru ani, compania colaborează mai ales cu producători de jocuri, cum ar fi Obsidian Entertainment și Remedy Games, iar deseori își licențiază serviciul de voce artificială către studiouri, permițându-le să editeze voci sintetice pentru a obține tonurile și inflexiunile firești pentru un anumit schimb de replici sau o anumită scenă.
Mult zbomot pentru mulți bani
Cu un evident potențial de a ajuta persoanele cu dificultăți de vorbire – așa cum e și cazul lui Kilmer – noua tehnologie vine însă și cu întrebări și temeri de natură juridică, etică și economică, în special în cazul actorilor vocali, care sunt îngrijorați de dispariția mijloacelor de trai. Algoritmii deepfake au fost folosiți în cercurile care luptă pentru combaterea fenomenului fake news pentru a realiza videoclipuri cu politicieni precum Donald Trump și Barack Obama, cu scopul de a sublinia pericolele unei tehnologii concepute pentru a face să pară că oamenii spun lucruri pe care nu le-au susținut niciodată.
„Când sunt actor, eu decid dacă susțin sau nu conținutul mesajelor pe care le citesc. Ar fi un lucru devastator pentru orice actor să știe că vocea lui este undeva, acolo, spunând lucruri pe care s-ar putea să nu le susțină neapărat“, spune Jay Britton, un actor vocal care interpretează personaje animate în seria Netflix pentru copii „Tit! Tit! Matei Mașinescu“ și în o listă lungă de jocuri video.
Mulți actori sunt tot mai îngrijorați de faptul că nu vor (mai) fi plătiți corect sau că își vor pierde controlul asupra vocii lor, care constituie marca și reputația lor, spune un purtător de cuvânt al SAG-AFTRA, sindicatul care îi reprezintă pe actorii vocali din SUA. Temeri care au fost deja subiectul unui proces împotriva TikTok, deschis de actrița canadiană Bev Standing, după ce platforma chineză a inclus în aplicația sa o copie sintetică a vocii ei, fără a-i solicita permisiunea. Cele două părți au ajuns la o înțelegere financiară amiabilă, dar termenii acesteia nu au fost făcuți publici.
Experiența lui Standing este un ecou al celei lui Susan Bennett, vocea originală a asistentului virtual Siri, dezvoltat inițial de compania omonimă și cumpărat apoi de Apple într-o tranzacție estimată de analiștii din piață la peste 200 de milioane de dolari. Bennett a fost plătită pentru înregistrările care stau la baza actualei voci a Siri, însă acestea au fost făcute pentru un alt producător de software, ScanSoft. Apple, spune ea acum, i-ar fi folosit vocea fără să o anunțe, fără să o plătească, fără vreun acord și fără ca măcar să admită că e vocea ei.
Cei de la Sonantic susțin că algoritmul lor nu a fost creat pentru a-i înlocui pe actori. Site-ul companiei susține că acesta poate „reduce termenele de producție de la luni la minute“, promițând „performanțe convingătoare, realiste și cu voci expresive generate de AI, pentru jocuri și filme“, admițând, totuși, că toate acestea sunt premise care ar putea reduce numărul de ore pentru care actorii umani sunt plătiți să le petreacă în studiourile de înregistrări.
Din punct de vedere legislativ, nu există nicio prevedere expresă care să le interzică firmelor de tehnologie să genereze voci sintetice. Există, totuși, un cadru general pentru a-i descuraja pe cei care doresc să profite de orice fel de asemănare cu o celebritate. Într-un caz de furt de voce din anii ’90, cântărețul Tom Waits a dat în judecată producătorul american de chipsuri Frito-Lay pentru că a folosit într-o reclamă o voce asemănătoare cu a sa și a primit despăgubiri de 2,6 milioane de dolari.
Însă lucrurile rămân mai degrabă într-o zonă cu mai mult de 50 de nuanțe de gri. „Dacă o companie reproduce fără permisiune vocile unor persoane cunoscute, este posibil să le încalce dreptul la intimitate și să riște un proces. Dacă o faci ca o parodie sau o rutină artistică, atunci nu este o încălcare. Este, în schimb, dacă o faci în scop comercial“, spune avocatul Peter Raymond, de la casa Reed Smith, din New York, specializat în proprietate intelectuală și drepturi de autor.
Ar putea să încalce însă alte legi decât cele ale drepturilor de autor? În America, de exemplu, legislația în vigoare e destul de complicată și diferă de la un stat la altul, explica pentru Fortune avocatul Mitchell Schuster, partener al casei Meister Seelig & Fein LLP. State precum California recunosc și post-mortem drepturile de imagine (de folosire a numelui, vocii etc.) ale unei celebrități, în timp ce legislația din New York consideră că acestea încetează în momentul morții.
Mai mult, în cazul Californiei, industria de divertisment a început să facă lobby pentru actualizarea legislației prin protejarea și împotriva deepfake. Alte câteva state americane au adoptat recent legi împotriva deepfake cu caracter XXX non-consensual sau care pot interfera cu procesul electoral.
Departe de tot acest tumult, Val Kilmer e mulțumit: „Sonantic mi-a restaurat vocea într-un mod pe care nu mi l-am imaginat niciodată posibil. Șansa de a-mi spune povestea, cu o voce care se simte autentică și familiară, este un cadou incredibil de special“.
Acest articol a apărut în numărul 142 al revistei NewMoney.
FOTO: Getty