Cum l-a ajutat inteligența artificială pe Val Kilmer să-și recapete vocea în filmul „Top Gun: Maverick“

Romulus Deac 04/07/2022 | 10:15 Digital
Cum l-a ajutat inteligența artificială pe Val Kilmer să-și recapete vocea în filmul „Top Gun: Maverick“

Da, tehnologia e cea care îi dă replica! Val Kilmer poate să vorbească din nou, și nu doar în noul film „Top Gun: Maverick“.

„Vocea mea, așa cum o știam eu, mi-a fost luată. Oamenii din jurul meu se chinuie acum să mă înțeleagă când vorbesc“, măr­turisea actorul american Val Kilmer într-un videoclip distribuit pe YouTube spre fina­lul anului trecut. Operat de cancer la gât în 2015, actorul și-a pierdut aproape complet vocea, acea voce despre care membrii supra­viețuitori ai trupei The Doors recunoș­teau că au crezut că este a răposatului lor solist vocal, Jim Morrison, când l-au auzit cântând în filmul lui Oliver Stone din 1991. Au urmat câțiva ani în care a comunicat greu cu cei din jur și a crezut în fiecare clipă că și-a încheiat definitiv cariera. Apoi, inteligența artificială (AI) l-a ajutat să fie auzit și înțeles din nou.

Un Photoshop pentru voce

 Să o re­cunoaștem, chiar și cele mai cunoscute voci artificiale bazate pe cele ale unor oameni reali, precum Siri sau Alexa, au sunat și continuă să sune fals. Numai că între timp au apărut infamele deepfake – denumirea generică pentru înregistrări audio sau video aparent reale, create cu ajutorul AI, în care cineva apare spunând sau fă­când ceva ce, de fapt, nu a spus sau făcut în realitate –, iar vocile generate digital au devenit mai credibile și mai naturale.

Fără a intra prea mult în detalii tehnice, în spatele oricărui deepfake reușit se află algoritmi creați și instruiți pentru a manipula fețele și vocile umane. Algoritmul care stă la baza unui video deepfake, de exemplu, suprapune mișcările și cuvintele unei persoane (A) peste cele ale persona­jului-fals(ificat) (B). Practic, inteligența ar­ti­­ficială generează un nou video, în care B se mișcă și vorbește având ca referință A. Cu cât algoritmul învață din mai multe în­re­gistrări video/audio, cu atât rezultatul este mai greu de identificat ca fals.

Ca să vorbească din nou, Kilmer a cola­borat cu start-upul britanic Sonantic, crea­torul unei soluții unice de convertire a textului scris în vorbire, pe care John Flynn, cofondator și chief technology officer al start-upului britanic o descrie drept un „Photoshop pentru voce“, capabilă să ex­prime subti­li­tăți precum tachinarea sau flirtul. Elementul-cheie, spun oficialii companiei, „este în­corporarea de sunete non-vorbire în fluxul audio, prin antrenarea mo­delelor AI pentru a recrea acele mici ad­misii de aer care dau vorbirii reale amprenta de autenticitate biologică“. Platforma le permite utilizatorilor să ajusteze ritmul replicilor, să experimenteze diferite emoții și să schimbe inflexiunea frazelor prin modificarea tonului fiecărui cuvânt rostit.

„Val a vrut să îl ajutăm să își reconstituie digital vocea, astfel încât să poată continua să creeze. Ceea ce am și făcut“, spune cofondatoarea Zeena Qureshi, care deține la Sonantic și funcția de chief executive offi­cer. De regulă, când compania creează un model de voce cu un actor, se folosesc în­registrări audio ale unor scenarii pe care acesta le citește în prealabil. Ulterior, înre­gis­trările în cauză sunt încărcate în moto­rul de voce al companiei, care le folosește pentru a antrena modelul AI. Cazul lui Kil­mer, detaliază cei de la Sonantic într-un text publicat pe blogul companiei, a fost însă ceva mai complex și a implicat „mai multă muncă manuală“.

Primul pas a fost strângerea de înregis­trări audio vechi cu vocea actorului, care au fost „curățate“ de orice urmă de zgomot de fond. Datele astfel obținute au fost însă prea puține pentru a ajuta algoritmul să reproducă modul natural de a vorbi al lui Kilmer, fiind necesară crearea și implementarea unor noi algoritmi, cu ajutorul cărora Sonantic a reușit într-un final să genereze peste 40 de modele diferite de voce, inclusiv cea folosită în „Top Gun: Maverick“.

Vorbind dincolo de mormânt

Continuare a blockbusterului din 1986, „Top Gun: Maverick“ a spulberat toate aș­tep­tările încă din momentul lansării sale în cinematografe, pe 27 mai, generând în doar prima sa zi de difuzare în SUA înca­sări de aproape 127 de milioane de dolari. Iar pentru mulți plătitori de bilete, revenirea lui Val Kilmer ca Tom „Iceman“ Kazansky a fost un punct culminant incontes­tabil. Numai că apariția sa a rămas mult timp un mare semn de întrebare. În cele din urmă, scenariștii au împletit povestea lui Kilmer în cea a personajului său: Iceman are și el cancer la gât și comunică mai ales prin mesaje scrise. Dar lui Cruise îi și vor­bește. Cu vocea inconfundabilă de dinaintea bolii.

Despre modelul AI creat pentru Kilmer, John Flynn spune că actorul îl va putea fo­losi atât în viața profesională, cât și în cea personală. „Kilmer poate lua parte la producții TV sau cinematografice, iar în­registrările sale de voce vor fi realizate cu ajutorul aplicației Sonantic. El poate licen­ția acele înregistrări pentru diferite pro­duc­ții și studiouri. Modelul vocal îl poate ajuta și să comunice în viața de zi cu zi, ca înlocuitor personalizat al dispozitivelor robotizate de generare a vorbirii“, deta­liază John Flynn.

Aceasta nu este însă prima dată când AI a fost unealta pentru a crea o voce artifi­cială pentru o persoană reală. Companiile de producție de film și studiourile de du­blare au folosit în filme și emisiuni TV mo­dele AI pentru a produce versiuni de voci pentru vârste diferite ale aceluiași actor, precum și pentru a readuce la viață vocile unor personalități care au murit.

În documentarul „Roadrunner: A Film About Anthony Bourdain“ (2021), de exemplu, se aude vocea generată de AI a cunoscutului bucătar (care s-a sinucis în 2018) „citind“ un fragment dintr-un e-mail pe care acesta i l-a trimis prietenului său, artistul David Choe. Mesajul este real – „Viața mea este un soi de rahat acum. Tu ai succes, eu am succes și mă întreb: ești fericit?“ –, dar regizorul Morgan Neville a fost acuzat că a re­curs la deepfake pentru a produce o înregistrare audio cu o frază pe care Bourdain nu a rostit-o de fapt niciodată. „Am folosit o tehnică modernă de storytelling într-un moment al poveștii în care am simțit că e important să dau viață cuvintelor lui Tony“, a răspuns Neville.

Mark Hamill, actorul care l-a întrupat pe Luke Skywalker în lungmetrajele „Star Wars“, este în schimb în viață și încă poate juca fără probleme. Chiar și așa, studiourile Disney au preferat să folosească un al­goritm AI al unei companii din Ucraina pentru a-i reproduce vocea din tinerețe și a-i da cu ea glas unui alter ego CGI (compu­ter-generated imagery – imagine generată de computer) cu patru decenii mai tânăr, pentru o apariție episodică în capitolul șase al noului serial „Cartea lui Boba Fett“.

Și cei de la Sonantic au mai lucrat cu alți actori, dar preferă să nu le dezvăluie numele. Activă de patru ani, compania cola­borează mai ales cu producători de jocuri, cum ar fi Obsidian Entertainment și Re­medy Games, iar deseori își licențiază serviciul de voce artificială către studiouri, per­mițându-le să editeze voci sintetice pen­tru a obține tonurile și inflexiunile fi­rești pentru un anumit schimb de replici sau o anumită scenă.

Mult zbomot pentru mulți bani

Cu un evident potențial de a ajuta persoa­nele cu dificultăți de vorbire – așa cum e și cazul lui Kilmer – noua tehnologie vine însă și cu întrebări și temeri de natură juri­dică, etică și economică, în special în cazul ac­torilor vocali, care sunt îngrijorați de dis­pariția mijloacelor de trai. Algoritmii deepfake au fost folosiți în cercurile care luptă pentru combaterea fenomenului fake news pentru a realiza videoclipuri cu poli­ti­cieni precum Donald Trump și Barack Obama, cu scopul de a sublinia pericolele unei tehnologii concepute pentru a face să pară că oamenii spun lucruri pe care nu le-au susținut niciodată.

„Când sunt actor, eu decid dacă susțin sau nu conținutul mesajelor pe care le citesc. Ar fi un lucru devastator pentru orice actor să știe că vocea lui este undeva, acolo, spunând lucruri pe care s-ar putea să nu le susțină neapărat“, spune Jay Britton, un actor vocal care interpretează personaje animate în seria Netflix pentru copii „Tit! Tit! Matei Mașinescu“ și în o listă lungă de jocuri video.

Mulți actori sunt tot mai îngrijorați de faptul că nu vor (mai) fi plătiți corect sau că își vor pierde controlul asupra vocii lor, care constituie marca și reputația lor, spune un purtător de cuvânt al SAG-AFTRA, sindicatul care îi reprezintă pe actorii vocali din SUA. Temeri care au fost deja subiectul unui proces împotriva TikTok, deschis de actrița canadiană Bev Standing, după ce pla­tforma chineză a inclus în aplicația sa o copie sintetică a vocii ei, fără a-i solicita per­misiunea. Cele două părți au ajuns la o înțelegere financiară amiabilă, dar termenii acesteia nu au fost făcuți publici.

Experiența lui Standing este un ecou al celei lui Susan Bennett, vocea originală a asis­tentului virtual Siri, dezvoltat inițial de compania omonimă și cumpărat apoi de Apple într-o tranzacție estimată de analiștii din piață la peste 200 de milioane de do­lari. Bennett a fost plătită pentru înregis­tră­rile care stau la baza actualei voci a Siri, însă acestea au fost făcute pentru un alt pro­ducător de software, ScanSoft. Apple, spune ea acum, i-ar fi folosit vocea fără să o anunțe, fără să o plătească, fără vreun acord și fără ca măcar să admită că e vocea ei.

Cei de la Sonantic susțin că algoritmul lor nu a fost creat pentru a-i înlocui pe actori. Site-ul companiei susține că acesta poate „reduce termenele de producție de la luni la minute“, promițând „performanțe con­vingătoare, realiste și cu voci expresive generate de AI, pentru jocuri și filme“, admițând, totuși, că toate acestea sunt pre­mise care ar putea reduce numărul de ore pentru care actorii umani sunt plătiți să le petreacă în studiourile de înregistrări.

Din punct de vedere legislativ, nu există nicio prevedere expresă care să le inter­zică firmelor de tehnologie să genereze voci sintetice. Există, totuși, un cadru ge­ne­ral pentru a-i descuraja pe cei care do­resc să profite de orice fel de asemănare cu o celebritate. Într-un caz de furt de voce din anii ’90, cântărețul Tom Waits a dat în judecată producătorul american de chipsuri Frito-Lay pentru că a folosit într-o re­clamă o voce asemănătoare cu a sa și a primit despăgubiri de 2,6 milioane de dolari.

Însă lucrurile rămân mai degrabă într-o zonă cu mai mult de 50 de nuanțe de gri. „Dacă o companie reproduce fără permisi­une vocile unor persoane cunoscute, este posibil să le încalce dreptul la intimitate și să riște un proces. Dacă o faci ca o parodie sau o rutină artistică, atunci nu este o în­călcare. Este, în schimb, dacă o faci în scop comercial“, spune avocatul Peter Raymond, de la casa Reed Smith, din New York, specializat în proprietate intelectuală și drepturi de autor.

Ar putea să încalce însă alte legi decât cele ale drepturilor de autor? În America, de exemplu, legislația în vigoare e destul de complicată și diferă de la un stat la altul, explica pentru Fortune avocatul Mit­chell Schuster, partener al casei Meister Seelig & Fein LLP. State precum California recunosc și post-mortem drepturile de ima­gine (de folosire a numelui, vocii etc.) ale unei celebrități, în timp ce legislația din New York consideră că acestea încetează în momentul morții.

Mai mult, în cazul Californiei, industria de divertisment a început să facă lobby pentru actualizarea legislației prin protejarea și împotriva deepfake. Alte câteva state americane au adoptat recent legi împotriva deepfake cu caracter XXX non-con­sensual sau care pot interfera cu procesul electoral.

Departe de tot acest tumult, Val Kilmer e mulțumit: „Sonantic mi-a restaurat vocea într-un mod pe care nu mi l-am imaginat niciodată posibil. Șansa de a-mi spune po­vestea, cu o voce care se simte autentică și familiară, este un cadou incredibil de special“.

Acest articol a apărut în numărul 142 al revistei NewMoney.

FOTO: Getty