Cere și vei deveni în doar câteva secunde un artist digital. Aceasta este premisa (pervertită) de bază a programelor de inteligență artificială (AI) care convertesc cuvintele în imagini

Romulus Deac 05/12/2022 | 10:12 Digital
Cere și vei deveni în doar câteva secunde un artist digital. Aceasta este premisa (pervertită) de bază a programelor de inteligență artificială (AI) care convertesc cuvintele în imagini

„Simt că se întâmplă ceva pe care nu îl pot controla“, spune Greg Rutkowski, ilustratorul polonez considerat de mulți un ade­vă­rat fenomen al artei 2.0, cunoscut mai ales pentru scenele sale cu dragoni și bă­tălii epice din jocuri video precum „Horizon Forbidden West“, „Anno“, „Dungeons & Dragons“ sau „Magic: The Gathering“. Cu doar câteva luni în urmă era destul de greu să găsești pe internet un alt artist cu un stil similar. Peste noapte, apoi, au apă­rut sute. Dacă nu chiar mii.

Tehnologie extraterestră“

Oamenii au început să creeze lucrări de artă „à la Rutkowski“ folosindu-se de generatoare de imagini bazate pe inteligența arti­fi­cială, capabile să realizeze lucrări de artă originale într-un interval și de doar câteva secunde, pornind de la o scurtă descriere în format text a ceea ce un utilizator își dorește.

Procesul ar putea fi asemănat cu o cău­tare pe Google Images, cu excepția faptului că rezultatele sunt lucrări de artă nou-nouțe, create folosind ca instrucțiuni textul din termenii de căutare ai utilizatorului. Vrei un cyborg Mr. Bean luptându-se cu Bugs Bunny? Sau o tapiserie medievală cu un cavaler în armură aflat la volanul unei Tesla cu roți de căruță? Doar scrie-o! Iar aceste sisteme, antrenate pe baze de date uriașe de artă, le vor crea pentru tine. Numele lui Greg Rutkowski a fost folosit pentru a genera peste 100.000 de imagini doar pe un singur generator AI, Stable Diffusion, surclasând la numărul de solicitări artiști precum Pablo Picasso, Leonardo da Vinci sau Vincent van Gogh.

Până de curând, aceste instrumente de tip „scrie și vei primi“ au fost controlate de un număr mic de companii cu finanțări so­lide, cum ar fi OpenAI (care a construit DALL-E) sau Google (cu proiectul său Imagen). Lansat într-o versiune beta în mai 2022, DALL-E a putut fi testat de publicul larg în lunile care au urmat doar pe baza unei (prea) lungi liste de așteptare, la care s-a renunțat la sfârșitul lui septembrie. Accesul se face acum cu un cont de utilizator, care permite realizarea gratuită a 15 ima­gini pe lună; orice altă imagine în plus se plă­tește cu opt cenți/bucată. Compania-mamă spune că are deja 1,5 milioane de uti­­lizatori, care generează o medie zilnică de două milioane de imagini. Solicitările sunt riguros filtrate, pentru a evita genera­rea de imagini care să conțină nuditate, vio­lență sau fețe realiste. Imagen, pe de altă parte, e în continuare complet inacce­sibil utilizatorului obișnuit.

Acest statu-quo s-a schimbat însă odată cu apariția unui nou actor pe scenă, mai sus pomenitul Stable Diffusion, un program text-to-image accesibil gratuit, care generează imagini open-source (aproape) nefiltrate, pentru oricine are un computer performant și un minimum de cunoștințe tehnice. Lansat public spre sfârșitul lunii august, a fost îmbrățișat rapid de comunitatea de artă AI și la fel de rapid condamnat de mulți artiști tradiționali. „Realitatea este că aceasta este o tehnologie extra­terestră care îți dă superputeri. Am văzut copii de 3 ani și seniori de 90 de ani capabili să creeze pentru prima dată“, spunea Emad Mostaque, chief executive officer (CEO) al companiei Stability AI, care a fi­nan­țat dezvoltarea Stable Diffusion.

Drobul de sare?

Spre deosebire de DALL-E, este ușor să utilizezi algoritmul pen­tru a genera imagini violente sau se­xuale; imagini care înfățișează personalități pu­blice și celebrități; sau imagini care imită creații protejate prin drepturi de autor, de la operele unor artiști mai mult sau mai puțin consacrați până la mascotele unor cor­porații.

Să fim clari: versiunile „consumer-frien­dly“ ale Stable Diffusion au încorporate câteva filtre de cuvinte-cheie, cu rol de a împie­dica utilizatorii să genereze conținut NSFW („not safe for work“, avertisment folosit pentru marcarea conținutului violent/se­xual/ofensator). Filtre similare au fost implementate și în modelul ce poate fi des­cărcat, numai că în acest caz pot fi ocolite destul de ușor. Vezi, de exemplu, o postare din subredditul (domeniu de interes pe Reddit) Stable Diffusion intitulată „Cum să eliminați filtrul de siguranță în cinci se­cunde“.

Teoretic, și licența open-source a algoritmului le interzice utilizatorilor să folo­sească softul pentru o gamă întreagă de „pă­cate“ (inclusiv exploatarea și vătă­ma­rea minorilor, indiferent în ce mod, sau ge­ne­rarea și diseminarea de informații false). Practic însă, odată ce o persoană a descăr­cat și instalat Stable Diffusion pe compu­terul său, nu întâmpină niciun fel de constrângeri tehnice în acest sens.

Dacă e să-l întrebi pe Mostaque, responsabilitatea e în totalitate a utilizatorului. „În cele din urmă este responsabilitatea oa­menilor dacă sunt etici, dacă sunt mo­rali sau dacă respectă legea atunci când utilizează această tehnologie. Și cred că lu­crurile rele/urâte pe care le creează cu ea vor reprezenta un procent foarte-foarte mic“, mai spunea el pentru News Art.

Cert este că ne aflăm, în esență, pe un te­ritoriu neexplorat și încă e departe de a ne fi clar care sunt consecințele unui astfel de demers. Este ușor să ne imaginăm numeroasele utilizări rău intenționate ale tehnologiei, dar asta nu înseamnă automat că toate predicțiile pesimiste se vor și în­deplini.

Când aceeași OpenAI și-a lansat generatorul de text AI GPT-3 – un algoritm AI antrenat să scrie orice, de la proză complet originală și coerentă, poezii și dialoguri până la studii (presupus) științifice, articole de presă și glume –, compania a limitat inițial accesul general, de teamă că sof­tul ar fi folosit pentru a crea un potop de spam, știri false și propagandă. Până acum însă, acele temeri s-au dovedit exagerate. Asta nu înseamnă, totuși, că nu au apărut și pro­bleme serioase, cum ar fi cazul „AI Dungeon“, un joc fantasy text bazat pe GPT-3, care a trebuit să introducă filtre pentru a împiedica softul său să genereze scene de sex care implică minori. Dar cataclismul anticipat a fost evitat până acum.

La limitele neutralității

În cazul Stable Diffusion, cel mai vizibil caz de utili­zare NSFW până în prezent este cel al ge­ne­rării de pornografie. După lansarea pu­blică a modelului au apărut o serie de sub­reddituri dedicate gestionării rezultatelor NSFW ale softului. (Între timp, cele mai multe dintre acestea au fost închise, în con­formitate cu politicile Reddit care interzic deepfake-urile XXX.) Mulți dintre utili­zatori generau imagini nud cu cele­brități și persoane publice, dar conținutul oscila adesea între grotesc și absurd, personajele având membre suplimentare și fiind plasate în ipostaze fizic imposibile. Pe de altă parte, e deja cert că nivelul calitativ al aces­tor rezultate se va îmbunătăți constant în viitorul apropiat, ridicând o serie de (noi) întrebări despre etica pornografiei gene­rate de AI.

Observatorii din industrie ai fenomenului sunt de părere că este aproape sigur că Stable Diffusion poate fi folosit pentru a ge­­nera imagini sexuale cu copii, dar că, dacă acest lucru se întâmplă într-adevăr, se întâmplă în colțurile cele mai obscure ale internetului. Mostaque spune că acesta este un domeniu al generării de imagini pe care compania a încercat în mod activ să-l împiedice prin eliminarea conținutului CSAM (child sexual abuse material – o denumire alternativă pentru pornografia in­fantilă) din datele de instruire a algoritmului Stable Diffusion. „Am eliminat conținu­tul ilegal de pe internet și asta este tot“, mai spune el, lansând și o întrebare reto­rică: „Odată ce începi să filtrezi ceva, unde te oprești?“.

Printr-un astfel de discurs, Stability AI îmbrățișează și ea una dintre cel mai des repetate (și frecvent criticate) mantre din industrie, care spune că tehnologia este neutră și că e mai bine să construiești lucruri decât să nu o faci deloc. „Aceasta este abordarea pe care o adoptăm, deoarece vedem astfel de instrumente ca pe o potențială infrastructură pentru progresul omenirii. Credem că elementele pozitive le depășesc cu mult pe cele negative“, conti­nuă Mostaque.

Un domeniu pe care Stability AI cu sigu­ranță nu l-a filtrat din datele sale de antrenament este cel al lucrărilor artistice protejate prin drepturi de autor. Drept urmare, mulți văd în capacitatea Stable Dif­fusion de a imita stilul și estetica artiș­tilor consacrați nu doar o încălcare a drepturilor de autor, ci și a eticii. „Există oameni care pretind că sunt eu. Sunt foarte îngrijorat de asta, e complet lipsit de etică“, spune și Rutkowski, exprimându-și temerea că, odată cu apa­riția a mii de lucrări care îi imită creațiile, stilul său și-ar putea pierde din autenticitate și valoare. „Nu poți să știi ce impact va avea asupra numelui tău. Poate că tu și stilul tău veți fi excluși din industrie pentru că vor fi atât de multe lucrări de artă în acel stil, încât nu va mai fi interesant pentru nimeni“, continuă el.

O revoluție și ceva mai mult

Fost administrator al unor fonduri speculative, Mostaque spune că vrea să realizeze ceva mai mult decât o revoluție în lumea inteli­gen­ței artificiale: să detroneze giganții corporativi care construiesc sisteme din ce în ce mai mari și mai scumpe și să-i schimbe cu comunități independente, mai rapide și mai inteligente. „Dacă te uiți la dezvoltarea pe termen lung a tehnologiei, să o faci mai deschisă, mai contributivă și mai incluzivă este de preferat din perspectiva siguran­ței“, spune și Clement Delangue, CEO al HuggingFace, un portal care găzduiește proiecte open-source AI, inclusiv Stable Diffusion, în opinia căruia beneficiile mo­de­lului open-source sunt mult mai mari decât riscurile presupuse.

Delangue mai subliniază că marile companii social media ar putea folosi Stable Diffusion pentru a-și construi propriile instrumente de identificare a imaginilor ge­ne­rate de AI, folosite pentru a răspândi de­zinformarea. De altfel, comunitatea open-source de pe HuggingFace a făcut deja pași în acest sens, construind un sistem de mar­care a imaginilor realizate cu Stable Diffusion, astfel încât acestea să poată fi mai ușor de urmărit și identificat, precum și un motor de căutare capabil să găsească un anumit tip de imagini în datele de antrenament ale algoritmului AI și să le elimine pe cele problematice.

Server dedicat creării și partajării de con­ținut NSFW generat de AI, Unstable Diffusion Discord (UDD) interzice comunității sale să publice pe internet anumite tipuri de conținut, inclusiv imagini care ar putea fi interpretate ca pornografie cu minori. „Nu putem modera ceea ce fac oamenii pe propriile lor mașini, dar suntem extrem de stricți cu ceea ce se publică“, spune Elle Simpson-Edin, unul dintre moderatorii UDD.

Pe termen scurt, limitarea efectelor perturbatoare ale creațiilor de artă AI ar putea să depindă mai mult de oameni decât de mașini. Pe termen lung, în ciuda eforturilor noastre, este dificil să știm exact cum ne vor afecta sinteza imaginilor și alte tehno­logii bazate pe inteligență artificială la nivel de societate. Cert este că, în cele din urmă, omenirea se va adapta, chiar și dacă asta va însemna o schimbare radicală a cadrelor noastre culturale actuale. Până la urmă, așa cum spunea filosoful antic grec Heraclit, „singura constantă este schimbarea“. O dovedește și prima fotografie din istorie cu el, pe care o avem în aceste zile datorită Stable Diffusion.