EN PT/BR
As verdades dos deepfakes
Texto originalmente publicado na revista Zum n. 18, em abril de 2020, atualizado e expandido para este livro.
A inteligência artificial saiu do armário. Abandonou o mundo da ficção científica e deixou de ser exclusividade dos acadêmicos das ciências exatas. Invadiu as start-ups, migrou para os celulares, tomou de assalto a indústria da pornografia e anuncia novas dimensões da política das imagens no século 21. Por processos de aprendizado de máquina e sistemas de visão computacional, a tecnologia se dissemina nos efeitos especiais, como nas técnicas de rejuvenescimento aplicadas em Al Pacino e Robert de Niro em O irlandês, de Martin Scorsese (2019); a tecnologia ressuscitou Nicolas Cage, mais uma vez, nos memes em vídeos no YouTube e é a polêmica mais temida das eleições de 2020, com possibilidade de apresentar Donald Trump fazendo discursos de um adversário e vice-versa.
Afinal, uma prévia do que pode vir por aí apareceu em um vídeo que viralizou na Internet, em abril de 2018, no qual Barak Obama atacava os Panteras Negras e xingava Trump (Mack, 2018), e chegou ao mundo dos mortais com o lançamento do aplicativo chinês Zao, em setembro de 2019, permitindo que qualquer um se transformasse em um astro hollywoodiano em segundos. Em dois dias, tornou-se o recordista de downloads da loja chinesa da Apple, com milhões de usuários.
Tão instantâneo quanto o sucesso foi a onda de protestos sobre violação de privacidade que gerou, haja vista que à época de seu lançamento afirmava que se reservava o direito de usar as imagens e as informações biométricas ali compartilhadas. As reclamações levaram o aplicativo a alterar essa norma, e é bom lembrar que a nova legislação da Internet chinesa, anunciada em novembro, proíbe o uso de recursos de IA sem que sejam explicitamente declarados, tendo com uma das motivações a proliferação de fake news (notícias falsas). Contudo, o mais importante desse caso foi evidenciar como as tecnologias de criação de imagens, baseadas em inteligência artificial, e orientadas para o desenvolvimento de deepfakes, têm potencial para se tornar acessíveis e populares.
O termo deepfake é um neologismo que apareceu no Reddit, uma rede social de discussões temáticas, em novembro de 2017, como apelido de um usuário e nome de um fórum dedicado a aplicar tecnologias de aprendizagem profunda (deep learning, de onde vem o deep de deepfake) para fazer sinteticamente a troca de rostos (face-swapping, o processo de falsificação que remete ao “fake” da palavra) de atrizes pornôs pelo de celebridades. Banido no início de 2018 do Reddit, como grupo, a prática do deepfake é fato consolidado.
Um levantamento feito pela empresa holandesa Deeptrace, que desenvolve algoritmos para identificação de deepfakes, mostra que no último ano o número de vídeos deepfakes cresceu praticamente 100%, saltando de 7.946 em dezembro de 2018 para 14.678 em dezembro de 2019. Desses vídeos, 96% são pornográficos e chegam a cerca de 135 milhões de visualizações. Misóginos, 100% tem como alvo mulheres. Entre os não pornográficos, o fenômeno se inverte e tem como foco homens, em geral políticos e figurões corporativos (Ajder et al., 2019).
Antes que se comece com os argumentos sobre que não há nada de novo nisso, que o estalisnismo fez vasto uso em fotos adulteradas, que o nazismo e o fascismo fraudaram inúmeras outras e que depois do Photoshop ninguém mais se surpreende com manipulações de imagens, é bom frisar: deepfake não é colagem, tampouco edição e dublagem. Deepfake é imagem produzida algoritmicamente, sem mediação humana no seu processamento, que utiliza milhares de imagens estocadas em bancos de dados para aprender os movimentos do rosto de uma pessoa, inclusive os labiais e suas modulações de voz, para prever como ela poderia falar algo que não disse.
Na instalação In Event of Moon Disaster [No caso de um desastre lunar] (2009), a diretora de criação do Centro para Virtualidade Avançada do Instituto de Tecnologia de Massachusetts, Francesca Panetta, criou, em parceria com Halsey Burgund, do Open Documentary Lab, da mesma universidade, um vídeo em que o presidente Richard Nixon reporta, diretamente do Salão Oval da Casa Branca, o desastre ocorrido com a Apolo 11. Seu discurso foi escrito por Bill Saphire e seria lido no caso de um acidente com a missão lunar que, como se sabe, não aconteceu. A motivação desse projeto, segundo seus autores, é funcionar como um alerta sobre os riscos que os deeepfakes delineiam não apenas no plano dos acontecimentos do presente, mas também no do revisionismo histórico (Panetta e Burgund, 2019).
Event of Moon Disaster, 2019. Instalação apresenta documentário com vídeo deepfake na qual encena discurso que o Presidente Nixon proferiria caso houvesse ocorrido um desastre com a missão Apolo 11 da Nasa (1969).
A popularização dos meios para criar deepfakes e os riscos éticos e políticos que implicam levou três das maiores empresas de tecnologia –Microsoft, Amazon e Facebook – a se unirem em um projeto, o Deepfake Detection Challenge [Desafio Detector de Deepfake], que termina em setembro de 2020, para criar recursos de identificação e controle de deepfakes em suas plataformas. Hospedada pela plataforma Kaggle, de propriedade do Google, a outra major do time, promete um prêmio de um milhão de dólares à equipe vencedora.
A união desses gigantes é suficiente para intuir a escala do problema. Escândalos recentes, como o papel da Cambridge Analytica na eleição de Donald Trump, e dos robôs de WhatsApp no último pleito presidencial no Brasil, são exemplos incontornáveis das perversas relações entre redes sociais, aplicativos e política.
Muito embora existam alguns indicadores para reconhecer uma imagem deepfake (fundos desfocados, brincos desemparelhados, movimentos estranhos de microfones, por exemplo), os avanços são rápidos e a tendência é que fiquem cada vez mais sofisticados. Além do mais, depois que um vídeo ou uma foto viralizam na Internet, qualquer ação posterior tem, via de regra, efeitos meramente paliativos que dificilmente são capazes de concorrer com o estrago já feito.
Apesar de serem imagens fictícias, deepfakes são feitos a partir de imagens reais. São construídos com base em grandes conjuntos de dados e a partir de redes neurais, uma arquitetura computacional que tem por analogia o cérebro humano (daí o nome neural). Estes algoritmos vasculham e interconectam padrões escondidos em grandes conjuntos de dados. Com essa identificação, são capazes de agrupar dados, classificá-los e prever comportamentos e ações.
Esse modelo marcou uma verdadeira revolução no campo das imagens com o desenvolvimento das GANs (Generative Adversarial Networks – Redes Generativas Adversárias), uma arquitetura de redes apresentada em 2014. Nessa arquitetura, duas redes são colocadas uma contra a outra, atuando respectivamente como geradoras e discriminadoras. Compete à primeira criar imagens e à segunda decidir se aquela imagem é real ou falsa. Do jogo de gato e rato entre algoritmos, o discriminador aprende a reconhecer e classificar as imagens verdadeiras.
Mas o reverso também ocorre. Quanto mais o discriminador aprende a reconhecer as imagens falsas, mais o gerador aprende a enganá-lo. Essa é a receita do bolo por trás de um vídeo deepfake, e o que explica a razão de celebridades e personalidades públicas serem mais vulneráveis que outros usuários das redes a se transformarem em um protagonista de um vídeo deeply fake [profundamente falso]. A quantidade de imagens disponíveis online dessas pessoas é muito maior que a de outros usuários, fornecendo mais dados para o aprendizado de seus gestos, expressões faciais e fala.
A facilidade de criar deepfakes aumenta, conforme se sofisticam suas metodologias e capacidade de produção. As imagens do site This Person Does Not Exist [Essa pessoa não existe] (2019), por exemplo, de Philip Wang, engenheiro sênior de software da Microsoft, utilizam uma geração mais nova de redes artificiais, as StyleGAN2. Essas redes extraem, por meio de programação algorítmica, informações por meio de transferência de estilos (suas especificidades estéticas, como iluminação, curvas, contrates, etc.) (Wang, 2019).
This Person Does Not Exist, 2019. Retratos deepfake gerados algoritmicamente com redes neurais StyleGAN2.
A partir de uma imagem facial de entrada, o gerador aprende a distribuição dos elementos de um rosto e aplica suas características em uma nova imagem. Diferentemente dos sistemas anteriores, que não eram capazes de controlar quais aspectos específicos de um rosto gerariam, esse permite determinar atributos físicos e faciais particulares sem alterar nenhum outro. Isso resulta em maior fidelidade de traços identitários e pessoais, como os estilos de cabelo, formato e cor dos olhos e tipos de rostos.
As fotos desse site intrigam, inicialmente, pela sua capacidade de fazer com que se acredite que os retratados são pessoas reais. Intrigam, também, por serem a primeira geração de imagens realistas que prescinde do olhar, já que são sintetizadas por algoritmos treinados por sistemas de aprendizado de máquina. Escrevem, assim, um novo capítulo da história da pós-fotografia, que já havia descartado a necessidade da câmera, tema abordado por vários pensadores e fotógrafos como Juan Fontcuberta, cuja série Googlegrams (2005) é referencial para a compreensão desse imaginário emergente (Fontcuberta, 2007).
Mas há algo de mais perturbador nessas fotos. Para além das discussões sobre veracidade, apropriação e embates entre o humano e o maquínico – eterna questão do fotográfico, como já aprendemos com os teóricos Raymond Bellour (1997) e Philippe Dubois (1993) –, há que se considerar aqui uma nova política das imagens. Não se pode ignorar o fato de que todos esses novos sistemas são produzidos por megaempresas de tecnologia que monopolizam inúmeros setores da vida social contemporânea. O modelo das GANs é obra de um dos pesquisadores da Google, Ian Goodfellow. O das StyleGAN foi desenvolvido nos laboratórios da Nvidia, rainha das GPUs (Graphics Processing Units – Unidades de Processamento Gráfico, fundamentais para execução de games e vídeos) e uma líder no mercado de inteligência artificial.
Imagens digitais não são versões de imagens químicas feitas com novos materiais. São imagens computacionais, carregam informações que vão das coordenadas geográficas de onde foram capturadas até a identidade de quem as fez, seu equipamento e de como e quando foram compartilhadas. Mais do que próteses de visão, como chamou Virilio as câmeras, os dispositivos de captação de imagem hoje são, acima de tudo, dispositivos de extroversão de imagens. Atreladas cada vez mais às redes sociais, como Instagram, Snapchat e TikTok, as câmeras servem para sermos vistos e não para ver.
Foi-se o tempo da câmera como dispositivo de enquadramento e captura. Depois do digital, como indicou Steyerl (2014), ela transformou-se em um dispositivo de projeção. A seu reboque, a imagem se converte no pressuposto de qualquer sistema inteligente de vigilância. É verdade que essa é uma trajetória que remete à invenção da fotografia, mas, como ressaltou Jake Goldenfein na revista Public Books, nenhuma empresa fotográfica foi uma das maiores corporações do mundo. E não estamos aqui falando do seu porte e valor. Essas corporações a que nos referimos aqui são não apenas detentoras dos principais serviços online que usamos, mas os principais players do mercado de visão computacional e de serviços de armazenamento de dados (Goldenfein, 2020).
E essa dinâmica remete, essencialmente, ao peso dos padrões no vocabulário visual da atualidade. Todo o sistema de redes neurais depende da construção de padrões. Não é por acaso que os retratos de This Person Does Not Exist têm todos o mesmo olhar e um sorrisinho de cara de paisagem (ou será que “cara de IA” é o novo cara de paisagem?). Deepfakes não choram? Não sentem dor?
Um experimento conduzido por Bernardo Fontes, pesquisador do Grupo de Experiências Críticas em Infra-estruturas Digitais (GECID) do Inova-USP, mostra o grau de estandartização embutido nos processos de visão computacional. Bernardo baixou 4.100 imagens geradas pelo site This Person Does Not Exist e separou três conjuntos de cem, quinhentas e mil imagens, sem repetir imagens em nenhum deles. Ao sobrepor as imagens, esperava que ocorresse uma convergência nos pontos dos olhos, boca e nariz. Isso porque a posição desses órgãos, nas fotos de This Person Does Not Exist, é sempre fixa. Sua posição referencial está nas mesmas coordenadas x e y, independentemente de o rosto aparecer de frente ou de perfil.
Superposições feitas pelo pesquisador do GAIA/Inova-USP Bernardo Fontes de conjuntos de cem, quinhentos e mil imagens distintas de um conjunto de 4.100 retratos do banco de dados do This Person Does Not Exist revelam a padronização do olhar das redes neurais.
O surpreendente da experiência feita foi que, apesar de as imagens serem todas diferentes, os três conjuntos resultaram em imagens praticamente idênticas! Chama a atenção também, de acordo com o estudo de um outro pesquisador do mesmo grupo, Lucas Nunes Sequeira, o quão rápido a convergência aparece, evidenciando-se na superposição das primeiras cem imagens, quando também se verifica a inclinação para a dominância do padrão de pele branca, revelando as matrizes de poder social embutidas no tsunami de rostos pseudofelizes dos deepfakes.
Fabricados com datasets (conjuntos de dados) de imagens de pessoas reais, reproduzem dinâmicas raciais e também de classe que se desdobram na Internet. A imagem que, como dissemos, é sintentizada maquinicamente, provém de grandes conjuntos que foram rotulados pelo precariado da Amazon Mechanical Turk, um serviço da Amazon que arregimenta trabalhadores remotos a custos ínfimos para tarefas seriadas. No caso da StyleGAN2, a rede neural por trás do This Face Does Not Exist, os turkers foram responsáveis pela construção do banco de dados Flickr-Faces-HQ, utilizado para elaborar essa rede, tendo sido encarregados de remover imagens de estátuas, pinturas ou fotos de fotos, conforme informações que constam no repositório de seus códigos, armazenados na plataforma GitHub.
Outro ponto a ser considerado na compreensão do “sorriso das IAs” é que ao originar-se de datasets compostos com imagens das redes, espelham os modos pelos quais as pessoas se apresentam online, via de regra como heróis de suas próprias vidas onde só cabem sucessos.
Mas deepfakes iluminam outros meandros da normatização do olhar que emerge com a visão computacional e que não se explicam por reconhecidas variáveis sociológicas, históricas e do repertório assentado na crítica de arte. Esses meandros remetem à cadeia produtiva que envolve das câmeras, cada vez menos dependentes de lentes e de sensores e mais de inteligência artificial, aos programas de processamento de imagens. Em conjunto, eles respondem e modelam a formatação padronizada de perspectivas, de cores e de pontos de vista que se multiplicam nos Instagrams da vida, ironizado no Insta_repeat, um perfil que veicula fotos quase idênticas, em mosaicos compostos com o material pasteurizado que circula nessa rede social (Scheffer, 2018-).
Concordo que é realmente sensacional quando você faz “aquela” foto que sai toda torta e, ao abrir no editor do seu celular, ela se autocorrige e alinha tudo. Isso é indicador da presença da visão computacional no nosso cotidiano e dos modos como naturalizamos suas regras na expressão cultural. Haverá, certamente, quem diga que inúmeras vezes o padrão não corresponde ao que se desejava registrar e é possível revertê-lo. Sinto dizer, porém, que a tendência é que as câmeras, cada vez mais “inteligentes”, aprendam a capturar as fotos já corrigidas, dificultando não obedecer aos seus desígnios pré-fabricados. Estamos vivendo a paradoxal situação de potencialmente criar a mais rica e plural cultura visual da história, pela democratização dos meios, e mergulhar no limbo da uniformização do olhar.
Basta aqui recordar do fenômeno da selfie para corroborar essa afirmação. Afinal, ele mudou para sempre a angulação do autorretrato, que deixou de ser frontal, em correspondência à câmera no tripé, e se adaptou à angulação viável de captura com o celular na mão (de sete a dezessete graus). Confira no projeto Selfie City (2014), do pioneiro dos estudos culturais de dados, Lev Manovich, se não acreditar (Manovich, 2014).
Esse processo de naturalização do padrão maquínico na cultura visual, no caso dos deepfakes, já começou. O Snapchat e TikTok, as redes da vez, usam seus recursos para oferecer aos usuários filtros que permitem colocar rostos em novos corpos. Tudo ainda de modo engraçadinho e com jeito de verdadeiramente falso. Tecnologias para fazer mais acuradamente o que é feito como entretenimento nas redes não faltam, e aposto que é questão de tempo para que passemos a usá-las recorrentemente.
Seguindo o caso das selfies, dos círculos viciosos e viciantes das fotos e vídeos que circulam nas redes sociais e, especialmente, das normas codificadas nos dispositivos de imagens (Steyerl, 2014), é plausível pensar que superados os bugs que ainda persistem nos deepfakes, aprenderemos a conviver com eles. Ou melhor: seremos treinados pelas máquinas a vê-los como “deeptrues”.
Definitivamente, não me parece que os deepfakes são um buzz passageiro. Devem evoluir e tomar outros formatos, mas o seu “núcleo duro”, imagens produzidas com datasets controlados por sistemas de aprendizado maquínico padronizantes, veio para ficar. Mas e o que fica fora do padrão? Que lugar social poderá ocupar? Seria o deepfake o anúncio de uma nova era da eugenia das imagens?
REFERÊNCIAS
AJDER, Henry, Giorgio Patrini, Francesco Cavalli, e Laurence Cullen. 2019. “The State of Deepfakes: Landscape, Threats, and Impact.” Amsterdam.
BLLOUR, Raymond. 1997. Entre imagens: Foto, cinema, vídeo. Campinas: Papirus.
DUBOIS, Philippe. 1993. O ato fotográfico. Campinas: Papirus.
FONTCUBERTA, Joan. 2007. Datascapes: Orogenesis/Googlegrams. Paris: Photovision.
GOLDEFEIN, Jack. 2020. “Facial Recognition is Only the Beginning.” Public Books. 21 de Janeiro. Acesso em 17 de junho de 2020. https://www.publicbooks.org/facial-recognition-is-only-the-beginning/.
MACK, David. 2018. This PSA About Fake News From Barack Obama Is Not What It Appears. 17 de abril. Acesso em junho de 17 de 2020. https://www.buzzfeednews.com/article/davidmack/obama-fake-news-jordan-peele-psa-video-buzzfeed.
MANOVICH, Lev. 2014. Selfie City. Acesso em 17 de junho de 2020. http://selfiecity.net/.
PANETTA, Francesca, e Halsey Burgund. 2019. In Event of Moon Disaster. Acesso em 17 de junho de 2020. https://moondisaster.org/.
SCHEFFER, Emma. 2018-. “Insta_Repeat.” Instagram. Acesso em 17 de junho de 2020. https://www.instagram.com/insta_repeat/.
STEYERL, Hito. 2014. “Proxy Politics: Signal and Noise.” e-flux. Dezembro. Acesso em 17 de junho de 2020. https://www.e-flux.com/journal/60/61045/proxy-politics-signal-and-noise/.
WANG, Philip. 2019. This Person Does Not Exist. Acesso em junho de 17 de 2020. https://thispersondoesnotexist.com/.