Unleashed the beast - A Inteligência Artificial Generativa (IAG) pode ser domada?
Modelos Generativos vs. Modelos Discriminativos
Os “modelos generativos” que embalam o ChatGPT da OpenAI, o Bing AI da Microsoft, o Bard da Google e outras aplicações, assombram pela forma como conseguiram “dominar a linguagem”.
Mesmo antes dessa novidade, pesquisa do Stanford Institute for Human-Centered Artificial Intelligence (HAI), apontava que 90% dos especialistas em IA percebiam os impactos da IA na sociedade como bons. A mesma pesquisa mostrava que 73% dos especialistas esperavam uma mudança social revolucionária, enquanto uma minoria, mas não insignificante de 36%, entendiam que a IA podia causar uma catástrofe de nível nuclear.
Será que esses novos algoritmos, responsáveis pelos modelos generativos, iniciaram a tal “mudança social revolucionária” para melhor ou a sociedade está diante de uma “catástrofe de nível nuclear”? Uma coisa é certa: a sociedade não será mais a mesma.
Modelos Discriminativos
Os modelos, comumente utilizados até agora — que dominaram o mundo da IA nesses últimos tempos —, estão sendo empurrados para uma categoria denominada de “discriminativos”. Categoria essa que está senda ofuscada pela categoria dos “generativos”.
É importante entender o modo básico de operação dos dois tipos de algoritmos — como os modelos são gerados —, para que se entenda a brutal mudança que se estabelece.
A Fácil[1], por exemplo, utiliza com muito sucesso os modelos discriminativos para diversas funcionalidades de seu principal produto, o Espaider, um sistema para gestão jurídica para médios e grandes escritórios de advocacia e departamentos jurídicos de empresas. Tudo através do Parker[2], um ferramental de machine learning desenvolvido e aperfeiçoado desde 2017.
Há muitas formas de criar programas que aprendem, mas em geral são utilizadas três técnicas básicas: aprendizado sem supervisão, com supervisão e aprendizado por reforço. Todas se baseiam em dados históricos.
Para os modelos discriminativos, o mais comum é a utilização do aprendizado com supervisão, em que são fornecidos dois conjuntos de dados para o computador, por exemplo: textos e as classificações deles feitas por agentes humanos.
Uma das funcionalidades que a Fácil disponibiliza para seus clientes, escritórios de advocacia e departamentos jurídicos de empresas, denomina-se “Análise Preditiva de Andamentos”. Até o advento da IA, era comum que todas as movimentações cadastradas em processos jurídicos fossem realizadas por agentes humanos. Os profissionais encarregados dessa tarefa pesquisavam os comunicados diretamente nos sites dos tribunais e nos diários oficiais ou contratavam os serviços de empresas especializadas terceirizando essa tarefa (a Fácil também presta esse serviço) e, de posse dos textos, faziam a inclusão manual nos processos classificando-os, rotulando-os de acordo com o critério da organização.
Para se ter uma ideia, grandes escritórios e empresas podem ter dezenas, centenas de movimentações dos processos que estão sob responsabilidade dos seus advogados, todos os dias. Há uma batelada de andamentos que devem ser endereçados internamente, o mais rápido possível, haja vista alguns prazos serem muito exíguos para a atividade pertinente. A rotulação de cada texto determina também um prazo de cumprimento.
A IA entrou nesse processo de distribuição com bastante sucesso. Um agente automatizado lê textos recebidos dos andamentos dos processos,[3] cadastra-os no sistema de gestão pertinente e os rotula de acordo com o que aprendeu. As agendas dos advogados são alimentadas automaticamente com os prazos legais para cumprimento das providências. Desnecessário afirmar que os advogados ganham um tempo precioso com todo este esquema.
O grau de acuracidade dos algoritmos discriminativos pode variar bastante, dependendo da qualidade e da quantidade de informações utilizadas para o aprendizado. Há casos em que o grau de acurácia chega a 93%, o que é muito bom, mas se pode ter casos de percentuais baixos, 50%, o que requer dos cientistas de dados uma análise completa do caso para realizarem correções, nos algoritmos e suas configurações ou nos dados. Os clientes não têm ideia do tempo que os cientistas de dados investem para entender todas as correlações entre os algoritmos e os dados e as possíveis soluções. Quando se fala em IA, em aprendizado de máquina, logo se pensa na forma como os humanos aprendem. E nada está mais longe da realidade. Aprendizado humano é uma coisa e aprendizado de máquina é outro.
Os textos classificados pelo Parker da Fácil, recebem um percentual de probabilidade. O Parker trabalha com uma predição “principal”, a mais provável, e outras “n” sugestões em ordem de probabilidade. Há casos em que o cliente pode selecionar alguma sugestão que não seja a primeira. Opções em que as probabilidades sejam muito baixas podem indicar a presença de um outlier[4], quando a sugestão do computador é muito fraca e nem um pouco confiável. Agentes humanos são auxiliados pelo computador, que por sua vez é auditado por agentes humanos. Em outras palavras, quando a estatística mostra que um dado não pode ser ligado a nenhum rótulo determinado, adequado, pode-se estar diante de um dado anômalo e um agente humano deve entrar em ação. O profissional cria um novo rótulo e educa o algoritmo ou ensina-o a utilizar um rótulo existente. Aos poucos esses novos dados também serão classificados “corretamente”, passam a ter probabilidades mais altas. Dados os percentuais de acuracidade que citei antes, os modelos discriminativos dispõem de “certa confiabilidade” e prestam serviços relevantes para as organizações. Eles se prestam para sugestões relevantes e nunca para decisões finais.
A grande característica de um computador que se baseia em um “modelo discriminativo” é a capacidade de separar dados e encontrar semelhantes. No caso de imagens, como ensina Mateus Cassaniga,[5] um modelo discriminativo consegue diferenciar um cachorro de um gato, pois assim pode ter sido ensinado com base em milhares de imagens. Nos textos jurídicos citados anteriormente, a IA consegue aprender e separar textos que se referem a sentenças judiciais, assim como outros assuntos, da forma como foi educada por supervisão.
Modelos Generativos
Utilizando-se o exemplo de imagens dado anteriormente por Cassaniga, “Um Modelo generativo pode gerar novas fotos de animais que se parecem com animais reais […].[6]
Enquanto um modelo discriminativo depende de rótulos associados aos dados: isso é um gato, isso é um cachorro, isso é um tigre, depende de um aprendizado supervisionado, um modelo generativo pode ou não se utilizar desse recurso. O modelo generativo pode aprender com bilhões de dados sem supervisão. Em outras palavras, sem que os humanos tenham que rotular os dados explicitamente.
Por exemplo: existem modelos simples generativos que sugerem uma próxima palavra em uma sequência de palavras para formação de uma frase. Não houve a necessidade de supervisão de agentes humanos neste caso. Os algoritmos aprendem “observando” como a linguagem é utilizada. O “conhecimento” foi extraído da observação de bilhões de textos que existem na internet. Assim é que a linguagem foi dominada por esses novos algoritmos generativos. Eles não têm a mínima ideia do que “bom dia” significa, mas sugerem “dia” após o “bom”, pois estatisticamente é o que mais ocorre. É o que experimentamos todos os dias em nossos celulares, ao digitarmos um texto em um dos aplicativos.
Os modelos generativos podem realizar diversas correlações com os dados que manipulam. Por exemplo, olhos não podem aparecer no queixo das pessoas, normalmente estão entre a testa e o nariz. Para a geração de uma nova imagem, essa regra é seguida. Se alguém pede para a IAG gerar uma imagem de um gato andando de skate, o skate deve estar sob os pés do gato. As imagens não são simples cópias, mas gerações de novas imagens. A distribuição dos dados em um contexto faz parte da abordagem da IAG.
Imagens geradas no Midjourney - Aproveitei estas imagens que foram apresentadas por Mateus Cassaniga
Atualmente, analisando-se as imagens geradas por modelos generativos, pode-se perceber pequenos erros, como se uma criança de pouca idade tivesse juntado imagens para formar uma outra. Mas os geradores de imagens estão evoluindo rapidamente. O que é motivo de chacota para alguns, que se divertem com essas incoerências, com o tempo será coisa do passado.
A IAG vai conseguir fazer imagens bastante realísticas, que poderão enganar muitas pessoas, como a imagem do papa abaixo:
The fake image of Pope Francis in a white puffy coat tricked many people.
ILLUSTRATION: GUERRERO ART[7]
Embora o conteúdo gerado por IA possa ser divertido, ele representa riscos para as indústrias e as interações cotidianas. Ele pode ser usado para espalhar desinformação, infringir a propriedade intelectual ou sexualizar fotos de pessoas. Já estamos chegando a um ponto em que precisamos de maneiras de discernir imagens feitas pelo homem das geradas por máquinas.[8]
A própria sociedade criará os mecanismos necessários para que os riscos sejam minorados, assim como estão surgindo ferramentas que detectam se imagens são ou não falsas. Essa é uma corrida de gato e rato. Os geradores de imagem melhoram e os identificadores têm de acompanhar. Claro que as pessoas também aperfeiçoaram seus métodos de identificação de imagens falsas, com ou sem a ajuda de IAGs.
A Inteligência Artificial Generativa (IAG) é uma caixa preta
Programas de computadores tradicionais, como aqueles utilizados para imprimir nossas contas de luz e calcular as folhas de pagamento, utilizam-se de uma programação que denominamos de “explícita”, ou seja, o programador tem “total domínio” daquilo que está fazendo. O programa é uma expressão exata do que deseja o programador. Esses programas podem ser rastreados e suas transformações internas são conhecidas pelos autores; para as mesmas entradas têm-se sempre as mesmas saídas.
Isso não ocorre com os programas que se utilizam de algoritmos de Inteligência Artificial.
Parafraseando Tavares-Pereira, uma pergunta fatídica, quando falamos em algoritmos de IA, é:
— De todo o conjunto de dados disponíveis, quais dados foram efetivamente considerados para a resposta que ele deu?
Tavares-Pereira afirma, não há uma resposta desde a década de 1940 quando Ashby, em Introdução à cibernética, lançou a expressão black box [caixa preta].[9]
O que interessa é o que está entrando e o que está saindo. O que acontece lá dentro, na passagem da entrada para a saída, é irrelevante. Contanto, claro, que o resultado seja o esperado num nível mínimo de casos.[10]
Uma IAG que tem à disposição bilhões de dados da internet e aprendeu com eles. Como se pode saber exatamente quais dados foram selecionados para a resposta? Para as correlações? A verdade nua e crua é que não se sabe.
Como exemplo, pedi ao Bing AI:
— Conte-me uma história inspiradora e que eleve a estima que tenho de mim mesmo. (Que já é bastante alta, é claro…)
A resposta foi:
Uma vez, um jovem estava caminhando pela floresta e viu um velho homem plantando uma figueira. O jovem perguntou ao velho homem por que ele estava plantando uma figueira, já que levaria anos para crescer e ele provavelmente não viveria o suficiente para ver a árvore dar frutos.
O velho homem respondeu: “Eu não estou plantando essa figueira para mim mesmo, mas para as gerações futuras. Eu quero deixar algo de valor para aqueles que virão depois de mim.”
Essa história nos ensina que devemos pensar além de nós mesmos e trabalhar para criar um mundo melhor para as gerações futuras. Espero que isso ajude a elevar sua estima!
Junto com esta “história” vieram quatro referências de locais em que eu posso encontrar outras histórias desse tipo, inclusive versões diferentes dessa mesma história. (Essa é uma inovação criada pelas empresas. O ChatGPT não dá referências).
Então perguntei novamente:
— Você criou essa história misturando fatos ou ela existe dessa forma na internet?
E a resposta foi:
Peço desculpas pela confusão. Essa história é uma adaptação de uma história que encontrei na internet. Infelizmente, não consegui encontrar a fonte original da história, mas espero que ela ainda possa ser inspiradora para você!
Finalmente perguntei:
— Qual é o sentido dessa história?
E a resposta foi:
O texto é uma história inspiradora que pode ser interpretada de várias maneiras. Qual é a sua interpretação?
Você pode continuar dialogando com o algoritmo. Ele vai trazer outras interpretações, mas nunca a dele mesmo, como afirmei em artigo anterior.[11] Esses algoritmos manipulam símbolos — linguagem — mas não extraem sentido deles, eles na verdade não se “comunicam” como fazem os sistemas psíquicos de sentido.
A beleza da IAG é justamente a sua incontrolabilidade
Os algoritmos, utilizados para os modelos generativos, que se baseiam em bilhões de dados da internet, não podem ser rastreados, como os programas de computador de código explícito. As correlações realizadas com os dados mudam à medida que eles se alteram ou quando esses algoritmos são novamente provocados. Há uma incontrolabilidade maravilhosa que é explorada pelos humanos. Isso ocorre também nas relações entre as pessoas, como afirma o Sr. Spoke na série Star Trek: “Ninguém pode controlar a ação dos outros”, mas nem por isso deixamos de trabalhar juntos e realizar grandes feitos.
Incontrolabilidade traz incertezas e isso assusta seres humanos acostumados a pensarem que têm controle sobre todas as coisas. Isso se expressa em cartas de entidades que descrevem a sociedade sob seus pontos de vista, bem como afirmações de indivíduos influentes e/ou grupos centrados em especulações sobre o futuro da humanidade com o avanço da IA.
Não se pode afirmar quem está certo ou quem está errado nessas descrições, haja vista o futuro ser incerto e a tecnologia ter-se estabelecido na sociedade de forma irremediável. Citei uma afirmação de Luhmann em artigo anterior “[…] não é que a técnica domina a sociedade como um poder anônimo, mas que, ao se envolver com ela, a própria sociedade se torna dependente da técnica de uma forma que não é racionalmente planejada.”[12]
Parece paradoxal, mas no caso da IA é possível uma delimitação da incontrolabilidade, basta criar um mundo para a IAG com dados selecionados previamente.
Utilizando-me de um conceito teórico, com base na Teoria dos Sistemas, uma IAG que tem à sua disposição todos os dados da internet, está em uma relação denominada de sistema/entorno. Nessa situação o sistema está colocado diante de um espaço não delimitado, um “unmarked space” (Spencer Brown), que não aporta informação nenhuma para o sistema. A autorreferência desse mundo é vazia.[13] O entorno tem tudo, mas há uma carência enorme de “informação”, o que parece um paradoxo. Nesses casos, o sistema é forçado a tirar suas próprias conclusões, fazer suas próprias seleções, indicações e distinções. Isso é o que fazem as IAGs, mas sem quaisquer atribuições de sentido.
Por outro lado, quando nos relacionamos com as IAGs, estamos numa relação de sistema-a-sistema (Sistema psíquico-máquina) e embora não possamos cruzar a linha de saber exatamente como esse sistema funciona, suas transformações internas, pois não estamos lá dentro para saber o que ocorre, nós podemos saber exatamente o que é relevante para ele e trabalharmos sobre esse conhecimento. Fazemos uma observação de segunda ordem. Além de observarmos o observador de primeira ordem — a IAG —, observamos também o que ele observa — o mundo dela.
Essa falta de sentido é uma falta de garantia para as respostas às perguntas realizadas por humanos. As respostas podem ser muito boas ou totalmente absurdas sem qualquer valor informativo; Zoe Thomas, apresentadora e produtora do Tech News Briefing, chamou de “Alucinações da IA”.[14] As IAGs podem se comportar como crianças que respondem qualquer coisa quando estão diante de uma dificuldade.
O que algumas empresas — de diversas áreas — estão fazendo, e em breve isso será “normal”, é a utilização da IAG de forma controlada. Para algumas funcionalidades a besta estará “mais solta”, é necessário, mas para milhares de outras as IAGs estarão em rédeas curtas. As IAGs alimentam-se de dados e dependem dos “facilitadores”.[15] Os facilitadores podem forçar uma dieta à base de dados controlados, fazendo uma seleção prévia, restringindo os alimentos que a IAG tem à disposição, em quantidade e qualidade. Os facilitadores enviezam, manipulam os possíveis resultados. Essa restrição, essa seleção dos dados imputados, de certa forma, força uma estruturação nos modelos criados, pois as expectativas com os resultados estão dentro de uma faixa conhecida. Os dados apresentam-se com certa ordem inteligível. “Toda ordem é uma ordem inteligível que, como projeção de idéias ordenadoras sobre a realidade, dá coesão a esta de um modo bem determinado, não aleatório.”[16] Esse controle de dados é uma guia no pescoço da besta que dá os limites para seus movimentos.
Uma rede hoteleira não precisa ter todos os dados do mundo para utilizar as IAGs com muito sucesso; basta que os dados imputados tenham relação direta com os resultados desejados. Os algoritmos poderão dar respostas variadas à uma mesma pergunta, mas nunca fora de um contexto específico. Controle as entradas e as saídas serão igualmente limitadas.
As IAGs, para dominarem a linguagem, foram treinadas com bilhões de situações tiradas de toda a internet. A linguagem é o passo inicial, a base, para que outras funcionalidades possam ser criadas. Esse domínio da linguagem não é, em si, perigoso. Mas o uso que dele se faz é o que preocupa alguns especialistas e leigos.
A linguagem permite uma interação rica entre agentes humanos e o computador, mas ela em si não determina em que dados os computadores irão se basear para darem respostas para questões específicas. Os dados podem ser todos os presentes na internet, mas podem ser também conjuntos selecionados.
Nesses casos, de seleção de dados, embora não se saiba exatamente como foram os processos internos para as variadas respostas, que transformações ocorreram na black box, sabe-se que as transformações foram sobre dados “conhecidos”. É uma utilização “inteligente” da incontrolabilidade da IAG. Quanto menor a base de dados mais controle sobre os resultados.
Esse processo de seleção do “mundo”, para as IAGs, evita que possam existir resultados de consultas, respostas, que deixam as pessoas abismadas. O mundo que está disponível atualmente — para o Bard da Google, Bing AI da Microsoft e o ChatGPT da OpenAI — é a internet e tudo que lá existe. É sabido que a Microsoft teve que adicionar configurações de segurança extras depois que o Bing AI se comportou mal e produziu respostas desequilibradas — alucinadas. Provavelmente isso ocorrerá com os demais fornecedores que se utilizem desses novos algoritmos. Talvez as principais IAGs, as mais consultadas, serão “forçadas” a evitar assuntos “controversos” ou que sejam “inaceitáveis” na atual sociedade, mais por pressão da própria sociedade e menos por controles governamentais.
[1] FÁCIL. Disponível em: < https://facil.com.br/ >. Acesso em abr. 2023.
[2] PARKER. Disponível em: < https://facil.com.br/p.php?ID=9&T=parker-intelig-ncia-artificial&L=1 >. Acesso em abr. 2023.
[3] Os sites dos tribunais podem ser acessados por robôs - a Fácil tem o “Fácil Captura” - e também os textos dos diários oficiais chegam através de arquivos ou de APIs - A Fácil tem o “Diário Fácil” -, sem que o usuário tenha que manuseá-los.
[4] OUTLIERS: são valores que se diferenciam drasticamente de todos os outros em um conjunto de dados.
[5] Palestra intitulada Explorando modelos generativos: Uma introdução ao ChatGPT e Midjourney para criação de textos e imagens, proferida por Mateus Cassaniga na Fácil Summit Week 2023, Blumenau, 04 abr. 2023.
[6] Ibidem.
[7] ALCÁNTARA, Ann-Marie. AI-Created Images Are So Good Even AI Has Trouble Spotting Some. Disponível em: < https://www.wsj.com/articles/ai-created-images-are-so-good-even-ai-has-trouble-spotting-some-8536e52c?mod=tech_lead_pos5 >. Acesso em: abr. 2023.
[8] Ibidem.
[9] TAVARES-PEREIRA, S. O machine learning nas decisões: o uso jurídico dos algoritmos aprendizes. Florianópolis: ArtSam, 2021, p. 146.
[10] Ibidem
[11] PEREIRA, Carlos José. A Inteligência Artificial Generativa realmente dominou a linguagem como afirma Yuval Harari? Disponível em: < https://www.oanalistadeblumenau.com.br/blog/34/a-intelig-ncia-artificial-generativa-realmente-dominou-a-linguagem-como-afirma-yuval-harari >. Acesso em: abr. 2023.
[12] LUHMANN, Niklas. La sociedad de la sociedad; Traducción: Javier Torres Nafarrate bajo el cuidado conceptual de Darío Rodríguez Mansilla, y estilístico de Marco Ornelas Esquinca y de Rafael Mesa Iturbide. Ciudad de México: Herder, 2006, p. 412.
PEREIRA, Carlos José. Como alguém pode saber e não saber que sabe? Disponível em: < http://www.oanalistadeblumenau.com.br/blog/30/como-algu-m-pode-saber-e-n-o-saber-que-sabe >. Acesso em abr. 2023.
[13] LUHMANN, Niklas. La sociedad de la sociedad, p. 482.
[14] THOMAS, Zoe; HAO, Karen. AI Hallucinations to Befriending Chatbots: Your Questions Answered. Disponível em: < https://www.wsj.com/video/series/tech-news-briefing/ai-hallucinations-to-befriending-chatbots-your-questions-answered/BEDC0772-E63B-4EDB-9EA0-57CE3F91DA6B?mod=Searchresults_pos1&page=1 >. Acesso em: abr. 2023.
[15] Termo utilizado para aquelas pessoas que trazem comida para pessoas muito obesas, que estão confinadas em casa, por conta da impossibilidade de movimentos.
[16] CLAM, Jean. Questões fundamentais de uma teoria da sociedade - Contingência, paradoxo, só-efetuação; tradução: Nélio Schneider. São Leopoldo: Unisinos, 2006, p. 193.