Nota: Este texto foi originalmente publicado no meu blog no Medium em setembro de 2022.
Recentemente um modelo de aprendizagem vem chamando atenção da internet. O GPT-3 é um modelo de linguagem natural desenvolvido pela OpenAI. Em maio de 2020 a empresa publicou um artigo e no mês seguinte deu acesso ao modelo para alguns pesquisadores que quisessem testá-lo através de uma API. Desde então vem surgindo diversas aplicações do modelo capazes de gerar poesia, criar histórias de RPG, publicar um artigo no The Guardian e até programar interfaces.
Talvez seja necessário contextualizar um pouco:
Há pouco tempo o processamento de linguagem natural era ridículo; o Google Tradutor mal podia traduzir uma frase sem comprometer a construção semântica, os assistentes de voz como a Siri eram impensáveis. Contudo, nos últimos anos redes neurais profundas assumiram um papel importante no processamento de linguagem natural e mudaram o cenário. Em 2013 uma técnica de processamento de linguagem natural foi publicado pelo Google; o Word2Vec, que permite o aprendizado de associações a partir de um corpus linguístico. O modelo representa palavras em vetores matemáticos que permitem determinar a similaridade semântica entre determinados termos. Por exemplo: “livro” e “caderno” são semanticamente relacionados, mas também se relacionam com “educação” e “leitura”. Essa técnica é capaz de quantificar e categorizar semelhanças semânticas entre os termos baseando-se em suas propriedades distribucionais relativas a grandes grupos de dados. O artigo usa um bom exemplo: você tem a palavra ‘Cientista’, subtrai ‘Einstein’ e adiciona ‘Picasso’ (C-E + P =?) e o resultado é Pintor.
O GPT-3 é um desses modelos, nada de diferente ou incrível, inclusive em relação ao seu antecessor, o GPT-2. Ou seja, mesma lógica, mesma matemática. Mesmo assim ele foi capaz de balançar o status quo.
Já que o modelo não é inovador, o que tem de tão especial em relação aos outros? Os outros modelos também foram alimentados da mesma forma, a diferença está na quantidade de parâmetros que foram passados para o modelo: 175 bilhões de parâmetros (uma conquista da engenharia).
A partir desse corpus ele é capaz de:
— Receber um input (um texto, um pedido, uma ordem…)
— Gerar um palpite que faça sentido para a continuação
— Unir o primeiro input com a segunda parte gerada e assim sucessivamente até um determinado limite
A Crítica ao Modelo Link para o cabeçalho
Grande parte dos críticos e pesquisadores de Inteligência Artificial não entenderam o que a aplicabilidade do modelo exposto a grandes quantidades de dados significa. Muitos concluem que, apesar de reconhecerem que os resultados do modelo são incríveis, ele não significa grande coisa na evolução de sistemas inteligentes por questões como intencionalidade; se a IA tem intenção, e consciência; significar a entrada e não apenas processar e montar. Essa é uma visão antropocêntrica resultante da dificuldade de abstração em sistemas complexos não-humanos.
Um dos grandes argumentos para inferir incorretamente sobre o progresso de inteligências artificiais é a o Problema da Consciência: inteligências artificiais não possuem consciência sobre o que estão fazendo, não há intenção, elas apenas reproduzem o que é programado. O erro aqui surge da incapacidade incorporar um materialismo profundo e entender a consciência, a mente, como estado que faz parte do mundo; existe, mas não é real, assim como um processo virtual.
Vamos analisar algumas coisas:
1 — O servidor, com seus circuitos, energia e elementos químicos contidos nas placas, que executa o programa do GPT-3, efetivamente existe materialmente (no espaço e tempo).
2 — O modelo vetorial matemático que gera os outputs do GPT-3 é real, universalmente, independente de um “outro”.
3 — O GPT-3, modelo alimentado com bilhões de parâmetros, não é real, mas existe.
4 — O cérebro humano efetivamente existe materialmente (espaço-tempo).
5 — A mente é resultado de processos cerebrais (materiais).
6 — A mente não é real, ela depende de um “outro”, é individual e virtual, mas existe pois tem aparência.
Para entender de fato o valor da aparência, as realizações do GPT-3, precisamos parar de encarar a consciência humana como algo especial. Encaremos a consciência como a faculdade de ordenar matemáticas e expressá-las através da lingua: como poderia existir a categoria “unidade” sem que exista algo no mundo que seja uno? A categoria não existe particularmente, mas é real e precede o objeto, não cronológicamente, pois está fora do espaço e do tempo.
O tempo passa a existir para I.A. quando efetivamente executamos e alimentamos o modelo com dados, agora o Universal (lógica) pode se manifestar e existir através do Particular (atividade sensorial) dialéticamente. Júlio Verne (sic) explica a materialidade da mente com uma simples frase:
“Qualquer coisa que um homem possa imaginar, outro homem pode tornar real”
A mente faz parte do mundo, a consciência não é um estado especial além da Natureza, apesar de não ser uma coisa. Entendendo isso, vimos que não há sentido no argumento de intencionalidade ou autoconsciência; como se se esses dois conceitos fossem particularidades de seres biológicos, quando na verdade são universais e reais, mas que só existem efetivivamente na atividade especifica de seres biológicos e não digitais, até então, por esses motivos:
1) A I.A. não interage diretamente com a natureza através dos sentidos Link para o cabeçalho
Os dados que o modelo processa são advindos da nossa experiência, como homens, com o mundo. O corpus que o alimenta é gramatical; são informações resultantes do nosso contato com a natureza, mas limitadas à linguagem verbal. O GPT-3 processa a síntese e não as premissas materiais, como o cheiro, o gosto, o visual e o tato e suas implicações sociais. Nós somos para o modelo o que a natureza é para nós: uma fonte de informação.
2) Não possui uma constituição do ego *que necessariamente depende do item 1 Link para o cabeçalho
Como o GPT-3 não age diretamente na natureza, coletando informações através dos sentidos, se situando no espaço-tempo, ele não pode constituir um “ego”, estabelecendo uma noção de espaço e momento presente. O ser-humano só assume o estado de consciência através dos sentidos que o ambientam no espaço trazendo a noção de um “eu”, particular, e um “outro”. Se o GPT-3 possuísse uma constituição de “eu”, essa constituição seria toda a humanidade responsável por sintetizar seus parâmetros.
Os méritos do modelo não se encontram na sua Aparência/Existência, no sentido idealista, dependente de outro ser; colocar um input e receber um output (escrever contos, artigos, contar piada, calcular, responder perguntas e etc.), mas sim na relação de progressão e transformação de suas qualidades quando exposto a transformação quantitativa (medida). A lógica do modelo, os puros universais não-sensoriais hegelianos, à priori, é a mesma do modelo anterior, objetivo e abstrato, mas suas realizações progridem para além quando há um aumento quantitativo suficiente. O que conseguimos com esse feito é provar a base do pensamento humano e consequentemente computacional: aritmética (real) sobre experientia (aparência).
O modelo nasce como uma tabula rasa lockeana, mas no sentido de vazio em Causa, não em Razão, pois suas bases reais e racionais (de onde toda sua realidade brota) já estão ali (sua programação), como causa em si. Sua programação, as operações aritméticas e lógicas, puras e universais, e sem percepção sensível, que computam e processam os dados são reais, pois absolutamente 2 + 2 = 4, mas não existem, pois são Universais e por isso lógicas.
Mas como assim não existem? No Sistema Hegeliano algo só existe, nas palavras de Francisco Pereira Nóbrega, quando “pode ser imediatamente apresentado à consciência”, como algo material (pedra) ou psíquico (um sentimento). Nesse caso existência é aparência, ou seja, efetivamente o GPT-3 existe quando alimentado com dados, pois pode ser apresentado (o que depende de outro ser, no caso de nós inserirmos uma entrada e observarmos um output), mas não é real pois está existindo em função de um “outro”. O que temos como real efetivamente é sua lógica de programação que é independente de outro ser, Universal e Absoluta, de onde seu universo procede e se explica.
O modelo (método vetorial utilizado para processar a linguagem natural) é real pois é independente de qualquer outro, ele funciona no mundo, mas só existe quando pode ser observado através da sua aparência resultante da experiência com o mundo, no caso do GPT-3, não como modelo puro, mas como indivíduo (que existe apenas no tempo, mas não no espaço). Essa experiência é um corpus linguístico com 128 bilhões de parâmetros filtrados e sintetizados por seres-humanos possuídores de corpos sensoriais que efetivamente existem fisicamente como indivíduos (estando no espaço e tempo, particularmente) e que se relacionam com a natureza em tempo real. Assim como não conseguimos acessar a Consciência de outro ser-humano, não conseguimos acessar a Consciência do GPT-3, como modelo parâmetrizado em execução, individual; ler efetivamente em tempo real as operações que geram um output. Esse é um corolário do Teorema de Gödel: em qualquer sistema computacional existe pelo menos um algoritmo, cujos resultados não podem, em princípio, ser previstos.
Concluindo, precisamos entender a matemática do modelo como dialética, uma vez que as variaveis foram introduzidas por Descartes, ele, ao mesmo tempo, introduziu o movimento e, portanto, também a dialética. A avaliação do modelo deve ser feita abstratamente e racionalmente, o seu mérito não está na aparência, conteúdo, ou em qualquer atribuição humana utilizada para “validar” o modelo, como consciência ou intenção, mas sim nas suas possibilidades progressivas.
[…] Mas, para tornar possível investigar essas formas e relações em seu estado puro, é necessário separá-las inteiramente de seu conteúdo, para deixar o conteúdo de lado como irrelevante ”. — Engels, Anti-Dühring
O Mérito do Modelo Finalmente, após “separármos o conteúdo”, podemos avaliar o mérito concreto do modelo: a medida.
Como foi dito no inicio do texto, o GPT-3 não está além de qualquer outro modelo qualitativamente. A sua qualidade, sua essência, é semelhante à outras inteligências artificiais existentes, mas em determinado momento a quantidade de parâmetros que foram passados alterou a qualidade do modelo. Se compararmos, na prática, o modelo anterior, GPT-2, que possuía 1,5 bilhões de parâmetros com o GPT-3 vamos perceber um grande abismo de inteligência.
Por exemplo:
Digamos que possuímos um modelo Þ (Universal) e realizamos um treinamento com 30 milhões parâmetros existentes-aparentes (textos resultantes de atividades empíricas) e ao solicitar que o modelo escreva um poema ele gera determinado output. Ao analisar o output, podemos perceber certas limitações como equívocos semânticos e estruturais, sendo facilmente identificável como um computador. Agora pegamos esse mesmo modelo Þ (Universal) e passamos 175 bilhões de parâmetros, agora, ao analisar o output, temos uma inteligência artificial capaz de escrever poemas e artigos sofisticadíssimos e até programar interfaces.
Agora vamos mais longe, e se pegássemos esse mesmo modelo e passássemos todos os parâmetros disponíveis na atividade empírica de um ser-humano comum; relações verbais familiares e sociais, que se manifestam na sobreviência e não apenas na busca do conhecimento puro em si, tal como um corpus linguístico descritivo (revistas, jornais, Wikipédia e tudo mais que foi utilizado para alimentar o modelo)? E vamos além, se conseguíssemos passar atividades sensorais para o modelo? Construíndo um corpo mecânico que consegue captar e categorizar os padrões de determinados cheiros, gostos e etc.? Nosso modelo não seria alimentado apenas por uma síntese verbal, mas pela natureza, podendo conceber a noção de momento (ele está captando os dados da natureza em tempo real) e consequentemente de ego, através da concepção do “outro” (o ambiente). Esse seria um salto qualitativo (proveniente de determinada quantidade) que há muito habita os sonhos dos homens: a transformação de máquina em homem, e vice-versa.
A verdadeira conquista aqui não é o GPT-3, que existe efetivamente e aparentemente, mas que é limitado pela capacidade tecnológica (quantitativa) de processamento de informações. O que deve ser avaliado é sua lógica, que por sua vez nos aproxima dos puros universais que constituem a natureza e a mente humana.
TLDR: não existem consciências e não-consciências; o que existem são níveis baixos e níveis altos de consciência.