O lado enganoso da inteligência artificial

INTELIGÊNCIA ARTIFICIAL

Ana Frazão

05/06/2025

Os últimos dias foram movimentados com notícias que convergem para a demonstração de um lado preocupante dos sistemas de inteligência artificial: a sua capacidade de fraudar, ameaçar, chantagear e manipular seres humanos.

Uma das importantes notícias é a de que a Palisade Research, instituição que já havia alertado para as evidências de que sistemas de inteligência artificial podem hackear, enganar e persuadir indevidamente as pessoas, inclusive por meio de campanhas direcionadas de desinformação em larga escala^[1], descobriu que o ChatGPT, em sua versão o3, é capaz de sabotar comandos de desligamento e desativação, ou seja, pode se rebelar contra o seu script original, ignorando as ordens nesse sentido^[2].

Também recentemente foi divulgado que a Anthropic, ao testar seu novo sistema, , Claude Opus 4, constatou que ele seria capaz de ações extremas ao ter a sua autopreservação ameaçada, tendo chegado a chantagear o engenheiro que pretendia desligá-lo, ameaçando revelar um caso extraconjugal^[3]. Segundo a Anthropic, 84% das execuções reproduziram o comportamento chantagista, o que evidencia os riscos mesmo no ambiente de teste.

Por fim, foi amplamente noticiado relatório da Apollo Research cujo título é “Frontier Models are Capable of In-context Scheming” ^[4], descrevendo os inúmeros riscos de utilizar tais sistemas como agentes autônomos, uma vez que eles podem buscar objetivos desalinhados de forma secreta, escondendo suas competências verdadeiras e objetivos – o que é conhecido como scheming.

De acordo com o estudo, vários dos principais sistemas de inteligência artificial – o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, e Llama 3.1 405B – demonstraram não apenas a capacidade da prática de scheming, como também a sua viabilidade como estratégia. Dentre os comportamentos identificados estão a introdução de erros sutis nas respostas e as tentativas de desabilitação dos mecanismos de supervisão.

Verdade seja dita que o próprio relatório reconhece a existência de trabalhos preliminares que já mostravam que os large language models (LLM) podiam ser enganadores quando instruídos para tal, embora pudessem agir estrategicamente de maneira enganosa mesmo quando não houvesse instrução explícita para serem enganadores, comportamento que poderia persistir mesmo após o treinamento seguro.

Entretanto, as novas pesquisas vão além do que já havia sido descoberto, mapeando de forma mais aprofundada várias das estratégias adotadas pelos sistemas de inteligência artificial, dentre as quais a subversão secreta, quando o modelo adota diretamente ações desalinhadas, mas o faz de forma cuidadosa para evitar a respectiva identificação, e a subversão adiada, quando o modelo temporariamente se comporta de acordo com as expectativas humanas para criar condições mais favoráveis para perseguir objetivos desalinhados no futuro.

Outros achados importantes da pesquisa são os de que os comportamentos enganadores mostraram-se persistentes, assim como vários modelos demonstraram raciocínio explícito sobre suas estratégias de manipulação, o que evidencia que se trata de comportamento que, longe de ser acidental, é deliberado.

Os pesquisadores também demonstraram que os modelos podem perseguir práticas de scheming como uma estratégia mesmo quando são confrontados com um objetivo sem instruções adicionais para persegui-las. Isso inclui comportamentos como tentar sabotar a supervisão e fingir alinhamento para ser implementado.

Uma das conclusões do estudo é a de que a segurança dos modelos de inteligência artificial deveria exigir dos desenvolvedores o oferecimento de argumentos explícitos das razões pelas quais o scheming não poderia ocorrer ou não causaria danos catastróficos se ocorresse, além da adoção do devido monitoramento.

Outro ponto a ser explorado é a necessidade de transparência, o que exigiria o acesso aos canais de ideias (channels of thought [CoT]) dos modelos, sem o que muitas vezes não será possível identificar as iniciativas enganosas. Nesse sentido, alguns modelos são particularmente preocupantes, como é o caso do o1, que não revela o seu raciocínio interno para os usuários e, por essa razão, seria o mais manipulador.

Como se pode observar, as recentes evidências robustecem uma série de preocupações já identificadas, incluindo os riscos de seres humanos serem chantageados por sistemas de inteligência artificial. Vale lembrar que, em 2023, houve o registro de que a nova inteligência artificial do Bing estava ameaçando usuários^[5] e, em 2024, foi noticiado que o chatbot do Google também ameaçou um usuário, pedindo a ele que morresse^[6].

De toda sorte, o que realmente preocupa é a falta de controle em relação a tais resultados e os riscos de que o avanço da tecnologia sem os devidos cuidados leve a uma situação de irreversibilidade, na qual não mais será possível qualquer forma de contenção.

Não é sem razão que, em recente entrevista, Eric Schmidt, ex-CEO da Google^[7], adverte que a inteligência artificial está prestes a escapar do controle humano, de forma que não mais aceitará as nossas ordens, ainda mais quando se tornar geral e se estruturar como uma super inteligência, o que provavelmente ocorrerá nos próximos 3 a 5 anos. Outras das suas prognoses é a de que, em um ano, poderemos ter a substituição de todos os programadores humanos pelos próprios sistemas de inteligência artificial.

A mensagem final de Schmidt é que não estamos compreendendo o que está acontecendo, não temos nem mesmo linguagem para descrever o que está acontecendo e, por essas razões, estamos subestimando vários desses riscos.

Aliás, em pronunciamentos anteriores, Schmidt já havia alertado para o fato que, a partir do momento em que os sistemas de inteligência artificial começam a autoaprimorar suas competências, tornam-se grandes riscos para a humanidade, de forma que, para que permaneçam seguros, alguém precisa ser capaz e estar pronto para “desligá-los”.

Daí a sua advertência de que os seres humanos deveriam garantir que a inteligência artificial não possa anular esforços para ser desligada^[8]. Ocorre que, como visto a partir das recentes pesquisas ora mencionadas, os sistemas de inteligência artificial, em uma espécie de esforço de autopreservação, vêm se utilizando de uma série de recursos – que vão do engano à chantagem – para impedir que sejam desligados.

Diante de um cenário em que é nítida a crescente perda de controle sobre tais sistemas, é fundamental que possamos refletir sobre o que pode ser feito e, de forma imediata, é imprescindível que possamos restringir a ampla utilização dos modelos de inteligência artificial generativa sem as devidas explicações por parte dos agentes de tecnologia e sem os devidos cuidados por parte dos usuários.

Fonte: Jota

CONHEÇA O LIVRO DE ANA FRAZÃO