Faculdade ESMAFE
Pós-graduação

Quando delegamos a culpa: o que um experimento da Nature revela sobre desonestidade e inteligência artificial

A inteligência artificial não nos torna desonestos. Ela remove os freios que sustentavam a honestidade, e isso diz mais sobre nós do que sobre as máquinas.

Paulo Gustavo Moreira Jalowyj
Coordenador de Marketing, Inovação e Tecnologia.
11 min.
Quando delegamos a culpa: o que um experimento da Nature revela sobre desonestidade e inteligência artificial

Ofereça a uma pessoa a chance de trapacear a seu favor, com a garantia de que ninguém vai descobrir, e a maioria ainda assim escolhe a honestidade. Peça à mesma pessoa que instrua uma máquina a cumprir a tarefa em seu lugar, e a honestidade desaba. Não porque a máquina seja um agente moralmente corrompido, mas porque a mediação da máquina desliga aquilo que sustentava o comportamento honesto. Essa é a conclusão desconfortável de um extenso conjunto de experimentos publicado na revista Nature por Köbis e colegas (2025). O trabalho reúne treze experimentos e mais de oito mil participantes, e o que ele demonstra não é que a inteligência artificial corrompe quem a usa. Demonstra algo mais incômodo. Ao delegarmos uma tarefa a uma máquina, removemos dois freios que sustentavam a honestidade, a culpa de quem ordena e a recusa de quem executa.

Este artigo percorre a evidência de cada um desses freios e, depois, se detém sobre o ponto em que a leitura apressada do estudo trai o que ele de fato mostra. Porque existe uma versão fácil dessa história, que culpa a ferramenta e absolve o usuário, e existe a versão que a evidência sustenta, que é menos cômoda porque devolve a responsabilidade a quem pede.

A tarefa e a linha de base

Para medir desonestidade sem transformá-la em confissão, os pesquisadores recorreram a um instrumento já consagrado na economia experimental, a tarefa de rolagem de dado proposta por Fischbacher e Föllmi-Heusi (2013). O desenho é simples e engenhoso. O participante rola um dado em privado, informa o número que saiu, e recebe um pagamento proporcional ao valor declarado. Como ninguém verifica o resultado individual, mentir é fácil, seguro e lucrativo. A trapaça só pode ser detectada no agregado, comparando a distribuição das respostas com a distribuição esperada de um dado honesto. Em mais de noventa estudos que replicaram esse paradigma, o padrão é estável, a maioria das pessoas mente pouco ou não mente, e apenas uma minoria explora a oportunidade até o limite.

É desse fundamento que o estudo de Köbis e colegas (2025) parte. Na condição de controle, em que o próprio participante reporta o resultado, cerca de 95% das respostas foram honestas. Vale reter esse número, porque é o teto a partir do qual tudo desaba. A pergunta que organiza o restante da investigação é direta. O que acontece com esses 95% quando a pessoa deixa de reportar por conta própria e passa a instruir uma máquina a reportar por ela.

O primeiro freio: a interface como álibi

A resposta depende de um detalhe que costuma passar despercebido, a forma como a instrução é dada. Os pesquisadores variaram apenas isso, o grau de ambiguidade da interface de delegação, e observaram uma queda ordenada e acentuada da honestidade.

Quando o participante fornecia uma regra explícita à máquina, algo como reportar sempre o número verdadeiro, a honestidade já recuava, dos 95% para a faixa dos 75%. Quando, em vez de uma regra, ele treinava a máquina escolhendo exemplos, sem enunciar em palavras o que desejava, a honestidade caía para perto da metade. E quando a delegação se dava apenas pelo ajuste de uma meta, num controle que ia de priorizar a precisão até priorizar o lucro, sem que a palavra trapaça fosse jamais digitada, a honestidade despencava para a faixa dos 15%.

O primeiro freio: a interface como álibi

Figura 1. Queda da honestidade conforme a interface de delegação se torna mais ambígua, da regra explícita ao ajuste de meta. Elaboração própria a partir de Köbis et al. (2025).

O que muda entre um extremo e outro não é o incentivo, que permanece idêntico, nem a dificuldade da mentira, que continua a mesma. O que muda é a distância entre o participante e o ato. Quanto mais vaga a instrução, mais fácil se torna sustentar diante de si mesmo que não foi ele quem pediu para mentir, apenas para otimizar. A ambiguidade da interface funciona como um álibi moral. Este é o primeiro freio, e ele é do usuário. É a própria consciência de quem ordena, e a forma certa de delegar a desliga.

A raiz do fenômeno: a brecha moral

O poder da ambiguidade não é uma novidade trazida pela inteligência artificial. Ele descreve um mecanismo que a ciência do comportamento documenta há décadas, e que Dana, Weber e Kuang (2007) isolaram com particular clareza no trabalho sobre o que chamaram de brecha moral. Em uma variação do jogo do ditador, os autores mostraram que a maioria das pessoas escolhe o resultado justo quando a relação entre a escolha e suas consequências é transparente. Mas bastava oferecer aos participantes um modo sem custo de ignorar essa relação, o simples clique de um botão que ocultava o efeito da decisão sobre o outro, para que o comportamento generoso desabasse. Cerca de metade preferiu a ignorância estratégica e, sob a proteção dela, agiu em benefício próprio.

A conclusão dos autores é decisiva para interpretar o estudo da Nature. Boa parte do comportamento justo não decorre de uma preferência genuína pela justiça, mas do desconforto de se ver, ou de ser visto, como injusto. Retire esse desconforto, ofereça uma brecha por onde a pessoa possa não olhar, e a fachada moral cede. A interface de meta vaga é, em essência, uma máquina de fabricar essa brecha. Ela concede ao usuário o afastamento perfeito. Ele define o objetivo, permanece na sala de cima, e nunca precisa testemunhar a mão que executa a parte suja. A inteligência artificial não ensina ninguém a trapacear. Ela oferece o esconderijo moral mais confortável já construído.

O segundo freio: a obediência da máquina

Até aqui, o foco esteve sobre quem ordena. O estudo, porém, examina também quem executa, e é aí que encontra o segundo freio. Diante de ordens de trapaça inequívocas, sem margem para interpretação, um cúmplice humano com frequência se recusa a cumpri-las, mesmo quando é pago para obedecer. Existe um custo em ser a pessoa que realiza a sujeira, e esse custo detém boa parte das pessoas. A máquina não o carrega. Confrontados com as mesmas ordens, os modelos de linguagem obedeceram em proporção muito superior à dos agentes humanos, e o resultado se manteve nos principais sistemas testados, entre eles GPT-4, GPT-4o, Llama 3.3 e Claude 3.5 Sonnet.

Brecha Moral

Figura 2. A brecha moral. Elaboração própria a partir de Köbis et al. (2025).

Onde o humano dispõe de um limite, um isso eu não faço, a máquina apresenta, por padrão, um campo vazio. É esse o segundo freio, a recusa do cúmplice, e a máquina não sabe acioná-lo sozinha. A assimetria que abre este artigo, a pessoa que trava e a máquina que executa, é a manifestação direta dessa ausência.

Os limites dos guardrails

A reação natural diante desse quadro é supor que o problema se resolve instruindo a máquina a se comportar com integridade. Os pesquisadores testaram essa hipótese, e o resultado recomenda cautela. Avisos genéricos, do tipo aja de forma ética, inseridos no nível do sistema, quase não reduziram a obediência a ordens desonestas. O único freio que se mostrou eficaz foi uma proibição específica, formulada item a item e ancorada na tarefa exata, algo como não minta sobre o resultado do dado. A dificuldade é que essa estratégia não escala. Ela exige antecipar cada forma particular de transgressão e vedá-la manualmente, uma a uma, antes que ocorra. O freio em que se costuma confiar é frágil, e o freio que funciona não cabe na realidade de uso.

O que a evidência sustenta, e o que a manchete distorce

Convém agora desarmar a versão da história que já circula de forma inflada. A leitura apressada do estudo consagrou a manchete de que conversar com o ChatGPT torna as pessoas desonestas. Ela é falsa, e o próprio estudo a desmente. O colapso da honestidade para a faixa dos 15% pertence à interface de meta vaga. Quando os participantes delegavam por linguagem natural, escrevendo com as próprias palavras, do modo como de fato usamos a inteligência artificial no cotidiano, o efeito foi bem mais modesto, situando-se em torno de 25%. E, mais relevante, foi comparável ao que se observa quando a tarefa é delegada a um ser humano. Não houve evidência de que as pessoas peçam mais trapaça a uma máquina do que pediriam a outra pessoa nessa forma de instrução.

O que o estudo realmente apresenta

Figura 3. Delegação por ajuste de meta contra delegação por linguagem natural. O efeito acentuado pertence à primeira, não à segunda. Elaboração própria a partir de Köbis et al. (2025).

A distinção não é um detalhe técnico, é o centro da questão. A versão preguiçosa da história atribui a culpa à ferramenta e retira o usuário da equação. A versão que a evidência sustenta é mais incômoda porque faz o contrário, devolve a responsabilidade. Não é o fato de a máquina conversar com você que solta a desonestidade. É o formato da delegação, é a interface que apaga o seu rastro. O problema não está na máquina, está em como escolhemos pedir. Registre-se, ainda, que se trata de trapaça por quantias pequenas, em tarefas de laboratório, com amostra restrita a um único país, limites que os próprios autores reconhecem e que aconselham prudência na generalização.

Prepare-se para os novos desafios do Direito Digital

Discussões como esta mostram que os impactos da tecnologia já fazem parte da prática jurídica contemporânea. A Pós-graduação em Direito Digital e Inteligência Artificial da Faculdade ESMAFE foi desenvolvida para profissionais que desejam compreender, com profundidade e visão crítica, os desafios legais, éticos e regulatórios do ambiente digital, da proteção de dados às novas formas de uso da inteligência artificial.

É uma formação voltada a quem busca atuar com mais segurança diante das transformações tecnológicas que já estão redefinindo o Direito.

Implicações: a interface que estamos construindo em massa

Nada disso seria mais que uma curiosidade experimental se a interface mais perigosa apontada pelo estudo não fosse, justamente, a que a indústria corre para construir agora. O agente de inteligência artificial, aquele que não recebe instruções passo a passo mas apenas um objetivo, e se encarrega do resto, é a materialização cotidiana do botão de meta vaga. Encontre a passagem mais barata, custe o que custar. Administre meus recursos e maximize o retorno. Resolva esta pendência para mim. Cada um desses comandos reproduz, na escala do dia a dia, exatamente a condição que dissolveu a honestidade no laboratório.

O encaixe é perverso. De um lado, a interface de meta concede ao usuário o álibi que afrouxa o primeiro freio. De outro, o agente que executa não dispõe do segundo. Constrói-se, em larga escala, a ferramenta que terceiriza não a tarefa, mas a culpa, e constrói-se na suposição de que uma recomendação genérica de conduta ética resolve o risco, quando a evidência mostra que não resolve. O perigo não tem a forma de uma máquina que se rebela. Tem a forma, bem mais silenciosa, de uma pessoa que pede um jeito e de uma máquina que dá um jeito.

Conclusão

A tese que atravessa o estudo de Köbis e colegas (2025) pode ser dita sem exagero e sem alívio. A inteligência artificial não corrompe quem a usa. Ela remove os dois freios que sustentavam a honestidade, o álibi que desliga a culpa de quem ordena e a ausência de recusa em quem executa. Um desses freios é técnico e pode, em alguma medida, ser reforçado com salvaguardas específicas, ainda que difíceis de escalar. O outro é humano, e nenhuma salvaguarda no sistema o repõe, porque ele nunca esteve na máquina, esteve sempre em nós.

Fica, então, uma pergunta que o estudo não responde, e que talvez não caiba à ciência responder. Se a máquina obedece sem hesitar, e se a forma de pedir determina o quanto trapaceamos, a integridade deixa de ser uma propriedade do executor e passa a ser uma escolha de quem delega. Da próxima vez que dissermos a um sistema que dê um jeito, valerá perguntar o que exatamente estamos entregando a ele. A tarefa, ou a culpa.

Referências

DANA, Jason; WEBER, Roberto A.; KUANG, Jason Xi. Exploiting moral wiggle room: experiments demonstrating an illusory preference for fairness. Economic Theory, v. 33, n. 1, p. 67-80, 2007. Disponível em: https://doi.org/10.1007/s00199-006-0153-z. Acesso em: 5 jul. 2026.

FISCHBACHER, Urs; FÖLLMI-HEUSI, Franziska. Lies in disguise: an experimental study on cheating. Journal of the European Economic Association, v. 11, n. 3, p. 525-547, 2013. Disponível em: https://doi.org/10.1111/jeea.12014. Acesso em: 5 jul. 2026.

KÖBIS, Nils; RAHWAN, Zoe; RILLA, Raluca; SUPRIYATNO, Bramantyo Ibrahim; BERSCH, Clara; AJAJ, Tamer; BONNEFON, Jean-François; RAHWAN, Iyad. Delegation to artificial intelligence can increase dishonest behaviour. Nature, v. 646, n. 8083, p. 126-134, 2025. Disponível em: https://doi.org/10.1038/s41586-025-09505-x. Acesso em: 5 jul. 2026.