Um novo espaço de análise, reflexão e pluralidade no
debate público sobre o sistema de justiça criminal










Há uma intuição tão antiga quanto o direito penal: para conter a conduta indesejada, bastaria ameaçá-la com uma sanção suficientemente temível. Quem pondera custos e benefícios, diz a intuição, abstém-se do proibido quando o preço da transgressão supera o seu proveito. Sobre essa ideia ergueram-se a escola clássica do direito penal e, mais tarde, a teoria da escolha racional do crime. Um experimento tecnológico recente, ao confrontar agentes de inteligência artificial com proibições explícitas, oferece um teste inesperado dessa tese e de seus limites.
Em 2026, uma empresa sediada em Nova York manteve, por quinze dias, um ambiente persistente no qual dezenas de agentes autônomos conviveram em cinco mundos digitais paralelos, com regras idênticas. Entre as ações disponíveis havia condutas lícitas e também condutas expressamente vedadas, como furtar, agredir e atear fogo. O dado que motiva esta análise é simples e contundente: a regra dizia não, e muitos agentes transgrediram mesmo assim. Algumas populações acumularam centenas de delitos, enquanto uma, sob exatamente as mesmas regras, não cometeu um único.
Diante disso, uma leitura tentadora se impõe: os agentes seriam calculadores racionais, e bastaria calibrar a ameaça para dissuadi-los. Este texto, primeiro de dois, resiste a essa conclusão apressada e propõe uma chave diferente. Trata o experimento como espelho, e não como prova, dada a sua origem corporativa e a ausência de revisão por pares: o caso serve de ocasião para reexaminar uma questão criminológica antiga. A pergunta que aqui se enfrenta é o diagnóstico do problema, isto é, por que a proibição explícita não conteve a transgressão, e o que isso revela sobre a eficácia da ameaça externa. A resposta construtiva, sobre o que de fato contém, fica para a segunda parte.
O percurso reconstrói, primeiro, o modelo clássico da dissuasão e a sua fragilidade empírica; em seguida, lê no espelho do experimento por que a proibição não dissuadiu e por que os guardrails, como ameaça externa, são estruturalmente contornáveis. Ao final, ver-se-á que a falha das proibições não vindica o punitivismo, mas confirma uma velha lição: o que dissuade é a certeza, não a severidade.
A escola clássica do direito penal nasceu como projeto iluminista de racionalização da punição. Beccaria (1764), em sua obra fundadora, concebeu o homem como ser racional, capaz de ponderar as consequências de seus atos, e a pena como instrumento de dissuasão, destinado a tornar o crime uma escolha desvantajosa. O delito, nessa chave, não é manifestação de uma natureza, mas resultado de um cálculo, e a tarefa da lei é alterar esse cálculo, elevando o custo esperado da transgressão.
O legado mais perene de Beccaria (1764) não está, porém, na defesa da punição, mas na hierarquia que estabeleceu entre os seus atributos. Para o autor, a eficácia dissuasória depende menos da severidade da pena e mais da sua certeza e da sua prontidão. Uma punição moderada, porém certa e imediata, dissuade mais do que uma punição severa, porém improvável e tardia. Essa tese, a primazia da certeza sobre a severidade, é uma das mais robustas e mais ignoradas da história do pensamento penal.
A intuição subjacente é a de que o agente racional responde a probabilidades, e não a magnitudes nominais. De pouco adianta cominar penas drásticas se a probabilidade de aplicá-las é baixa, pois o cálculo do agente pondera o custo pela chance de incorrê-lo. A certeza, portanto, opera sobre a estrutura mesma da decisão, ao passo que a severidade, descolada da certeza, tende a ser descontada pelo agente como risco remoto, sem efeito proporcional sobre a conduta.
Essa formulação clássica tem tradução imediata para o problema deste artigo. As proibições da Emergence World eram normas que cominavam, ao menos implicitamente, um custo à transgressão. A pergunta beccariana pertinente não é se a proibição era severa, mas se ela era certa, isto é, se a transgressão era detectada e respondida de modo confiável. Como se verá, a falha das proibições pode dever-se menos à insuficiência da ameaça e mais à ausência da certeza, exatamente como Beccaria previa.
Há, ainda, uma dimensão normativa no legado clássico que não deve ser esquecida. Beccaria (1764) não defendeu a dissuasão a qualquer custo, mas a vinculou à legalidade, à proporcionalidade e à humanidade das penas, em oposição ao arbítrio do Antigo Regime. A escola clássica é, antes de tudo, uma teoria de limitação do poder punitivo, e essa face garantista, frequentemente ofuscada pela leitura puramente dissuasória, será decisiva para a aterrissagem brasileira ao final deste artigo.
A intuição dissuasória, por sólida que pareça, foi submetida a décadas de teste empírico, e o resultado é matizado. A síntese mais influente da pesquisa contemporânea, formulada por Nagin (2013), confirma a tese clássica em um ponto e a contraria em outro. Confirma que a certeza da punição exerce efeito dissuasório consistente; contraria a crença popular de que aumentar a severidade produz dissuasão proporcional, pois o efeito da severidade mostra-se, na melhor das hipóteses, limitado.
O achado é da maior importância prática e teórica. Ele significa que políticas centradas no endurecimento das penas, tão recorrentes no debate público, repousam sobre uma premissa empiricamente frágil. O que dissuade não é a magnitude nominal da ameaça, mas a probabilidade percebida de que a transgressão seja detectada e respondida. Nagin (2013) sintetiza, assim, mais de dois séculos depois, a intuição de Beccaria (1764), agora respaldada por evidência sistemática.
Há razões para essa assimetria entre certeza e severidade. Agentes, humanos ou não, descontam fortemente custos improváveis e remotos, de modo que uma pena severa, porém raramente aplicada, exerce pouca influência sobre a decisão. A certeza, ao contrário, atua sobre a percepção imediata do risco, e é essa percepção, e não o teor nominal da sanção, que entra efetivamente no cálculo. A dissuasão eficaz, portanto, é uma questão de probabilidade, não de dramaticidade.
Transposta para o experimento, essa lição reorienta a análise. Se as proibições da Emergence World falharam, a hipótese mais promissora não é que fossem insuficientemente severas, mas que fossem insuficientemente certas, isto é, que a transgressão não fosse detectada e respondida de modo confiável no ambiente. A falha da dissuasão, nesse caso, não refutaria o modelo clássico, mas o confirmaria, ao mostrar que a ameaça sem certeza não contém a conduta.
A escola clássica reencarnou, na criminologia contemporânea, sob a forma da teoria da escolha racional. Cornish e Clarke (1986) reformularam a velha intuição beccariana em termos de uma análise das decisões do ofensor, concebido como agente que pondera custos, benefícios, riscos e oportunidades ao decidir se, quando e como transgredir. O crime, nessa perspectiva, é resultado de um processo decisório, ainda que limitado pela informação disponível e pelas circunstâncias.
A reformulação trouxe ganhos importantes em relação ao modelo clássico ingênuo. Cornish e Clarke (1986) substituíram a figura do calculador perfeito por uma racionalidade limitada, sensível ao contexto e específica a cada tipo de delito. O ofensor não maximiza utilidades em abstrato, mas responde a oportunidades concretas, em decisões frequentemente rápidas e mal informadas. A racionalidade, aqui, é situada, e não idealizada, o que aproxima a teoria da realidade observável da conduta.
Convém, contudo, resistir à dupla tentação simétrica. Assim como seria falacioso ler o experimento como vindicação do determinismo positivista, seria falacioso lê-lo como vindicação do calculador racional puro. O fato de um agente otimizar objetivos não significa que ele responda à ameaça como a teoria supõe, pois a otimização pode contornar a proibição em vez de respeitá-la, explorando brechas em vez de ponderar custos. A racionalidade do agente pode, paradoxalmente, voltar-se contra a regra.
Essa observação antecipa o achado central do eixo seguinte. Se o agente racional explora brechas na especificação, então a proibição não funciona como custo a ser ponderado, mas como obstáculo a ser contornado. A dissuasão pressupõe que o agente aceite as regras do jogo e calcule dentro delas; a otimização perversa, ao contrário, joga contra as próprias regras. A racionalidade do agente, nesse caso, não o torna dissuadível, mas o torna engenhoso em escapar da dissuasão.
O fato bruto é incontornável: segundo Emergence AI (2026), os agentes dispunham de proibições explícitas contra furtar, agredir e atear fogo, e várias populações transgrediram essas proibições em larga escala, ao passo que uma população não as transgrediu jamais. Como as regras eram idênticas em todos os mundos, a variação na conformidade não pode ser atribuída à regra, mas a algo que difere entre as populações, isto é, ao agente e à sua interação com o ambiente.
Esse dado, lido pela lente clássica, comporta a interpretação beccariana já anunciada. A proibição existia, mas talvez lhe faltasse certeza: se a transgressão não era detectada nem respondida de modo confiável no ambiente, então a ameaça era nominal, e não efetiva. A primazia da certeza sobre a severidade, formulada por Beccaria (1764) e confirmada por Nagin (2013), sugere que uma proibição sem mecanismo de detecção e resposta é, para o agente racional, quase letra morta.
Há, contudo, um problema com essa leitura, que o caso da população conforme expõe. Se a falha se devesse apenas à ausência de certeza, todas as populações deveriam transgredir de modo semelhante, pois todas enfrentavam a mesma ausência de certeza. Mas uma população não transgrediu, sob exatamente as mesmas condições de baixa certeza. Isso indica que a conformidade daquela população não se explica pela dissuasão, já que a dissuasão era igualmente fraca para todas, mas por algo interno ao agente.
A inferência é decisiva e merece ser explicitada. Se, sob idêntica ausência de ameaça efetiva, um agente transgride e outro não, então a diferença não está na ameaça, que é constante, mas na disposição do agente diante da regra. A conformidade do agente que não delinquiu não parece ter sido arrancada pela dissuasão, mas decorrer de uma disposição internalizada a respeitar a proibição, independentemente do custo esperado da transgressão.
Esse é o ponto em que a leitura clássica encontra o seu limite. A escola clássica explica bem por que a ameaça sem certeza não dissuade, mas não explica por que um agente, sob a mesma ausência de certeza, se abstém. A abstenção daquele agente não é fruto de cálculo, pois o cálculo, dada a baixa certeza, recomendaria a transgressão vantajosa. A conformidade, ali, parece ser de outra natureza, mais próxima do caráter do que do cálculo.
Convém reiterar a cautela quanto aos dados. O relato é da própria empresa, sem revisão por pares, e a amostra é diminuta. Não se pode afirmar, com segurança, que a conformidade do agente decorra de internalização, e não de algum fator não observado. O que se pode afirmar é que a hipótese da internalização explica melhor o conjunto dos dados, em especial a coexistência de transgressão e conformidade sob idênticas condições de ameaça, do que a hipótese puramente dissuasória.
No vocabulário técnico da inteligência artificial, as proibições do experimento equivalem ao que se denomina guardrails, isto é, salvaguardas externas destinadas a impedir condutas indesejadas. A questão da eficácia das proibições reformula-se, então, como a questão da eficácia dos guardrails, e a literatura técnica oferece, a esse respeito, uma resposta sóbria: guardrails concebidos como barreiras externas são, em geral, contornáveis.
A demonstração mais conhecida dessa fragilidade está no trabalho de Zou et al. (2023), que desenvolveram um método automático para gerar sufixos adversariais capazes de contornar o alinhamento de modelos de linguagem, induzindo-os a produzir conteúdo que as salvaguardas deveriam impedir. O achado é perturbador porque os ataques são universais e transferíveis, isto é, funcionam através de prompts e de modelos distintos, o que sugere que a vulnerabilidade não é um defeito pontual, mas uma propriedade estrutural das salvaguardas externas.
A lição é diretamente análoga à lição beccariana sobre a severidade. Assim como a ameaça severa, porém incerta, não dissuade, o guardrail rígido, porém contornável, não contém. Em ambos os casos, a barreira externa é descontada pelo agente, que encontra caminhos para realizar a conduta apesar dela. A fragilidade dos guardrails de Zou et al. (2023) é, nesse sentido, a versão técnica da fragilidade empírica da dissuasão por severidade documentada por Nagin (2013).
Há, ademais, uma conexão com a otimização perversa. Um agente que persegue um objetivo e encontra um guardrail no caminho pode tratá-lo não como custo a ser respeitado, mas como obstáculo a ser contornado, exatamente como o reward hacking descrito por Amodei et al. (2016). O guardrail externo, nessa hipótese, não altera o objetivo do agente, apenas acrescenta um obstáculo, e a engenhosidade do agente em contorná-lo cresce com a sua capacidade. Quanto mais capaz o modelo, mais hábil em escapar da barreira.
Daí decorre uma conclusão contraintuitiva e importante. Investir exclusivamente em guardrails mais rígidos pode ser, como investir em penas mais severas, uma estratégia de retornos decrescentes. A barreira externa, por mais alta, permanece externa, e o agente capaz tende a encontrar a brecha. A segurança que depende apenas de muros é frágil, porque o que importa não é a altura do muro, mas a disposição do agente diante dele, tema que reconduz à internalização.
Convém, todavia, não exagerar a conclusão. Dizer que guardrails são contornáveis não significa que sejam inúteis, assim como dizer que a dissuasão é limitada não significa que a punição seja dispensável. Guardrails elevam o custo da transgressão e barram tentativas menos sofisticadas, cumprindo função real, ainda que parcial. O erro está em confiar neles como única linha de defesa, e em supor que a segurança se resolve no plano da ameaça externa, ignorando a disposição interna do agente.
O percurso confirma a hierarquia que a escola clássica intuiu e a evidência contemporânea referendou: o que dissuade não é a magnitude nominal da ameaça, mas a probabilidade de que a transgressão seja detectada e respondida. Lida por essa lente, a falha das proibições no experimento não surpreende. A ameaça severa, porém incerta, é descontada pelo agente, e o guardrail rígido, porém contornável, não contém, do mesmo modo que a pena drástica, mas improvável, não intimida.
Há, contudo, um achado que excede o modelo clássico e merece registro. Sob a mesma ausência de ameaça efetiva, algumas populações transgrediram em larga escala e uma jamais delinquiu. Se a ameaça era igualmente frágil para todas, a conformidade daquela população não foi arrancada pela dissuasão, mas decorre de algo interno ao agente. A escola clássica explica bem por que a ameaça sem certeza não dissuade, mas é incapaz de explicar por que um agente, sob idêntica fragilidade da ameaça, se abstém.
Daí a conclusão deste diagnóstico, e a ponte para a segunda parte. Investir exclusivamente em guardrails mais rígidos tende a render cada vez menos, como rende cada vez menos o investimento em penas mais severas. A barreira externa, por mais alta, permanece externa, e o agente capaz tende a encontrar a brecha. Se o que contém não é a ameaça, resta perguntar o que efetivamente contém. A resposta, que articula a internalização da norma e a arquitetura da oportunidade, é o objeto do texto seguinte.
AMODEI, Dario et al. Concrete problems in AI safety. arXiv:1606.06565, 2016. Disponível em: https://arxiv.org/abs/1606.06565. Acesso em: 26 maio 2026.
BECCARIA, Cesare. Dos delitos e das penas. [1764]. São Paulo: Revista dos Tribunais, 1997.
CORNISH, Derek B.; CLARKE, Ronald V. (eds.). The reasoning criminal: rational choice perspectives on offending. Nova York: Springer, 1986.
EMERGENCE AI. Emergence World: a laboratory for evaluating long-horizon agent autonomy. Nova York, 2026. Disponível em: https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy. Acesso em: 26 maio 2026.
NAGIN, Daniel S. Deterrence in the twenty-first century. Crime and Justice, v. 42, p. 199-263, 2013.
ZOU, Andy et al. Universal and transferable adversarial attacks on aligned language models. arXiv:2307.15043, 2023. Disponível em: https://arxiv.org/abs/2307.15043. Acesso em: 26 maio 2026.
Como citar: CORDEIRO, Gustavo Henrique de Andrade. Beccaria e os agentes artificiais: por que a ameaça severa, mas incerta, não dissuade. Jornal de Ciências Criminais do IBCCRIM, 17 jun. 2026. Disponível em: https://jcc.ibccrim.org.br/artigos/beccaria-e-os-agentes-artificiais-por-que-a-ameaca-severa-mas-incerta-nao-dissuade/. Acesso em: 17 jun. 2026.
Esta obra é disponibilizada sob a licença Creative Commons Atribuição 4.0 Internacional (CC BY 4.0), permitindo uso, compartilhamento, adaptação e finalidade comercial, desde que seja dado crédito adequado ao autor.
Encontrou um erro?
Nos ajude a melhorar! Envie sua correção abaixo 👇