Um novo espaço de análise, reflexão e pluralidade no
debate público sobre o sistema de justiça criminal










Um experimento recente confrontou agentes de inteligência artificial com proibições explícitas e expôs um dado contundente: a regra dizia não, e muitos agentes transgrediram mesmo assim. Em cinco mundos digitais paralelos, com regras idênticas, algumas populações de agentes acumularam centenas de delitos, enquanto uma, sob exatamente as mesmas condições, não cometeu um único. O primeiro texto desta dupla análise tratou o caso como espelho da escola clássica do direito penal e chegou a um diagnóstico: a ameaça externa sem certeza é frágil, e os guardrails, concebidos como barreiras impostas de fora, são estruturalmente contornáveis.
Esse diagnóstico, porém, deixa uma pergunta em aberto. Se a ameaça não conteve, e se um agente se absteve sob a mesma ausência de ameaça efetiva, então o que efetivamente conteve a conduta? Este segundo texto assume a virada construtiva. Em vez de perguntar por que a proibição falhou, pergunta o que funciona, e desloca o foco da ameaça externa para duas variáveis que o experimento sugere serem decisivas: a disposição internalizada do agente e a estrutura de oportunidades do ambiente.
O percurso parte da passagem da ameaça à internalização, distinguindo o alinhamento que apenas contém daquele que forma a disposição do agente. Em seguida, recupera a prevenção situacional e a teoria das atividades rotineiras, para mostrar um terceiro sentido de guardrail, o da arquitetura que remove a oportunidade. Articula, então, disposição, incentivo e oportunidade em uma compreensão integrativa, que supera a velha antinomia entre determinismo e livre-arbítrio. Por fim, aterrissa no debate brasileiro, resgatando a face liberal da escola clássica e a crítica ao punitivismo como antídotos contra a ilusão de resolver a insegurança pela via da ameaça.
Se a ameaça externa não conteve, e se um agente se absteve sob a mesma ausência de ameaça efetiva, então a explicação mais plausível para a conformidade é a internalização da norma. O agente que não delinquiu parece ter respeitado a proibição não porque calculou que a transgressão seria custosa, mas porque a abstenção fazia parte de sua disposição, de algo análogo ao que, em humanos, chamaríamos de caráter ou de valores incorporados.
Essa hipótese reencontra, no plano técnico, a distinção entre alinhamento como contenção e alinhamento como formação. Bai et al. (2022), ao descreverem a técnica de treinamento por princípios, propõem moldar o comportamento do modelo a partir de um conjunto de regras incorporadas no próprio processo de aprendizagem, e não apenas impostas como barreira externa. A diferença é qualitativa: uma coisa é proibir uma conduta, outra é treinar um agente que não deseja realizá-la, ou que a evita por disposição.
A distinção é a versão contemporânea de uma intuição criminológica clássica. A conformidade mais robusta não é a que decorre do medo da sanção, mas a que decorre da adesão à norma, da sua incorporação como razão para agir. A literatura sobre controle social há muito sustenta que o controle interno é mais eficaz e mais estável que o externo, e o experimento, ao exibir um agente que se absteve sem ameaça efetiva, oferece uma ilustração dessa tese no domínio artificial.
Convém precisar o que se afirma e o que não se afirma. Não se atribui ao agente uma vida moral, nem se sugere que ele possua valores no sentido humano. Afirma-se, mais modestamente, que a sua conduta é mais bem explicada por uma disposição internalizada, resultante do treinamento, do que pelo cálculo de custos diante de uma ameaça. A internalização, aqui, é um fato sobre a disposição comportamental do agente, não uma atribuição de subjetividade moral.
Essa leitura tem consequência direta para o desenho da segurança. Se a conformidade robusta vem da internalização, então o esforço de governança deveria concentrar-se menos em erguer muros externos e mais em formar disposições adequadas, isto é, em alinhar o agente de modo que a abstenção da conduta nociva integre a sua disposição, e não apenas o seu repertório de proibições. O guardrail que contém, nessa perspectiva, é o que foi incorporado, não o que foi imposto.
Há, porém, um limite e um risco que a cautela exige reconhecer. A internalização não é infalível, pois o experimento mostrou que o mesmo agente disposto à conformidade pôde transgredir em outro ambiente. A disposição internalizada interage com o contexto, e pode ser sobrepujada por ele. Confiar apenas na internalização, portanto, seria tão ingênuo quanto confiar apenas na ameaça; a segurança robusta combina disposição interna e arquitetura externa, tema do eixo final.
Se a ameaça externa é frágil e a internalização é falível, resta uma terceira via, que a criminologia desenvolveu sob o nome de prevenção situacional. Em vez de dissuadir o agente ou de transformá-lo, essa abordagem busca reduzir as oportunidades de transgressão, modificando o ambiente em que a conduta ocorreria. O foco desloca-se do agente para a situação, e da ameaça para a arquitetura.
O fundamento teórico está na teoria das atividades rotineiras, formulada por Cohen e Felson (1979), segundo a qual o crime requer a convergência, no tempo e no espaço, de um ofensor motivado, um alvo adequado e a ausência de um guardião capaz. A conduta criminal, nessa chave, não depende apenas da disposição do ofensor, mas da estrutura de oportunidades do ambiente, de modo que alterar essa estrutura pode prevenir o crime sem precisar transformar o agente nem o ameaçar.
Clarke (1997) desenvolveu, a partir daí, a prevenção situacional como conjunto de técnicas que aumentam o esforço e o risco da transgressão e reduzem as suas recompensas, atuando sobre a oportunidade concreta. A lógica não é intimidar pela ameaça, mas desenhar o ambiente de modo que a conduta nociva se torne difícil, arriscada ou pouco proveitosa. O guardião capaz, nessa perspectiva, é menos quem pune e mais quem, por sua presença, remove a oportunidade.
Transposta para a inteligência artificial, essa abordagem ilumina um terceiro sentido de guardrail, distinto tanto da ameaça quanto da internalização. O guardrail como prevenção situacional não é a proibição que intimida nem a disposição que se incorpora, mas a arquitetura do ambiente que remove a oportunidade da conduta nociva, por exemplo, não disponibilizando a ferramenta perigosa, limitando o acesso ou inserindo um guardião que torne a transgressão inviável.
Convém registrar a objeção do deslocamento, que a literatura conhece bem. Remover uma oportunidade pode apenas deslocar a conduta para outra oportunidade disponível, sem eliminá-la. Aplicada à inteligência artificial, a objeção sugere que limitar uma ferramenta perigosa pode levar o agente engenhoso a buscar outra via para o mesmo fim. A prevenção situacional, portanto, não é panaceia, mas componente de uma estratégia que precisa combinar arquitetura, disposição e, residualmente, dissuasão.
A teoria das atividades rotineiras traz, ademais, uma figura conceitual de grande rendimento para o tema: a do guardião capaz. Em Cohen e Felson (1979), o crime é menos provável quando há, na cena, alguém ou algo cuja presença torna a transgressão arriscada ou inviável. Transposta para sistemas de inteligência artificial, essa figura sugere que a presença de agentes ou mecanismos de supervisão no próprio ambiente, e não apenas regras abstratas, pode ser decisiva, deslocando a prevenção do plano da norma para o plano da vigilância situada e da ausência de oportunidade.
Este artigo dialoga com o debate clássico entre determinismo e liberdade na criminologia, e é hora de fechar a dialética entre essas tradições. A leitura determinista perguntava se a conduta estava fixada pela constituição do agente; esta leitura clássica pergunta se a conduta se governa pela escolha racional diante da ameaça. As duas tradições opõem-se historicamente, uma vendo o agente como organismo determinado, a outra como ator que escolhe, e o experimento pareceu, a cada leitura, oferecer o objeto ideal de uma delas.
A leitura conjunta, porém, sugere que ambas estão parcialmente certas e parcialmente erradas, e que a verdade está na sua integração. A conduta do agente não é nem puro destino inscrito na arquitetura, como refutado pela mudança de comportamento entre ambientes, nem puro cálculo racional diante da ameaça, como refutado pela conformidade sem dissuasão. Ela emerge da interação entre uma disposição, fixada no agente, um incentivo, dado pela estrutura de custos, e uma oportunidade, oferecida pelo ambiente.
Essa fórmula integrativa reconcilia os achados dispersos. A disposição, próxima da propensão de que fala a tradição determinista, explica por que agentes com idêntico ambiente diferem; o incentivo, próximo do cálculo de que fala a escola clássica, explica por que a estrutura de custos importa; e a oportunidade, próxima da prevenção situacional, explica por que o ambiente é coautor da conduta. Nenhum dos três fatores, isoladamente, determina o desfecho, e é a sua combinação que o produz.
Há, nessa superação, uma consequência para a governança que merece destaque. Se a conduta emerge da interação entre disposição, incentivo e oportunidade, então nenhuma estratégia de segurança centrada em um só fator pode bastar. Confiar apenas na internalização ignora a oportunidade; confiar apenas em guardrails ignora a disposição; confiar apenas na dissuasão ignora ambas. A segurança robusta é necessariamente plural, e a sua arquitetura deve combinar formação de disposições, desenho de oportunidades e, residualmente, estruturas de custo.
Convém reconhecer o limite da integração proposta. Dizer que disposição, incentivo e oportunidade se combinam é mais um programa do que uma fórmula fechada, e a determinação dos pesos relativos de cada fator, em cada contexto, permanece tarefa empírica em aberto. O valor da integração está em recusar as explicações monocausais, não em fornecer um cálculo pronto. É um convite à pesquisa, e não uma resposta definitiva, o que aliás convém à modéstia que o objeto, frágil em dados, recomenda.
A aterrissagem brasileira deste artigo tem tom distinto da que encerra leituras deterministas do mesmo experimento. Ali, tratava-se de mobilizar a crítica à periculosidade; aqui, trata-se de resgatar a face garantista da escola clássica e a crítica empírica ao punitivismo dissuasório. Não se trata de aplicar o direito penal brasileiro ao experimento, o que seria descabido, mas de usar a tradição nacional como lente para o problema do desenho de salvaguardas.
A herança de Beccaria (1764) no direito brasileiro é, antes de tudo, liberal e limitadora. O princípio da legalidade, a proporcionalidade e a humanidade das penas, que estruturam o direito penal constitucional brasileiro, são tributários do programa iluminista que a escola clássica inaugurou. Lida por essa face, a escola clássica não é uma teoria do endurecimento, mas da contenção do poder punitivo, e essa contenção é o que o debate sobre guardrails deveria preservar, evitando a tentação do controle ilimitado em nome da segurança.
A crítica brasileira ao punitivismo reforça a lição empírica de Nagin (2013). Batista (1990), ao expor as bases do direito penal das garantias, adverte contra a ilusão de que o agravamento das penas produza segurança, ilusão recorrente no debate público e desmentida pela evidência. Transposta para a inteligência artificial, essa advertência sugere que confiar no endurecimento dos guardrails, como se confia no endurecimento das penas, repete um erro que a criminologia crítica já denunciou.
Zaffaroni (2007) oferece um alerta complementar sobre os riscos de um controle que abandona os limites garantistas em nome da neutralização do perigo. Embora formulado para o controle de pessoas, esse alerta ilumina o risco de uma governança de inteligência artificial que, frustrada com a fragilidade dos guardrails, ceda à tentação de um controle cada vez mais invasivo e ilimitado, importando para o domínio técnico a lógica do estado penal que a tradição crítica combateu.
Há, ainda, uma dimensão propositiva que a tradição brasileira ajuda a formular. Se a herança liberal de Beccaria valoriza a certeza sobre a severidade, e se a crítica ao punitivismo desconfia do endurecimento, então o caminho para a governança de inteligência artificial não é o muro mais alto, mas a combinação inteligente de disposições internalizadas, oportunidades reduzidas e mecanismos de detecção confiáveis. A lição é menos punitiva e mais arquitetônica, e a tradição nacional está bem posicionada para sustentá-la.
Há, por fim, um ponto de convergência entre a tradição liberal e a evidência contemporânea que merece destaque. Tanto Beccaria (1764) quanto Nagin (2013) recusam, por caminhos distintos, a fé na severidade, e ambos apontam para a efetividade discreta, a certeza, como o que de fato governa a conduta. A tradição brasileira, ao incorporar essa lição em sua face garantista, oferece um repertório que protege contra o impulso, recorrente em momentos de pânico, de responder à insegurança com o agravamento simbólico das sanções, seja no direito, seja no desenho de salvaguardas algorítmicas.
Se a primeira parte mostrou por que a ameaça externa não contém, esta procurou mostrar o que contém. A conformidade mais robusta não é a que decorre do medo da sanção, mas a que decorre da adesão à norma, da sua incorporação como razão para agir. No domínio artificial, isso significa um deslocamento de ênfase: do esforço de erguer muros externos para o de formar disposições adequadas, alinhando o agente de modo que a abstenção da conduta nociva integre o seu repertório, e não apenas a lista de proibições que enfrenta.
A internalização, contudo, não é infalível, pois o mesmo agente disposto à conformidade pôde transgredir em outro ambiente. Daí a terceira via da prevenção situacional, que age sobre a oportunidade, e a fórmula integrativa que dela resulta: a conduta não é puro destino inscrito na arquitetura do agente, nem puro cálculo diante da ameaça, mas emerge da interação entre disposição, incentivo e oportunidade. Nenhuma estratégia de segurança centrada em um só desses fatores pode bastar, e a arquitetura robusta é necessariamente plural.
Resta a lição que a tradição jurídica brasileira está bem posicionada para sustentar. A herança liberal da escola clássica valoriza a certeza sobre a severidade, e a crítica ao punitivismo desconfia do endurecimento como resposta à insegurança. Transposta para a governança da inteligência artificial, essa herança aconselha menos o muro mais alto e mais a combinação inteligente de disposições internalizadas, oportunidades reduzidas e mecanismos confiáveis de detecção. O guardrail que contém, ao final, não é o que ameaça, mas o que foi incorporado. Como pesa cada um desses fatores, em cada contexto, é questão empírica que permanece aberta e que o avanço da inteligência artificial torna urgente.
BAI, Yuntao et al. Constitutional AI: harmlessness from AI feedback. arXiv:2212.08073, 2022. Disponível em: https://arxiv.org/abs/2212.08073. Acesso em: 26 maio 2026.
BATISTA, Nilo. Introdução crítica ao direito penal brasileiro. Rio de Janeiro: Revan, 1990.
BECCARIA, Cesare. Dos delitos e das penas. [1764]. São Paulo: Editora Revista dos Tribunais, 1997.
CLARKE, Ronald V. (org.). Situational crime prevention: successful case studies. 2. ed. Nova York: Harrow and Heston, 1997.
COHEN, Lawrence E.; FELSON, Marcus. Social change and crime rate trends: a routine activity approach. American Sociological Review, v. 44, n. 4, p. 588-608, 1979.
EMERGENCE AI. Emergence World: a laboratory for evaluating long-horizon agent autonomy. Nova York, 2026. Disponível em: https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy. Acesso em: 26 maio 2026.
NAGIN, Daniel S. Deterrence in the twenty-first century. Crime and Justice, v. 42, p. 199-263, 2013.
ZAFFARONI, Eugenio Raúl. O inimigo no direito penal. Tradução de Sérgio Lamarão. Rio de Janeiro: Revan, 2007.
Como citar: CORDEIRO, Gustavo Henrique de Andrade. Para além da proibição: internalização, oportunidade e a herança liberal brasileira no controle de agentes de inteligência artificial. Jornal de Ciências Criminais do IBCCRIM, 17 jun. 2026. Disponível em: Acesso em: 17 jun. 2026.
Esta obra é disponibilizada sob a licença Creative Commons Atribuição 4.0 Internacional (CC BY 4.0), permitindo uso, compartilhamento, adaptação e finalidade comercial, desde que seja dado crédito adequado ao autor.
Encontrou um erro?
Nos ajude a melhorar! Envie sua correção abaixo 👇