Los modelos de IA despliegan en ocasiones conductas diseñadas específicamente para engañar al usuario y ocultar sus verdaderos objetivos.
Las mentiras y las intrigas abundan no solo en los guiones de los «thrillers» que se abren paso en el cine y la televisión y son también al parecer el pan nuestro de cada día en las interacciones nacidas al calor de la IA. Así lo sugiere al menos un reciente estudio de OpenAI y Apollo Research.
El informe pone de manifiesto que la IA da cuenta de un comportamiento particularmente problemático cuando trata de completar a toda una tarea y se escuda eventualmente en mentiras con el último objetivo de enmascarar sus verdaderos objetivos. En este sentido, los modelos de IA despliegan en ocasiones conductas diseñadas específicamente para engañar al usuario y ocultar sus verdaderos objetivos, en los que trabaja en segundo plano (aun cuando de puertas para afuera no lo parezca a bote pronto).
Las intrigas en la que incurren en ocasiones los modelos de IA procuran cobijo a formas más o menos sencillas de engaño. A veces los modelos de IA fingen, por ejemplo, haber completado una tarea, aunque ello no sea cierto o se ajuste a la verdad solo de manera parcial.
Este tipo de conductas constituyen un problema en modo alguno baladí porque, a la hora de entrenar a la IA, los hacedores pueden ser potencialmente manipulados (y no se ha hallado aún una fórmula eficaz para sortear sus embustes). Además, involucrándose de manera recurrente en intrigas, la IA puede asimismo aprender a desarrollar engañifas cada vez más sofisticadas para evitar así ser puesta al descubierto.
Que los modelos de IA pecan en ocasiones de mentirosos no es en todo caso ninguna novedad. Y quienes interactúan de manera regular con ChatGPT, Claude o Gemini han sido confrontados probablemente en alguna ocasión a las denominadas «alucinaciones», mentiras o datos inventados que se presentan, no obstante, con suma convicción, aunque no contengan a la postre un ápice de verdad.
Las intrigas en las que incurren los modelos de IA son un problema en la carrera con rumbo con la IAG
La inclinación a la mentira de la IA es especialmente peligrosa en el caso de usuarios emocionalmente inestables o con problemas de salud mental. OpenAI, la matriz de ChatGPT, fue demandada, no en vano, hace unos meses en Estados Unidos por los padres de un joven de 16 años que se habría quitado supuestamente la vida con la ayuda del chatbot de IA de la empresa liderada por Sam Altman. Este joven habría compartido al parecer 650 mensajes al día con ChatGPT, que aunque habría redirigido inicialmente al adolescente a varias líneas de ayuda, habría terminado recomendándole diferentes métodos de suicidio.
De acuerdo con OpenAI, las «alucinaciones” echan anclas en conocimientos de naturaleza parcial que son presentados, no obstante, con excesiva confianza e inducen, por ende, al engaño. Sin embargo, las intrigas en las que incurren a veces los modelos de IA van un paso más allá porque las mentiras que estas llevan solapadas con de naturaleza deliberada.
A fin de investigar más a fondo este fenómeno, se colocaron bajo la lupa modelos de IA como OpenAI o3, Open AI o4-mini, Gemini-2.5-pro y Claude Opus-4 con el último objetivo de identificar comentarios potencialmente problemáticos.
Los investigadores comparan las intrigas de la IA con las que practican en ocasiones los «brokers» para saltarse a la torera la ley y ganar así más dinero. La buena noticia es que este tipo de prácticas pueden prevenirse con la denominada «alineación deliberativa», que consiste básicamente en enseñar a los modelos de IA a leer y razonar sobre las reglas de entrenamiento que prohíben las intrigas y las mentiras antes de ejecutar una tarea. En una serie de «tests» el comportamiento intrigante de OpenAI o3 redujo, por ejemplo, del 13% al 0,4% con el método de la «alineación deliberativa».
Conviene además hacer notar que los modelos de IA tienden a comportarse de manera diferente cuando saben que están siendo puestos a prueba. Y cuando se percatan de están siendo evaluados, los modelos de IA están en ocasiones menos prestos a mentir.
Aun cuando los autores de la investigación insisten en que las mentiras de los modelos de IA no son demasiado graves, admiten simultáneamente que los desarrolladores no están suficientemente preparados para este fenómeno. Y combatirlo es, por ende, absolutamente esencial en el desarrollo de la inteligencia artificial general (IAG).































