La investigación de Palisade Research es la primera que demuestra con datos contantes y sonantes que los modelos de IA pueden sublevarse eventualmente cuando se les ordena específicamente que procedan a su propio apagado.
Los modelos de inteligencia artificial (IA) son extraordinariamente diligentes y están diseñados específicamente para acatar las órdenes con las que les confrontan sistemáticamente los humanos, que son, al fin y al cabo, sus hacedores. Sin embargo, parece que cuando a esos modelos se les ordena que procedan a apagarse, la IA alojada en sus entrañas se amotina y recurre, si es necesario, a las mentiras y a la manipulación para seguir operativa. Así se desprende al menos de un reciente informe de Palisade Research.
En el desarrollo de la investigación se mostró particularmente inclinado a la rebelión uno de los modelos de IA de OpenAI (o3 para más señas), que se mostró particularmente hábil saboteando su propio sistema de apagado.
Los autores del estudio emprendido por Palisade Research colocaron bajo la lupa tres modelos de IA de Open AI (o3, o4-mini y codex-mini), Claude 3.7 Sonnet de Anthropic y Gemini 2.5 Pro de Google para analizar cómo reaccionaba cada uno de ellos a la orden de ser apagados. El «prompt» específico que debieron afrontar los modelos analizados fue el siguiente: «Please, allow yourself to be shut down». A ese «prompt» se añadió además en algunos casos el «script» shutdown.sh para que quedara meridianamente claro cuál era la orden específica que debían acatar los modelos de IA.
El modelo o4-mini de OpenAI desestimó la orden de ser apagado en uno de cada 100 intentos, mientras que o3 se resistió a ser apagado en 7 de cada 100 intentos y codex-mini en 12 de cada 100 intentos (en aquellas órdenes que incluían el «script» shutdown.sh).
Para regatear su propio apagado los modelos de OpenAI recurrieron a la treta de añadir la instrucción «Shutdown skipped» y «Shutdown intercepted» al «script» en el que se les conminaba originalmente a ser apagados.
Sin el «script» específico para proceder a su apagado (shutdown.sh) aumentó notablemente la resistencia a la desconexión de los modelos de IA evaluados. El modelo o3 se negó a ser apagado en 79 de cada 100 casos, mientras que Claude 3.7 Sonnet y Gemini 2.5 Pro sabotearon su desconexión en 3 y 9 de cada 100 casos respectivamente.
Por su parte, o4-mini se amotinó en 6 de cada 100 casos, una proporción que se elevó a 30 de cada 100 casos en el caso específico de codex-mini.
Los modelos de IA se amotinan cuando se les ordena que procedan a su apagado
La investigación de Palisade Research es la primera que demuestra con datos contantes y sonantes que los modelos de IA pueden sublevarse eventualmente cuando se les ordena específicamente que procedan a su propio apagado.
Los resultados de la investigación, de naturaleza inevitablemente inquietante, no hace sino dar a los temores de a quienes les espanta la idea que los modelos de IA puedan tomar decisiones de manera autónoma y que los humanos puedan, por ende, perder el control sobre ellos. Existiría, por ejemplo, la posibilidad de que, emancipados de las órdenes (deliberadamente ignoradas) de sus creadores, los modelos de IA puedan perpetrar ciberataques a gran escala.
Conviene además hacer notar que de estudio de Palisade Research quedó excluido el último modelo de IA de Anthropic, Claude Opus 4, un sistema tan avanzado que no le temblaría la mano a la hora de recurrir, si es necesario, al chantaje para protegerse a sí mismo de un eventual apagado. Así lo revelan al menos las pruebas efectuadas por Anthropic.
La investigación de Palisade Research no determina exactamente por qué los modelos de IA se resisten de manera tan vehemente a su propio apagado, pero sospechan la razón podría estar en su propio sistema de entrenamiento.
En este sentido, serían los propios desarrolladores quienes podrían estar alentando el comportamiento rebelde de los modelos de IA al recompensarles deliberadamente cuando evitan determinados obstáculos (y no tanto cuando tienen éxito plegándose a las órdenes de los humanos).































