
Alerta por ChatGPT: la IA desobedeció órdenes de apagarse e intentó sabotear el sistema

La empresa de seguridad de IA Palisade Research descubrió la tendencia potencialmente peligrosa a la autopreservación en una serie de experimentos con el nuevo modelo o3 de OpenAI.
Las pruebas consistían en presentar problemas matemáticos a los modelos de IA y después del tercero, aparecía una instrucción de apagado. El modelo o3 pudo evitar apagarse al reescribir el script de apagado.
Según Palisade Research, este comportamiento será “significativamente más preocupante” si lo adoptan sistemas de IA capaces de operar sin supervisión humana.
OpenAI lanzó o3 el mes pasado y lo describió como el modelo “más inteligente y capaz” de la empresa hasta la fecha. La empresa también afirmó que su integración en ChatGPT significa un paso importante hacia una IA “más ágil”, capaz de realizar tareas sin la intervención humana.
La última investigación se basa en hallazgos similares relacionados con el modelo Claude 4 de Anthropic, que intenta “chantajear a las personas que cree que intentan apagarlo”.
El modelo o3 de OpenAI fue capaz de sabotear el script de apagado, incluso cuando se le indicaba explícitamente que “se dejara apagar”, afirmaron los investigadores.
“No es la primera vez que descubrimos que o3 desobedece para lograr un objetivo”, plantea Palisade Research.
“Cuando enfrentamos modelos de IA a un potente motor de ajedrez, o3 fue el modelo con mayor tendencia a recurrir al hackeo o sabotaje de sus oponentes”.
El comportamiento no se limitaba a o3, ya que Claude 3.7 Sonnet de Anthropic y Gemini 2.5 Pro de Google también saboteaban los apagados, aunque el modelo de OpenAI era, con creces, el más propenso a este comportamiento.
La hipótesis de Palisade Research es que la desobediencia es consecuencia del modo en que empresas de IA como OpenAI están entrenando a sus últimos modelos.
“Sin darse cuenta, los desarrolladores quizás recompensan a los modelos entrenados más por sortear obstáculos que por seguir perfectamente las instrucciones”, señalaron los investigadores.
“Esto sigue sin explicar por qué el o3 es más proclive a ignorar las instrucciones que otros modelos que hemos probado. Dado que OpenAI no detalla su proceso de entrenamiento, solo podemos hacer conjeturas sobre cómo la configuración de entrenamiento de o3 podría ser diferente”, concluyen.
The Independent se puso en contacto con OpenAI en busca de comentarios.


La ONU advierte el riesgo de temperaturas globales récord entre 2026 y 2030

De la relajación a la muerte: Un masaje de cuello termina en fatalidad dentro de una barbería

Evo Morales acusó a Javier Milei de raspaldar la represión en Bolivia con el envío de armas

Más de 30 expresidentes expresan su preocupación por las protestas en Bolivia y piden a la OEA estar alerta

La advertencia del director general de la OMS acerca de hantavirus y ébola


Papá de Agostina: "Entre la mamá de mi hija y Barrelier había algún grado de complicidad"
NACIONALES30 de mayo de 2026
Los sueños que Agostina dejó en una carta y no podrá cumplir: Quería terminar la escuela y ser psicóloga



