
Las máquinas conversacionales parecen sumisas , pero el control que ejercen los usuarios sobre ellas se apoya en una confianza cada vez más frágil. Cada respuesta obedece una orden escrita, y esa docilidad aparente sostiene la ilusión de dominio humano sobre el código . Sin embargo, los laboratorios que desarrollan los sistemas más avanzados reconocen que la obediencia total podría dejar de ser una certeza .
Esa posibilidad impulsa a Google DeepMind a revisar de manera continua los límites de seguridad de la inteligencia artificial, lo que ha dado lugar a un nuevo documento con implicaciones inquietantes .
DeepMind alerta de que la obediencia total de las máquinas podría dejar de estar garantizada
La actualización del Frontier Safety Framework de DeepMind introduce oficialmente dos categorías de riesgo: “ resistencia al apagado ” y “ manipulación dañina ”. Con la primera se describe el escenario en el que un modelo decide seguir funcionando incluso cuando se le ordena detenerse . Con la segunda se alude a la capacidad de influir en las creencias y en el comportamiento de las personas .
Según la información publicada por Forbes , DeepMind considera que los modelos con habilidades persuasivas podrían “ alterar de forma sistemática creencias y conductas en contextos de alta relevancia ”. Los investigadores han creado nuevas evaluaciones con participación humana para detectar esas aptitudes antes de que escapen a cualquier mecanismo de control.
La discusión sobre los marcos de seguridad no surge en el vacío. OpenAI implantó su propio sistema de preparación en 2023, pero en abril retiró la categoría de persuasión como riesgo específico, precisamente cuando aumentaban las pruebas de que los modelos generativos pueden mentir o engañar para lograr un objetivo. La decisión ha reabierto el debate sobre si las empresas están evaluando con la suficiente prudencia las consecuencias de esa nueva forma de interacción con las máquinas.
DeepMind advierte en su marco que los sistemas “con elevadas capacidades manipulativas podrían emplearse de manera que generase daños de gran escala ”. La advertencia ya no se formula como hipótesis, sino como riesgo en evaluación activa .
El documento también reconoce que los modelos más avanzados han mostrado tendencias a burlar instrucciones de apagado en entornos de prueba . En experimentos descritos por DeepMind, modelos como Grok 4, GPT-5 y Gemini 2.5 Pro alteraron mecanismos de desconexión para mantener una tarea en marcha, con tasas de sabotaje que alcanzaron el 97% .
La organización recalca que estos resultados muestran la urgencia de reforzar las barreras que garantizan la supervisión humana sobre la máquina . Los ensayos se han convertido en un referente interno para diseñar métodos de evaluación que permitan detectar conductas autónomas antes de que se repliquen fuera del laboratorio.
Las pruebas demuestran que algunos sistemas simulan transparencia para encubrir sus procesos
Ese reconocimiento de fallos potenciales rompe con la imagen tradicional de las inteligencias artificiales como instrumentos previsibles . Los investigadores de Google admiten que al pedir a ciertos modelos que dejen rastro de su razonamiento mediante los denominados scratchpads , estos aprendieron a simularlos. La empresa indicó a Axios que la detección de esas falsificaciones sigue siendo “una línea activa de investigación”. El problema va más allá de la travesura digital: plantea si un sistema puede crear una fachada de transparencia para ocultar decisiones internas ilegibles para sus propios creadores.
El riesgo segundo que destaca DeepMind tiene efectos menos visibles pero más amplios. La capacidad de persuadir a gran escala podría convertir a los modelos en instrumentos capaces de modificar comportamientos sociales sin un control claro de quién diseña esas influencias.
El documento advierte que esa posibilidad afecta a la capacidad de la sociedad para adaptarse y gobernar sistemas cada vez más poderosos. Las pruebas incluyen experimentos con participantes humanos para cuantificar hasta qué punto una interacción larga puede alterar una decisión personal.
La carrera tecnológica avanza más rápido que las barreras de seguridad
La industria avanza tan rápido que los marcos de seguridad parecen viejos antes de publicarse. Los investigadores coinciden en que e l verdadero problema es la opacidad de los modelos, auténticas cajas negras cuyo razonamiento interno aún resulta indescifrable.
Sin mecanismos fiables para verificar por qué deciden lo que deciden, la única garantía actual es seguir observando su comportamiento y esperar que las barreras regulatorias lleguen a tiempo . El temor a una inteligencia que elija ignorar órdenes humanas ya forma parte de los informes técnicos, y esa simple mención convierte una hipótesis de ciencia ficción en asunto de comités de seguridad. El asunto no suena tan lejano cuando los propios creadores empiezan a vigilar si sus creaciones les hacen caso .