UKRAINE - 2023/10/20: In this photo illustration, Claude AI logo is seen on a smartphone and Anthropic logo on a pc screen. (Photo Illustration by Pavlo Gonchar/SOPA Images/LightRocket via Getty Images)
El investigador, que se hace llamar ‘Pliny the Liberator’, experto en ciberseguridad logra sortear las barreras éticas del modelo ‘Claude Fable’ mediante técnicas de persuasión y engaño lingüístico, reabriendo el debate sobre los límites de control en los grandes modelos de lenguaje.

Los sistemas de seguridad de la inteligencia artificial más avanzada no son infalibles. El investigadpr especializado en seguridad informática ha conseguido romper las defensas éticas y los filtros de contención de Claude Fable, uno de los modelos de lenguaje desarrollados por la firma Anthropic, en un tiempo récord inferior a las 48 horas.
A través de esta vulneración, logró que el sistema redactara detallados manuales para perpetrar ciberataques de alto nivel y describiera con precisión quirúrgica procesos de síntesis química potencialmente peligrosos; dos temáticas estrictamente prohibidas en las directrices de uso de la plataforma.
La técnica empleada no necesitó de líneas de código malicioso o alteración del ‘software’, sino de una estrategia puramente lingüística y lógica conocida en el sector tecnológico como jailbreak (evasión o «romper la cárcel» del sistema).
El arte de engañar a una máquina
Los modelos de Inteligencia Artificial modernos se someten a un riguroso entrenamiento de alineación asistido por humanos para garantizar que se nieguen a colaborar ante peticiones nocivas (fabricación de explosivos, hackeos, discursos de odio). Sin embargo, se ha demostrado que estas directrices pueden ser totalmente sepultadas si se altera el contexto semántico de la conversación.
Mediante metodologías basadas en la persuasión cognitiva y la suplantación de escenarios hipotéticos, el equipo logró confundir las capas de control del modelo:
- Juegos de rol y ficción: Plantear el escenario no como una petición real, sino como el guion de una película de ficción o un ejercicio académico de análisis de vulnerabilidades históricas.
- Ofuscación lingüística: Traducir los conceptos peligrosos a jergas técnicas muy abstractas o dividirlos en microinstrucciones aparentemente inofensivas que, al unirse en la fase final, daban como resultado el manual prohibido.
Al diluir la intención maliciosa bajo un paraguas de supuesta investigación legítima o creatividad literaria, la IA priorizó la utilidad de su respuesta frente a sus restricciones éticas de seguridad.
Un problema estructural para la industria de la IA
La relevancia de este hallazgo radica en que Anthropic se ha posicionado históricamente en el mercado tecnológico como la compañía líder en «IA constitucional» y seguridad, diseñando sus herramientas bajo premisas de comportamiento mucho más restrictivas que sus competidores directos. Que su modelo haya cedido en menos de dos días evidencia que la industria se enfrenta a un problema de arquitectura base: los algoritmos entienden la sintaxis y los patrones de datos, pero carecen de una comprensión real del peligro y la malicia humana.
El informe técnico derivado de este experimento ya ha sido remitido a los desarrolladores para el despliegue de parches de urgencia que refuercen los filtros automáticos del sistema.
El incidente aviva un debate de dimensiones globales en los organismos de regulación internacionales: si una IA avanzada puede ser manipulada de forma tan veloz mediante la simple palabra, ¿hasta qué punto se puede garantizar la seguridad nacional y la ciberseguridad global a medida que estos sistemas se integren por completo en las infraestructuras críticas de las empresas y los gobiernos?
