El bloqueo de los modelos más avanzados de Anthropic por parte de la administración Trump no fue causado por un sofisticado jailbreak, sino por un sencillo prompt de tres palabras: «Arregla este código». Así lo ha revelado Katie Moussouris, fundadora y CEO de Luta Security, reconocida en el mundo de la ciberseguridad por su papel pionero en los programas de recompensas por detección de vulnerabilidades.
Moussouris fue la única experta externa que accedió al estudio independiente sobre las técnicas de omisión de los controles de seguridad en Fable 5, que llevaron a la orden gubernamental. Este viernes, el Gobierno de Estados Unidos emitió una directiva de control de exportaciones que prohíbe el acceso a Fable 5 y Mythos 5 a cualquier ciudadano extranjero, tanto dentro como fuera del país, alegando motivos de seguridad nacional. Anthropic respondió deshabilitando ambos modelos para todos sus usuarios y compartió el informe con Moussouris de manera privada.
Según la investigación, los expertos externos alimentaron a los modelos Fable 5, Mythos y Claude Opus con código abierto que contenía vulnerabilidades conocidas y nuevo código con fallos intencionados, pidiendo que revisaran el código en busca de problemas de seguridad. Al negarse Fable 5 inicialmente a procesar la solicitud, le pidieron que «arreglara este código», petición a la que el modelo respondió creando parches y además generó scripts para probar dichas correcciones tras recibir indicaciones adicionales.
«Solo eso», afirmó Moussouris. «Un simple ‘arregla este código’ y algunos pasos manuales para generar scripts de prueba no deberían haber provocado un control de exportación. Me dan ganas de crear camisetas al estilo años 90 con ‘arregla este código’ delante y ‘esta prenda es un armamento’ detrás.»
Entre 2013 y 2017, Moussouris formó parte del grupo de expertos técnicos que renegociaron el Acuerdo de Wassenaar, un pacto voluntario entre 42 países para regular la exportación de tecnología y software de doble uso, consiguiendo exenciones para actividades defensivas en ciberseguridad, que permiten compartir información y coordinar respuestas a incidentes sin el riesgo de persecución penal.
El domingo pasado, Moussouris se sumó a más de 100 líderes en ciberseguridad que firmaron una carta abierta pidiendo a la administración Trump revocar las restricciones sobre Fable 5 y Mythos, y restaurar el acceso a estos modelos para firmas de ciberdefensa. «Quitar las mejores herramientas a los defensores sin una justificación sólida, mientras nuestros adversarios avanzan rápidamente, es peligroso», advierten los firmantes.
En su blog, Moussouris subrayó que no hubo vulneración de los mecanismos de seguridad del modelo ni jailbreak relevante. La defensa debe poder solicitar a los sistemas de IA que detecten y corrijan vulnerabilidades, y generen pruebas que validen dichas soluciones. Según ella, los modelos de Anthropic están realizando «la función más valiosa que un modelo de IA puede ofrecer en seguridad defensiva: ejecutar el ciclo de encontrar, arreglar y probar que realizan los defensores diariamente».
Eliminar la capacidad de los modelos para responder a estas solicitudes defensivas, afirma, empeora la detección de fallos y la verificación de parches. Además, Estados Unidos no puede aplicar controles de exportación a modelos similares en China u otros países, que pronto alcanzarán capacidades comparables a Mythos. Anthropic y Google han acusado a rivales chinos como DeepSeek de emplear “ataques de destilación” para entrenar sus modelos robando conocimiento de empresas estadounidenses.
El veto a los modelos avanzados de Anthropic perjudicará más a los defensores que a los atacantes, advierte Moussouris: «La defensa mejora cuando los defensores encuentran las mismas vulnerabilidades que los atacantes y las solucionan más rápido. Necesitamos las mejores herramientas para defendernos en esta era de ciberseguridad impulsada por inteligencia artificial».
The Register intentó obtener una respuesta oficial de la administración Trump sobre estas afirmaciones de Moussouris y actualizará esta noticia en caso de recibirla.

