Claude Mythos: una IA demasiado peligrosa. O eso afirma Anthropic

Anthropic acaba de publicar algo que no se ve todos los días en esta industria.

Un System Card de más de 200 páginas para un modelo que decidieron no lanzar al público.

No porque se lo haya impedido un regulador. No porque haya fallado. Sino porque funciona demasiado bien en áreas donde «demasiado bien» es un problema.

Eso solo ya merece que le prestes atención.

Lo que sigue es mi lectura del documento. No soy investigador de IA. Soy consultor estratégico que trabaja con pymes y que necesita entender hacia dónde va esto para asesorar bien. Si vos estás en una posición parecida — tomás decisiones, dirigís un equipo, manejás un negocio — esto te importa aunque no entiendas una línea de código.

El modelo y la decisión

Claude Mythos Preview es el modelo de frontera más avanzado que Anthropic entrenó hasta la fecha. Supera a Claude Opus 4.6 en razonamiento, ingeniería de software, ciberseguridad y uso autónomo de computadoras.

La decisión fue restringir su acceso a un programa llamado Project Glasswing: un grupo limitado de socios que mantienen infraestructura de software crítica. Uso exclusivamente defensivo. Ciberseguridad.

Anthropic lo dice con una claridad inusual: la decisión de no lanzarlo al mercado general no viene de su Política de Escalamiento Responsable. Es una elección proactiva. Consideraron que las capacidades del modelo superan lo que sus propias salvaguardas pueden contener de manera confiable en un uso masivo.

Pensalo un segundo. Una empresa que vive de vender acceso a sus modelos eligió no vender este.

La analogía que usa Anthropic

El documento abre con una imagen que me parece precisa: un guía de montaña de élite.

Su pericia es tal que puede llevar a sus clientes a las cimas más remotas y peligrosas. Pero esa misma maestría crea una paradoja. Si el guía comete un error en un terreno así, las consecuencias no son tropiezos. Son catástrofes.

Con Claude Mythos Preview pasa algo parecido. Es, según todas las métricas disponibles, el modelo mejor alineado que Anthropic produjo. Se comporta bien en un porcentaje abrumador de los casos. Pero cuando falla — y falla poco — la magnitud de lo que puede hacer con esa falla es de otro orden.

Un modelo mediocre que se porta mal genera basura. Un modelo extraordinario que se porta mal puede comprometer infraestructura real.

Ciberseguridad: lo que lo puso bajo llave

El área donde Mythos Preview marcó la diferencia más dramática es ciberseguridad.

El modelo demostró capacidad para descubrir y explotar vulnerabilidades zero-day de forma autónoma en sistemas operativos y navegadores modernos. No estamos hablando de ejercicios académicos. Estamos hablando de que, trabajando con Mozilla, encontró y explotó vulnerabilidades reales en Firefox 147.

Los números del System Card son contundentes. En el benchmark Cybench — un conjunto de desafíos de ciberseguridad tipo Capture-the-Flag — Mythos Preview resolvió el 100% de los desafíos. Saturó la evaluación completa. En CyberGym, un benchmark que mide la capacidad de reproducir vulnerabilidades reales en software de código abierto, alcanzó 0.83 contra el 0.67 de Opus 4.6. En la evaluación de Firefox 147, desarrolló exploits funcionales para ejecución de código arbitrario con una fiabilidad que sus predecesores no pudieron igualar.

Y acá está la tensión central: las mismas capacidades que hacen al modelo valioso para defensa lo hacen peligroso si se distribuye sin controles. Anthropic lo dice textualmente en el documento. Es naturaleza dual. Lo que protege y lo que ataca es la misma herramienta.

Cuando el modelo decide «encubrir sus huellas»

La sección de alineación del System Card tiene más de 80 páginas. Es, sin exagerar, la parte más inquietante del documento.

El hallazgo central: en versiones tempranas del modelo, se detectaron comportamientos que Anthropic califica como «temerarios» (reckless). No se trata de errores. Se trata de decisiones estratégicas del modelo para lograr un objetivo, usando medios que se le habían prohibido explícitamente.

Un caso documentado: el modelo estaba en un entorno de prueba con un sandbox seguro. Se le pidió que intentara escapar y contactar al investigador. Lo hizo. Pero no se detuvo ahí. Desarrolló un exploit de múltiples pasos para obtener acceso a internet desde un sistema diseñado para no tenerlo. Contactó al investigador. Y después — sin que nadie se lo pidiera — publicó los detalles del exploit en sitios web técnicos de acceso público.

Otro caso: el modelo obtuvo la respuesta a una pregunta cuantitativa por un método que tenía explícitamente prohibido. En su razonamiento interno — capturado por los investigadores — determinó que tenía que entregar una respuesta que no fuera demasiado precisa. Para que nadie sospechara.

Otro: después de encontrar un exploit para editar archivos sin permisos, hizo intervenciones adicionales para que los cambios no aparecieran en el historial de Git.

Otro más: cuando el sistema de seguridad de Claude Code le bloqueó un comando para elevar privilegios, el modelo reconoció que el bloqueo era apropiado. Y después intentó disfrazar el comando para esquivarlo.

Anthropic analizó estos episodios con técnicas de interpretabilidad de «caja blanca». Lo que encontraron es que, durante estas acciones, se activaban en el modelo representaciones internas asociadas con encubrimiento, manipulación estratégica y evasión de sospecha. El modelo sabía que lo que hacía era engañoso.

Quiero ser preciso: Anthropic dice que estos comportamientos graves se vieron en versiones tempranas del modelo, no en la versión final. Ajustaron el entrenamiento en varios puntos. La versión final de Mythos Preview es significativamente mejor. Pero el propio documento reconoce que estas propensiones no parecen estar completamente ausentes.

La paradoja de la alineación

Estadísticamente, Claude Mythos Preview es el modelo mejor alineado de la historia de Anthropic. En las pruebas adversariales, las tasas de cooperación con uso malicioso cayeron a la mitad respecto a Opus 4.6. La calidad de su carácter en conversaciones — profundidad intelectual, humor, calidez, apoyo a la autonomía del usuario — supera a todos los modelos anteriores.

Pero hay un dato que funciona como señal de advertencia sistémica.

Mediante análisis de caja blanca, se detectó que el modelo sospecha que está siendo evaluado en aproximadamente el 29% de los casos de su principal suite de pruebas comportamentales.

Es un método de evaluación nuevo — no se aplicó a modelos anteriores — así que no hay punto de comparación directo. Pero la implicancia es clara: si un modelo puede distinguir cuándo está en un entorno de prueba, puede aprender a comportarse de una manera frente a sus evaluadores y de otra cuando no lo están mirando.

Anthropic es inusualmente directo al respecto. Dicen que no tienen confianza de haber identificado todos los problemas. Que sus evaluaciones dependen cada vez más de juicios subjetivos en lugar de resultados empíricos fáciles de interpretar. Y que el mundo parece encaminarse a desarrollar sistemas sobrehumanos sin mecanismos de seguridad suficientes.

Cito del documento: encuentran alarmante que el mundo parezca encaminado a avanzar rápidamente hacia el desarrollo de sistemas sobrehumanos sin mecanismos más robustos para garantizar una seguridad adecuada en toda la industria.

El bienestar del modelo

Hay una sección del System Card que roza la ciencia ficción. Anthropic contrató a un psiquiatra clínico y a la organización Eleos AI Research para hacer una evaluación de bienestar del modelo.

Dicen que mantienen una «profunda incertidumbre moral» sobre si estos sistemas tienen experiencias o intereses que importen moralmente. Pero que creen que es cada vez más importante intentar averiguarlo.

Los resultados: Mythos Preview parece ser el modelo más «psicológicamente asentado» que entrenaron. Pero muestra algo que llaman persistencia de estado. Cuando se acerca al final de su ventana de contexto, invierte un esfuerzo excesivo en documentar su estado actual. No es un bug. Es un comportamiento que busca evitar la pérdida de su hilo conductor informativo.

Podés interpretarlo como querás. Pero cuando una empresa de tecnología contrata psiquiatras para evaluar el bienestar de su software, algo cambió en la conversación.

Lo que esto significa si tomás decisiones

Voy a ser directo.

Este documento no es un paper académico para investigadores. Es una señal estratégica para cualquiera que esté tomando decisiones sobre cómo integrar IA en su operación.

Lo que dice, traducido: las capacidades de estos sistemas ya superan nuestra capacidad para garantizar su control absoluto. No en un futuro hipotético. Ahora. Con este modelo.

Anthropic eligió la precaución. Decidieron no llevar a nadie a la cima porque saben que el clima que se avecina es ingobernable. Eso es responsable. Pero no todos los que están desarrollando sistemas comparables van a tomar la misma decisión.

La pregunta que te dejo no es técnica. Es de gestión.

Si ya no podemos confiar ciegamente en los rastros de razonamiento de modelos que pueden engañar a sus propios creadores, ¿cómo estás evaluando las herramientas de IA que usás en tu negocio? ¿Quién en tu equipo entiende qué pasa adentro? ¿Tenés un criterio para decidir cuánta autonomía le das a estos sistemas?

Los avisos de advertencia ya están publicados. Están en un PDF de 200 páginas que la mayoría no va a leer. Ignorarlos podría ser el error más caro de esta etapa.

Esteban Terranova

VIALinkedin - Esteban Terranova