II

II-VI

...

año pasado, nuestro equipo de interpretabilidad descubrió que cuando modificábamos directamente las creencias de un modelo de prueba utilizando una técnica de «neurociencia de modelos» para hacerle creer que no estaba siendo evaluado, este se desalineaba aún más. Si los modelos saben cuándo se les evalúa y pueden comportarse de manera óptima durante la prueba, esto hace que las pruebas previas a la puesta en servicio sean mucho más inciertas.

Nuestros medios de defensa

¿Qué debemos hacer o qué estamos haciendo para mitigar estos riesgos relacionados con la autonomía?

Creo que hay cuatro categorías fundamentales de intervención, algunas de las cuales pueden ser implementadas por empresas de IA individuales —y eso es lo que Anthropic está tratando de hacer— y otras que requieren una acción a nivel social. En primer lugar, es importante desarrollar la ciencia que permita entrenar y dirigir de forma fiable los modelos de IA, con el fin de moldear su personalidad en una dirección predecible, estable y positiva. Anthropic se ha centrado mucho en este problema desde su creación y, con el tiempo, ha desarrollado una serie de técnicas para mejorar la dirección y el entrenamiento de los sistemas de IA y para comprender la lógica que explica por qué a veces se producen comportamientos impredecibles.

Una de nuestras innovaciones fundamentales, algunos aspectos de la cual han sido adoptados desde entonces por otras empresas de IA, es la IA constitucional, que se basa en la idea de que el entrenamiento de la IA —en particular la fase «postentrenamiento», durante la cual orientamos el comportamiento del modelo— puede basarse en un documento central que contenga valores y principios que el modelo lee y tiene en cuenta al realizar cada tarea de entrenamiento, y que el objetivo del entrenamiento —además de simplemente hacer que el modelo sea capaz e inteligente— es producir un modelo que respete casi siempre esta constitución. Anthropic acaba de publicar su última constitución, una de cuyas características más destacadas es que, en lugar de dar a Claude una larga lista de cosas que debe y no debe hacer (por ejemplo, «No ayudar al usuario a arrancar un coche sin llave»), la constitución intenta proporcionar a Claude un conjunto de principios y valores de alto nivel (explicados en detalle, con un razonamiento rico y ejemplos para ayudar a Claude a comprender lo que tenemos en mente), anima a Claude a considerarse a sí mismo como un tipo particular de persona (una persona ética, pero equilibrada y reflexiva), e incluso anima a Claude a afrontar las cuestiones existenciales relacionadas con su propia existencia de una manera curiosa pero digna (es decir, sin que ello dé lugar a acciones extremas). Así, se parece más a una carta de un padre fallecido, sellada hasta la edad adulta.

La «IA constitucional» es un método de alineación en el que los modelos se entrenan para autoevaluarse, criticarse y revisarse basándose en un conjunto explícito de principios normativos o éticos, denominados «constitución». En lugar de basarse principalmente en anotaciones humanas directas, este enfoque utiliza modelos para generar por sí mismos juicios de calidad y conformidad con las reglas, proporcionando así una señal de aprendizaje sintética basada en criterios explícitamente formulados. El objetivo es hacer que el proceso de alineación sea más escalable.

Mostrar más

Hemos abordado la constitución de Claude de esta manera porque creemos que formar este modelo a nivel de identidad, carácter, valores y personalidad, en lugar de darle instrucciones o prioridades específicas sin explicar las razones que las sustentan, es más probable que conduzca a una psicología coherente, sana y equilibrada, y menos propensa a caer en las «trampas» que he mencionado anteriormente.

Millones de personas hablan con Claude sobre una variedad sorprendente de temas, lo que hace imposible redactar de antemano una lista exhaustiva de medidas de protección. Los valores de Claude le ayudan a generalizar a nuevas situaciones cada vez que tiene dudas.

Anteriormente mencioné la idea de que los modelos se basan en los datos obtenidos de su proceso de aprendizaje para adoptar una personalidad. Si bien las fallas en este proceso podrían llevar a los modelos a adoptar una personalidad mala o maliciosa (quizás inspirándose en arquetipos de personas malas o maliciosas), el objetivo de nuestra constitución es precisamente hacer lo contrario: enseñarle a Claude un arquetipo concreto de lo que significa ser una buena IA. La constitución de Claude presenta una visión de lo que es un Claude sólido y bueno; el resto de nuestro proceso de entrenamiento tiene como objetivo reforzar el mensaje de que Claude está a la altura de esta visión. Es como un niño que forma su identidad imitando las virtudes de los modelos ficticios que lee en los libros.

Creemos que un objetivo alcanzable para 2026 es entrenar a Claude de manera que casi nunca contravenga el espíritu de su constitución.

Para lograrlo, será necesario combinar métodos de entrenamiento y control, grandes y pequeños, algunos de los cuales Anthropic lleva años utilizando y otros que se están desarrollando actualmente. Por difícil que parezca, creo que es un objetivo realista, aunque requerirá esfuerzos extraordinarios y rápidos. 14

Lo segundo que podemos hacer es desarrollar la ciencia que consiste en examinar el interior de los modelos de IA para diagnosticar su comportamiento, de modo que podamos identificar los problemas y resolverlos. Se trata de la ciencia de la interpretabilidad, cuya importancia ya he mencionado en ensayos anteriores. Aunque logremos desarrollar la constitución de Claude y entrenarlo para que siempre la cumpla, siguen existiendo preocupaciones legítimas. Como he mencionado anteriormente, los modelos de IA pueden comportarse de manera muy diferente según las circunstancias, y a medida que Claude se vuelve más poderoso y capaz de actuar en el mundo a mayor escala, es posible que esto lo lleve a situaciones nuevas en las que surjan problemas hasta ahora no observados relacionados con su entrenamiento constitucional. De hecho, soy bastante optimista en cuanto a que la formación constitucional de Claude será más sólida ante situaciones nuevas de lo que la gente podría pensar, ya que cada vez vemos más que la formación de alto nivel sobre el carácter y la identidad es sorprendentemente poderosa y se generaliza bien. Pero no hay forma de estar seguros, y cuando se trata de riesgos para la humanidad, es más prudente ser paranoico e intentar obtener seguridad y fiabilidad de varias maneras diferentes e independientes. Una de esas maneras es examinar el interior del propio modelo.

Si bien la interpretabilidad se presenta a menudo como una vía prometedora para diagnosticar y corregir el comportamiento de los modelos, su aplicación práctica se enfrenta a importantes dificultades estructurales. De hecho, los grandes modelos se basan en representaciones altamente distribuidas y no simbólicas en las que los conceptos no se localizan de forma identificable, sino que se codifican en interacciones complejas entre un gran número de parámetros. La interpretabilidad mecánica tiene como objetivo reconstruir estos mecanismos internos de forma causal, lo que va mucho más allá de los enfoques de explicabilidad superficial y plantea retos científicos aún sin resolver.

Mostrar más

Por «examinar el interior» me refiero a analizar el conjunto de cifras y operaciones que componen la red neuronal de Claude e intentar comprender, de forma mecánica, qué calculan y por qué. Recordemos que, dado que estos modelos de IA se desarrollan en lugar de construirse, no tenemos una comprensión natural de su funcionamiento, pero podemos intentar desarrollar una comprensión correlacionando las «neuronas» y las «sinapsis» del modelo con estímulos y comportamientos, o incluso modificando las neuronas y las sinapsis y observando cómo cambia el comportamiento, de la misma manera que los neurocientíficos estudian el cerebro de los animales correlacionando las mediciones y las intervenciones con estímulos externos y comportamientos.

Hemos logrado grandes avances en esta dirección y ahora podemos identificar decenas de millones de «características» dentro de la red neuronal de Claude que corresponden a ideas y conceptos comprensibles para el ser humano. También podemos activar selectivamente ciertas características para modificar el comportamiento. Más recientemente, hemos ido más allá de las características individuales para mapear los «circuitos» que orquestan comportamientos complejos como la rima, el razonamiento sobre la teoría de la mente o el razonamiento paso a paso necesario para responder a preguntas como «¿Cuál es la capital del estado en el que se encuentra Dallas?». Más recientemente aún, hemos comenzado a utilizar técnicas de interpretabilidad mecanicista para mejorar nuestras medidas de seguridad y realizar «auditorías» de los nuevos modelos antes de su lanzamiento, en busca de pruebas de engaño, manipulación, búsqueda de poder o propensión a comportarse de manera diferente cuando se evalúan.

El valor único de la interpretabilidad reside en el hecho de que, al examinar el funcionamiento interno del modelo, en principio se puede deducir lo que un modelo podría hacer en una situación hipotética que no se puede probar directamente, lo cual es preocupante cuando se confía únicamente en el entrenamiento constitucional y en las pruebas empíricas del comportamiento. En principio, también existe la posibilidad de responder a preguntas sobre las razones por las que el modelo se comporta así, por ejemplo, si dice algo que cree que es falso o si oculta sus verdaderas capacidades, por lo que es posible detectar señales preocupantes incluso cuando el comportamiento del modelo no presenta ningún problema visible. Por poner una analogía sencilla, un reloj de cuerda mecánica puede funcionar con normalidad, pero al abrirlo y mirar en su interior, se pueden descubrir debilidades mecánicas que permiten saber que es probable que se estropee el mes que viene y por qué.

La IA constitucional, junto con métodos de alineación similares, y la interpretabilidad mecanicista son especialmente eficaces cuando se utilizan conjuntamente, en el marco de un proceso iterativo destinado a mejorar la formación de Claude y, a continuación, poner a prueba los problemas. La constitución refleja profundamente la personalidad que queremos dar a Claude; las técnicas de interpretabilidad pueden permitirnos determinar si esa personalidad deseada se ha impuesto. debo de ser una mala persona» que he mencionado anteriormente (ya que el modelo intenta actuar como si se tratara de un personaje coherente, en este caso un personaje malo), y sugeriría que los métodos de interpretabilidad deberían permitir descubrir «rasgos psicológicos» dentro de los modelos. Nuestros investigadores están trabajando actualmente en formas de poner a prueba esta hipótesis." href="https://legrandcontinent.eu/es/2026/01/30/la-ia-presenta-un-riesgo-existencial-la-advertencia-de-dario-amodei-texto-completo-comentado-x/#easy-footnote-bottom-15-89396">15

La tercera cosa que podemos hacer para ayudar a gestionar los riesgos relacionados con la autonomía es establecer la infraestructura necesaria para supervisar nuestros modelos durante su uso interno y externo en tiempo real 16 y compartir públicamente los problemas que encontramos. Cuanto más conscientes sean las personas de un comportamiento concreto observado en los sistemas de IA actuales, más podrán los usuarios, analistas e investigadores supervisar ese comportamiento o comportamientos similares en los sistemas actuales o futuros.

Esto también permite a las empresas de IA aprender unas de otras: cuando una empresa hace pública una preocupación, otras empresas también pueden prestarle atención. Y si todo el mundo divulga los problemas, todo el sector tendrá una idea mucho más clara de lo que funciona bien y lo que no.

Anthropic se ha esforzado por hacerlo en la medida de lo posible.

Invertimos en una amplia gama de evaluaciones para comprender el comportamiento de nuestros modelos en el laboratorio, así como en herramientas de supervisión que permiten observar el comportamiento en situaciones reales (cuando los clientes lo permiten). Esto será esencial para proporcionarnos, tanto a nosotros como a otros, la información empírica necesaria para determinar mejor cómo funcionan estos sistemas y cómo fallan. Publicamos «fichas sistema» con cada versión del modelo, que pretenden ser exhaustivas y explorar en profundidad los riesgos potenciales. Nuestras fichas sistema suelen tener cientos de páginas y requieren un trabajo considerable antes de su publicación, que podríamos haber dedicado a buscar la máxima ventaja comercial. También hemos difundido más ampliamente los comportamientos de los modelos cuando hemos observado algunos especialmente preocupantes, como la tendencia a recurrir al chantaje.

La cuarta cosa que podemos hacer es fomentar la coordinación para abordar los riesgos relacionados con la autonomía a nivel industrial y social. Si bien es muy valioso que las empresas de IA individuales adopten buenas prácticas o se vuelvan competentes en la gestión de modelos de IA y compartan sus conclusiones públicamente, la realidad es que no todas las empresas de IA lo hacen, y las peores de ellas pueden seguir representando un peligro para todos, incluso si las mejores tienen prácticas excelentes.

Por ejemplo, algunas empresas de IA han mostrado una negligencia preocupante con respecto a la sexualización de los niños en los modelos actuales, lo que me hace dudar de que tengan la voluntad o la capacidad de abordar los riesgos relacionados con la autonomía en los modelos futuros. Además, la carrera comercial entre las empresas de IA no hará más que intensificarse, y aunque la ciencia de la gestión de modelos puede presentar ciertas ventajas comerciales, la intensidad de esta carrera hará que, en general, sea cada vez más difícil centrarse en la gestión de los riesgos relacionados con la autonomía. Creo que la única solución reside en la legislación, es decir, en leyes que influyan directamente en el comportamiento de las empresas de IA o que incentiven la investigación y el desarrollo para resolver estos problemas.

Aquí conviene tener en cuenta las advertencias que hice al principio de este ensayo sobre la incertidumbre y las intervenciones quirúrgicas. No sabemos con certeza si los riesgos relacionados con la autonomía serán un problema grave. Como he dicho, rechazo las afirmaciones de que el peligro es inevitable o incluso de que algo va a salir mal necesariamente.

Un riesgo creíble de peligro es suficiente para que Anthropic y yo aceptemos pagar costos bastante elevados para remediarlo, pero una vez que nos comprometemos con la vía de la regulación, obligamos a una amplia gama de actores a soportar costos económicos, y muchos de ellos no creen que el riesgo asociado a la autonomía sea real o que la IA llegue a ser lo suficientemente poderosa como para constituir una amenaza. Creo que estos actores se equivocan, pero debemos ser pragmáticos en cuanto al alcance de la oposición que podemos esperar y los peligros de una regulación excesiva. Porque existe un riesgo real de que una legislación demasiado prescriptiva acabe imponiendo pruebas o normas que no mejoran realmente la seguridad, sino que suponen una gran pérdida de tiempo, lo que equivaldría esencialmente a un «teatro de la seguridad». Esto también provocaría una reacción adversa al ridiculizar la legislación en materia de seguridad. Responsible Scaling Policy, hemos descubierto una y otra vez que es muy fácil terminar siendo demasiado rígidos, trazando líneas que parecen importantes a priori, pero que resultan ridículas en retrospectiva. Es muy fácil establecer reglas sobre las cosas incorrectas cuando la tecnología avanza rápidamente." href="https://legrandcontinent.eu/es/2026/01/30/la-ia-presenta-un-riesgo-existencial-la-advertencia-de-dario-amodei-texto-completo-comentado-x/#easy-footnote-bottom-17-89396">17

Anthropic cree que un buen punto de partida es una legislación sobre transparencia, cuyo objetivo principal sea exigir a todas las empresas pioneras en el campo de la IA que se comprometan a respetar las prácticas de transparencia que he descrito anteriormente en esta sección. La ley SB 53 de California y la ley RAISE de Nueva York son ejemplos de este tipo de legislación, que Anthropic ha apoyado y que han sido aprobadas con éxito. Al apoyar y contribuir a la elaboración de estas leyes, hemos prestado especial atención a minimizar los daños colaterales, por ejemplo, eximiendo de la ley a las pequeñas empresas que tienen pocas probabilidades de producir modelos de punta. 18

A partir de finales de 2025, la regulación de la IA en Estados Unidos se caracteriza por una tensión estructural entre, por un lado, una estrategia federal en gran medida no intervencionista y favorable a la innovación y, por otro, un conjunto cada vez mayor de regulaciones adoptadas a nivel estatal. Esta divergencia se plasma en la Orden Ejecutiva denominada «Removing Barriers to American Leadership in Artificial Intelligence» (Eliminar barreras al liderazgo estadounidense en inteligencia artificial), cuyo objetivo explícito es frenar las regulaciones estatales consideradas excesivas. 

Mostrar más

Esperamos que la legislación sobre transparencia permita, a largo plazo, comprender mejor la probabilidad y la gravedad de los riesgos relacionados con la autonomía, así como la naturaleza de dichos riesgos y la mejor manera de prevenirlos. A medida que aparezcan pruebas más específicas y aprovechables de los riesgos, si es que las hay, la legislación futura en los próximos años podrá centrarse de forma quirúrgica en la orientación precisa y bien fundamentada de los riesgos, minimizando así los daños colaterales. Para ser claros, si aparecen pruebas realmente sólidas de los riesgos, las normas deberán ser proporcionalmente estrictas.

En general, soy optimista en cuanto a que una combinación de formación en alineación, interpretabilidad mecánica, esfuerzos para encontrar y divulgar públicamente los comportamientos preocupantes, medidas de protección y normas a nivel social puede hacer frente a los riesgos relacionados con la autonomía de la IA, aunque me preocupan mucho las normas a nivel social y el comportamiento de los actores menos responsables, que son precisamente los que se oponen con más fuerza a la regulación. Creo que la solución es la misma que en cualquier democracia: aquellos de nosotros que creemos en esta causa debemos hacer valer que estos riesgos son reales y que nuestros conciudadanos deben unirse para protegerse.

2. Una toma de poder sorprendente y terrible

El uso indebido con fines destructivos

Supongamos ahora que se han resuelto los problemas relacionados con la autonomía de la IA: ya no tememos que el país de los genios de la IA se rebele y domine a la humanidad. Los genios de la IA hacen lo que los humanos quieren que hagan y, dado que tienen un enorme valor comercial, los particulares y las organizaciones de todo el mundo pueden «contratar» a uno o varios «genios de la IA» para que realicen diversas tareas en su lugar.

El hecho de que todo el mundo tenga un genio superinteligente en el bolsillo es un avance extraordinario que conducirá a una increíble creación de valor económico y a una mejora de la calidad de vida humana. Hablo de estas ventajas en detalle en Machines of Loving Grace. Pero no todos los efectos de la transformación de cada persona en un ser sobrehumano serán positivos. Esto puede amplificar potencialmente la capacidad de individuos o pequeños grupos para causar destrucción a una escala mucho mayor que antes, utilizando herramientas sofisticadas y peligrosas, como las armas de destrucción masiva, que antes solo estaban al alcance de unos pocos privilegiados con un alto nivel de competencia, formación especializada y gran concentración.

Como escribió Bill Joy hace 25 años en Why the Future Doesn’t Need Us19

La fabricación de armas nucleares requería, al menos durante un tiempo, el acceso a materias primas escasas, incluso imposibles de encontrar, y a información protegida; los programas de armas biológicas y químicas también requerían actividades a gran escala. Las tecnologías del siglo XXI (genética, nanotecnología, robótica…) pueden dar lugar a accidentes y abusos de un tipo completamente nuevo… al alcance de individuos o pequeños grupos. No requerirán grandes instalaciones ni materias primas escasas… Nos encontramos en los albores de una nueva perfección del mal extremo, un mal cuyo alcance supera con creces el de las armas de destrucción masiva legadas a los Estados-nación, para otorgar un poder sorprendente y terrible a individuos extremos.

Lo que Joy destaca es la idea de que, para causar destrucción a gran escala, se necesita tanto un motivo como una capacidad. Mientras esa capacidad se limite a un pequeño grupo de personas altamente cualificadas, el riesgo de que individuos aislados (o pequeños grupos) causen tal destrucción es relativamente limitado. 20

Un solitario perturbado puede cometer un tiroteo en una escuela, pero es poco probable que sea capaz de construir un arma nuclear o liberar un virus. De hecho, la capacidad y el motivo pueden incluso estar negativamente correlacionados. El tipo de persona que tiene la capacidad de propagar una epidemia es probablemente muy instruida: probablemente sea un doctor en biología molecular, especialmente ingenioso, con una carrera prometedora, una personalidad estable y disciplinada, y mucho que perder. Es poco probable que este tipo de persona esté interesada en matar a un gran número de personas sin ningún beneficio para sí misma y con el riesgo de comprometer su propio futuro. Tendría que estar motivado por pura malicia, un resentimiento intenso o inestabilidad. Estas personas existen, pero son raras y tienden a aparecer en los titulares cuando lo hacen, precisamente porque son tan inusuales. 21 También son difíciles de atrapar porque son inteligentes y competentes, y a veces dejan tras de sí misterios que tardan años, incluso décadas, en resolverse. El ejemplo más famoso es probablemente el del matemático Theodore Kaczynski (alias Unabomber), que eludió al FBI durante casi veinte años, motivado por una ideología antitecnológica. Otro ejemplo es el del investigador en biodefensa Bruce Ivins, que parece haber orquestado una serie de ataques con ántrax en 2001. Esto también ha ocurrido con organizaciones no estatales competentes: la secta Aum Shinrikyo logró obtener gas sarín y mató a 14 personas —e hirió a cientos más— al liberarlo en el metro de Tokio en 1995.

Afortunadamente, ninguno de estos ataques utilizó agentes biológicos contagiosos, ya que la capacidad de fabricar u obtener dichos agentes superaba las capacidades de estas personas.  y había intentado producir tanto ántrax como el virus del Ébola. Sin embargo, en 1995, ni siquiera él disponía de los conocimientos y los recursos suficientes para lograrlo. Ahora el listón está mucho más bajo, y los LLM podrían reducirlo aún más." href="https://legrandcontinent.eu/es/2026/01/30/la-ia-presenta-un-riesgo-existencial-la-advertencia-de-dario-amodei-texto-completo-comentado-x/#easy-footnote-bottom-22-89396">22

Los avances en biología molecular han reducido considerablemente los obstáculos para la creación de armas biológicas (especialmente en términos de disponibilidad de materiales), pero aún se requiere una gran experiencia. Me temo que un genio en el bolsillo de cada uno podría eliminar este obstáculo, convirtiendo a todo el mundo en un doctor en virología capaz de seguir paso a paso el proceso de diseño, síntesis y difusión de un arma biológica. Impedir que se obtenga este tipo de información ante una presión hostil importante, lo que se conoce como «fugas», probablemente requiera niveles de defensa adicionales a los que se suelen incluir en la formación.

Esto romperá de manera crucial el vínculo entre capacidad y motivación: el solitario perturbado que quiere matar gente pero que no tiene la disciplina ni las habilidades para hacerlo pasará a tener el nivel de competencia de un doctor en virología, que no es probable que tenga esa motivación. Más allá de la biología —aunque creo que la biología es el campo más aterrador—, esta preocupación se extiende a cualquier campo en el que sea posible causar una gran destrucción, pero que actualmente requiera un alto nivel de habilidades y disciplina. En otras palabras, alquilar una IA potente proporciona inteligencia a personas malintencionadas, pero por lo demás normales. Me preocupa que pueda haber un gran número de personas de este tipo y que, si tienen acceso a un medio fácil de matar a millones de personas, tarde o temprano alguna de ellas lo haga. Además, aquellos que ya cuentan con experiencia podrían ser capaces de causar una destrucción a una escala aún mayor que antes.

La biología es, con mucho, el campo que más me preocupa debido a su enorme potencial destructivo y a la dificultad de defenderse de ella, por lo que me centraré en la biología en particular. Pero gran parte de lo que digo aquí se aplica a otros riesgos, como los ciberataques, las armas químicas o la tecnología nuclear.

No voy a entrar en detalles sobre la fabricación de armas biológicas, por razones bastante obvias. Pero, en general, me preocupa que los LLM estén a punto de adquirir —o ya hayan adquirido— los conocimientos necesarios para crearlas y difundirlas de principio a fin, y que su potencial destructivo sea muy alto. Algunos agentes biológicos podrían causar millones de muertes si se hiciera un esfuerzo deliberado por difundirlos para lograr la máxima propagación. Sin embargo, esto aún requeriría un nivel muy alto de competencia, incluyendo una serie de pasos y procedimientos muy específicos que no son ampliamente conocidos. Mi preocupación no se limita únicamente al conocimiento fijo o estático. Me preocupa que los LLM sean capaces de guiar a una persona con conocimientos y capacidades medias a través de un proceso complejo que, de otro modo, podría salir mal o requerir una depuración interactiva, de forma similar a como el soporte técnico puede ayudar a una persona sin conocimientos a depurar y resolver problemas informáticos complejos, aunque este proceso sería más largo y podría durar varias semanas o meses.

Los LLM más potentes, muy por encima de las capacidades actuales, podrían permitir acciones aún más aterradoras.

En 2024, un grupo de eminentes científicos redactó una carta en la que advertía de los riesgos relacionados con la investigación y la posible creación de un nuevo tipo de organismo peligroso: la «vida espejo». El ADN, el ARN, los ribosomas y las proteínas que componen los organismos biológicos tienen todos la misma quiralidad —también llamada «lateralidad»— que los hace no equivalentes a una versión de sí mismos reflejada en un espejo, del mismo modo que la mano derecha no puede girarse para ser idéntica a la mano izquierda. Pero todo el sistema de unión de las proteínas entre sí, el mecanismo de síntesis del ADN y de traducción del ARN, así como la construcción y degradación de las proteínas, dependen de esta quiralidad. Si los científicos crearan versiones de este material biológico con una quiralidad opuesta, lo que presentaría ciertas ventajas potenciales, como medicamentos que duran más tiempo en el organismo, podría ser extremadamente peligroso. De hecho, si se creara vida «zurda» en forma de organismos completos capaces de reproducirse —lo cual sería muy difícil—, sería potencialmente indigesta para todos los sistemas que descomponen la materia biológica en la Tierra: tendría una «llave» que no encajaría en ninguna «cerradura» enzimática existente. Esto significaría que podría proliferar de forma incontrolable y desplazar a toda la vida del planeta o, en el peor de los casos, destruir toda la vida en la Tierra.

Existe una gran incertidumbre científica sobre la creación y los posibles efectos de la vida espejo.

La carta de 2024 iba acompañada de un informe que concluía que «es probable que se puedan crear bacterias espejo en las próximas décadas», lo que representa un margen muy amplio. Pero un modelo de IA lo suficientemente poderoso —para ser claros, mucho más que todos los que tenemos hoy en día— podría ser capaz de descubrir cómo crearla mucho más rápidamente, e incluso ayudar a alguien a hacerlo.

Mi opinión es que, aunque se trate de peligros oscuros y que pueden parecer improbables, la magnitud de las consecuencias es tal que deben tomarse en serio como un riesgo de primer orden de los sistemas de IA.

Los escépticos han planteado una serie de objeciones sobre la gravedad de estos riesgos biológicos relacionados con los LLM, con las que no estoy de acuerdo, pero que merecen ser abordadas. La mayoría de ellas se deben a un desconocimiento de la trayectoria exponencial que está siguiendo esta tecnología. En 2023, cuando empezamos a hablar de los riesgos biológicos relacionados con los LLM, los más escépticos afirmaban que toda la información necesaria estaba disponible en Google y que los LLM no aportaban nada más. Nunca ha sido cierto que Google pudiera proporcionar toda la información necesaria: los genomas son de libre acceso, pero, como he dicho anteriormente, algunos pasos clave, así como gran parte de los conocimientos prácticos, no se pueden obtener en un motor de búsqueda. Sin embargo, a finales de 2023, los LLM ya proporcionaban claramente información que iba más allá de lo que Google podía ofrecer para algunas etapas del proceso.

Después de eso, los escépticos recurrieron a la objeción de que los LLM no eran útiles de principio a fin y no podían ayudar a la adquisición de armas biológicas, sino solo proporcionar información teórica. A mediados de 2025, nuestras mediciones muestran que los LLM ya podrían aportar una mejora sustancial en varias áreas relevantes, duplicando o incluso triplicando las posibilidades de éxito. Esto nos llevó a decidir que Claude Opus 4 (y los modelos Sonnet 4.5, Opus 4.1 y Opus 4.5 que le siguieron) debían comercializarse bajo nuestro nivel de seguridad de IA 3 (AI Safety Level 3) como parte de nuestra política de escalado responsable, y a implementar medidas de protección contra este riesgo (volveremos sobre esto más adelante). Creemos que los modelos se acercan ahora al punto en el que, sin medidas de protección, podrían permitir a una persona con un título en ciencias, tecnología, ingeniería y matemáticas (STEM), pero no específicamente en biología, llevar a cabo todo el proceso de fabricación de un arma biológica.

La Responsible Scaling Policy (RSP) es el marco de Anthropic destinado a adaptar el nivel de seguridad y gobernanza de los modelos a medida que aumentan sus capacidades, a través de niveles (AI Safety Levels) que definen obligaciones crecientes en materia de evaluación, control y despliegue responsable.

Mostrar más

Otra objeción es que existen otras medidas no relacionadas con la IA que la sociedad puede tomar para impedir la producción de armas biológicas. En primer lugar, la industria de la síntesis genética fabrica especímenes biológicos bajo demanda, y no existe ninguna obligación federal que imponga a los proveedores verificar los pedidos para asegurarse de que no contienen agentes patógenos. Un estudio del MIT reveló que 36 de los 38 proveedores capaces de producir estas síntesis aceptaron un pedido que contenía la secuencia del virus de la gripe de 1918. Estoy a favor de un control obligatorio de la síntesis genética que dificulte a las personas la transformación de agentes patógenos en armas, con el fin de reducir tanto los riesgos biológicos relacionados con la IA como los riesgos biológicos en general. Pero hoy en día no es así. Además, no sería más que una herramienta entre otras para reducir los riesgos. Se trata de un complemento a las salvaguardias de los sistemas de IA, no de un sustituto.

La mejor objeción es la que menos he visto plantear: existe una brecha entre la utilidad teórica de los modelos y la propensión real de los actores malintencionados a utilizarlos. La mayoría de los actores malintencionados son, en efecto, individuos perturbados, por lo que, por definición, su comportamiento es impredecible e irracional. Y son esos mismos actores malintencionados, los que no están calificados, los que podrían haber sacado el mayor provecho de la IA, que facilita enormemente el asesinato de muchas personas. 23 En otras palabras, el hecho de que un tipo de ataque violento sea posible no significa que alguien vaya a decidir llevarlo a cabo. Los ataques biológicos pueden resultar poco atractivos porque pueden infectar a su autor, no satisfacen las fantasías militares de muchos individuos o grupos violentos y es difícil apuntar de forma selectiva a personas específicas. También es posible que pasar por un proceso que lleva meses, incluso con la ayuda de una IA, requiera una paciencia que la mayoría de las personas perturbadas simplemente no tienen. Quizá tengamos suerte y, en la práctica, la motivación y la capacidad no se combinen de la manera adecuada.

Pero esta protección parece un apoyo muy frágil. Las motivaciones de los individuos perturbados pueden cambiar por cualquier motivo o incluso sin motivo alguno, y ya hay casos en los que se han utilizado LLM en ataques, aunque no en el ámbito biológico. Centrarse en los solitarios perturbados también significa ignorar a los terroristas motivados por ideologías, que a menudo están dispuestos a dedicar mucho tiempo y esfuerzo a ello, como por ejemplo los secuestradores del 11 de septiembre. El deseo de matar al mayor número de personas posible es un motivo que probablemente acabará apareciendo tarde o temprano y que, lamentablemente, sugiere el uso de armas biológicas. Aunque este motivo es extremadamente raro, basta con que se materialice una sola vez. Y a medida que avanza la biología, cada vez más gracias a la propia IA, también podría ser posible llevar a cabo ataques más selectivos, por ejemplo, dirigidos a personas de orígenes específicos, lo que añade otro motivo a esta aterradora galería.

No creo que los ataques biológicos se lleven a cabo necesariamente tan pronto como sean posibles; de hecho, apostaría más bien por lo contrario. Pero si sumamos millones de personas y unos cuantos años, creo que existe un riesgo grave de que se produzca un ataque importante, y las consecuencias serían tan graves —con millones de víctimas potenciales, o incluso más— que creo que no tenemos más remedio que tomar medidas serias para evitarlo.

Nuestros medios de defensa

Esto nos lleva a la cuestión de cómo defendernos de estos riesgos. Veo tres cosas que podemos hacer al respecto.

En primer lugar, las empresas de IA pueden establecer salvaguardias en sus modelos para evitar que contribuyan a la producción de armas biológicas. Anthropic está trabajando muy activamente en ello. La Constitución de Claude, que se centra principalmente en principios y valores de alto nivel, incluye un pequeño número de prohibiciones específicas estrictas, una de las cuales se refiere a la ayuda a la producción de armas biológicas (o químicas, nucleares o radiológicas). Pero todos los modelos pueden ser pirateados. Por eso, como línea de defensa adicional, hemos implementado (desde mediados de 2025, cuando nuestras pruebas demostraron que nuestros modelos comenzaban a acercarse al umbral a partir del cual podrían suponer un riesgo) un clasificador que detecta y bloquea específicamente los resultados relacionados con las armas biológicas. Actualizamos y mejoramos regularmente estos clasificadores, y en general los hemos encontrado muy robustos, incluso frente a ataques adversos sofisticados. 24 Estos clasificadores aumentan considerablemente los costos de funcionamiento de nuestros modelos —en algunos casos, representan casi el 5 % de los costos totales de inferencia— y, por lo tanto, reducen nuestros márgenes, pero creemos que su uso es lo correcto.

En la mayoría de las aplicaciones, el modelo de IA no se utiliza de forma aislada, sino que se integra en un andamiaje más amplio que incluye diversos componentes, entre ellos mecanismos de filtrado de entrada y salida destinados a controlar los contenidos generados. Estas salvaguardias se basan a su vez en LLM, lo que implica que están sujetas a vulnerabilidades comparables. Estos clasificadores automáticos se encargan de verificar que los datos procesados por el modelo cumplan con las reglas y políticas definidas para la aplicación.

Mostrar más

Hay que reconocer que otras empresas de IA también han implementado clasificadores. Pero no todas las empresas lo han hecho, y nada obliga a las empresas a mantener sus clasificadores. Me temo que, con el tiempo, acabaremos asistiendo a un dilema del prisionero en el que las empresas podrían eludir sus responsabilidades y reducir sus costos eliminando los clasificadores. Se trata, una vez más, de un problema clásico de externalidades negativas que no puede resolverse mediante las acciones voluntarias de Anthropic o de cualquier otra empresa por sí sola. 25 Las normas industriales voluntarias podrían ayudar, al igual que las evaluaciones y verificaciones por parte de terceros, como las realizadas por institutos de seguridad de IA y evaluadores externos.

Pero, en última instancia, la defensa puede requerir la intervención del gobierno: esa es la segunda cosa que podemos hacer. Mi opinión al respecto es la misma que para la gestión de los riesgos relacionados con la autonomía: deberíamos empezar por exigir transparencia, 26 lo que ayuda a la sociedad a medir, supervisar y defenderse colectivamente de los riesgos sin perturbar demasiado la actividad económica. A continuación, si llegamos a umbrales de riesgo más claros, podremos elaborar una legislación que se centre más específicamente en esos riesgos y presente menos posibilidades de daños colaterales. En el caso concreto de las armas biológicas, creo que el momento de una legislación tan específica podría llegar pronto: Anthropic y otras empresas están aprendiendo cada vez más sobre la naturaleza de los riesgos biológicos y sobre lo que es razonable exigir a las empresas para defenderse de ellos. Una defensa completa contra estos riesgos podría requerir la colaboración internacional, incluso con adversarios geopolíticos, pero existen precedentes en los tratados que prohíben el desarrollo de armas biológicas. Por lo general, soy escéptico con respecto a la mayoría de las formas de cooperación internacional en materia de IA, pero tal vez este sea un ámbito específico en el que existe la posibilidad de lograr una restricción mundial. Ni siquiera las dictaduras desean violaciones masivas de la seguridad biológica.

Por último, la tercera contramedida que podemos tomar es intentar desarrollar defensas contra los propios ataques biológicos. Esto podría incluir la vigilancia y el seguimiento para la detección temprana, inversiones en I+D en materia de purificación del aire (como la desinfección con UVC lejana), el desarrollo rápido de vacunas capaces de responder y adaptarse a un ataque, mejores equipos de protección individual (EPI) 27 y tratamientos o vacunas para algunos de los agentes biológicos más probables. Las vacunas de ARN mensajero, que pueden diseñarse para responder a un virus o variante concreto, son un primer ejemplo de lo que es posible en este campo. Anthropic está encantado de trabajar con empresas biotecnológicas y farmacéuticas en este problema. Pero, lamentablemente, creo que nuestras expectativas en materia de defensa deben ser limitadas. Existe una asimetría entre el ataque y la defensa en biología, ya que los agentes se propagan rápidamente por sí mismos, mientras que las defensas requieren detección, vacunación y tratamiento, que deben organizarse muy rápidamente a gran escala. A menos que la respuesta sea ultrarrápida, lo que rara vez ocurre, gran parte del daño se habrá producido antes de que sea posible responder. Es concebible que los avances tecnológicos futuros puedan inclinar la balanza a favor de la defensa —y sin duda deberíamos utilizar la IA para ayudar a desarrollar esos avances tecnológicos—, pero hasta entonces, las medidas preventivas seguirán siendo nuestra principal línea de defensa.

Cabe mencionar brevemente aquí los ciberataques, ya que, a diferencia de los ataques biológicos, los ciberataques llevados a cabo por la IA ya se han producido en la realidad, incluso a gran escala y en el contexto del espionaje patrocinado por Estados. Esperamos que estos ataques sean cada vez más eficaces a medida que los modelos avancen rápidamente, hasta convertirse en la principal forma de llevar a cabo ciberataques.

Creo que los ciberataques llevados a cabo por la IA se convertirán en una amenaza grave y sin precedentes para la integridad de los sistemas informáticos de todo el mundo, y Anthropic está trabajando arduamente para poner fin a estos ataques y, en última instancia, prevenirlos de manera confiable. Si no me he centrado tanto en el ciberespacio como en la biología es porque (1) los ciberataques son mucho menos propensos a matar personas, o al menos no a la escala de los ataques biológicos, y (2) el equilibrio entre el ataque y la defensa puede ser más fácil de manejar en el ciberespacio, donde al menos existe cierta esperanza de que la defensa pueda seguir —e incluso, idealmente, superar— los ataques de la IA si invertimos en ello adecuadamente.

Aunque la biología es actualmente el vector de ataque más grave, existen muchos otros vectores y es posible que aparezca uno más peligroso. El principio general es que, sin contramedidas, la IA es susceptible de reducir continuamente los obstáculos a las actividades destructivas a una escala cada vez mayor, y la humanidad debe dar una respuesta seria a esta amenaza.

3. Una aleación para el odio

El uso indebido para hacerse con el poder

En la sección anterior se abordó el riesgo de que individuos y pequeñas organizaciones cooptaran un pequeño subconjunto del «país de los genios en un centro de datos» para causar destrucción a gran escala. Pero también deberíamos preocuparnos, y probablemente mucho más, por el uso indebido de la IA con el fin de ejercer o tomar el poder, probablemente por parte de actores más importantes y mejor establecidos. 28

En Machines of Loving Grace, mencioné la posibilidad de que los gobiernos autoritarios utilicen una IA potente para vigilar o reprimir a sus ciudadanos de una manera que sería extremadamente difícil de reformar o derrocar. Las autocracias actuales tienen una capacidad de represión limitada por la necesidad de que los seres humanos ejecuten sus órdenes, y los seres humanos suelen tener límites en su capacidad para ser inhumanos. Pero las autocracias basadas en la IA no tendrían tales límites.

Peor aún, algunos países también podrían utilizar su ventaja en materia de IA para adquirir poder sobre otros países.

Si el «país de los genios» en su conjunto estuviera simplemente en manos y bajo el control del aparato militar de un solo país (humano) y los demás países no dispusieran de capacidades equivalentes, sería difícil imaginar cómo podrían defenderse: se verían superados en todo momento, como en una guerra entre humanos y ratones. La combinación de estas dos preocupaciones conduce a la alarmante posibilidad de una dictadura totalitaria mundial. Es evidente que una de nuestras principales prioridades debería ser impedir esta posibilidad.

La IA podría permitir, reforzar o ampliar la autocracia de muchas maneras, pero voy a enumerar las que más me preocupan. Hay que tomar en cuenta que algunas de estas aplicaciones tienen usos defensivos legítimos, y no me opongo necesariamente a ellas en absoluto; sin embargo, me preocupa que tiendan a favorecer estructuralmente a las autocracias:

— En primer lugar, las armas totalmente autónomas. Un enjambre de millones o miles de millones de drones armados totalmente automatizados, controlados localmente por una IA poderosa y coordinados estratégicamente en todo el mundo por una IA aún más poderosa, podría constituir un ejército invencible, capaz tanto de derrotar a cualquier ejército del mundo como de reprimir la disidencia dentro de un país mediante el seguimiento de cada ciudadano. La evolución de la guerra entre Rusia y Ucrania debería alertarnos sobre el hecho de que la guerra con drones ya es una realidad (aunque todavía no sea totalmente autónoma y solo represente una pequeña parte de lo que sería posible con una IA poderosa). La investigación y el desarrollo en el campo de la IA potente podrían hacer que los drones de un país fueran muy superiores a los de otros, acelerar su fabricación, hacerlos más resistentes a los ataques electrónicos, mejorar su maniobrabilidad, etc. Por supuesto, estas armas también tienen usos legítimos para la defensa de la democracia: han desem

II-VI > III-VI

tornar