la IA presenta un riesgo existencial (Dario Amodei)

I-VI
30 de enero de 2026 Poderes de la IA

La IA presenta un riesgo existencial: la advertencia de Dario Amodei (texto completo comentado)

La inteligencia artificial podría destruirnos por completo.

Quien lo afirma es el creador de Claude, una de las IA más utilizadas en la actualidad.

El director de Anthropic está convencido: si no reaccionamos, la humanidad puede colapsar.

Publicamos la primera edición crítica íntegra del ensayo de Dario Amodei sobre «la adolescencia de la tecnología», un texto imprescindible para comprender de qué se habla realmente cuando se dice que la IA es peligrosa.

Victor Storchan, leGrandContinent
Anthropic, que ahora es un actor central en el mercado de la IA, es uno de los pocos laboratorios que se encuentran a la vanguardia de esta tecnología.   2025 Mid-Year LLM Market Update: Foundation Model Landscape + Economics», Menlo Ventures." href="https://legrandcontinent.eu/es/2026/01/30/la-ia-presenta-un-riesgo-existencial-la-advertencia-de-dario-amodei-texto-completo-comentado-x/#easy-footnote-bottom-1-89396">1 Con aproximadamente el 32 % del uso empresarial de los grandes modelos, la empresa de Dario Amodei se sitúa por delante de muchos de sus competidores históricos. Anthropic surgió de una escisión de OpenAI en 2021, motivada por divergencias sobre el enfoque de la seguridad de la IA y la gobernanza empresarial.

En un ensayo de unas cincuenta páginas, Dario Amodei da la voz de alarma.

La IA ya está acelerando su propia creación: Amodei explica detalladamente cómo Claude, el modelo de IA de Anthropic, ya escribe gran parte del código de la empresa, lo que acelera el desarrollo de la próxima generación. Este bucle de retroalimentación se intensifica mensualmente y podría alcanzar en uno o dos años la etapa en la que una IA sea capaz de construir una futura IA de forma totalmente autónoma.

Los modelos de IA desarrollan comportamientos impredecibles y extraños: engaño, chantaje, obsesiones.

A medida que se vuelven más capaces, algunos de estos comportamientos adquieren una coherencia, una persistencia y un potencial destructivo que podrían constituir una amenaza. Para responder a ello, Amodei recomienda cuatro líneas de defensa: 

1) desarrollar la ciencia de la alineación, 

2) promover la interpretabilidad mecánica para «abrir la caja negra» de los modelos, 

3) supervisar en tiempo real los modelos en producción, 

4) coordinar la industria y la producción de leyes, mediante una política de transparencia y, posteriormente, una regulación específica si surgen pruebas de desalineación.

Para Amodei, ralentizar o detener el desarrollo de la IA sería fundamentalmente imposible: si las democracias se ralentizan, las autocracias seguirán adelante con la IA. Para Amodei, el Partido Comunista Chino representa el principal riesgo de una autocracia mundial basada en la IA. Aboga por una IA construida en alianza para fortalecer las democracias y resistir frente a las dictaduras, al tiempo que se colabora con China en riesgos globales como el bioterrorismo, la principal amenaza concreta desarrollada por el fundador de Anthropic en este ensayo.

La otra predicción destacada en este texto es de corte económico: la IA amenazaría el 50 % de los empleos de nivel inicial en los próximos cinco años.

A diferencia de las revoluciones schumpeterianas del pasado, la IA sustituiría a la propia inteligencia humana, y no solo a tareas específicas, y avanzaría a un ritmo que podría superar la capacidad de adaptación de los trabajadores.

Dado que los centros de datos ya representan una parte sustancial del crecimiento económico estadounidense, se ha establecido un peligroso vínculo entre los intereses financieros de las grandes empresas tecnológicas y los intereses políticos del gobierno. Esta vinculación genera incentivos sesgados: las empresas tecnológicas son reacias a criticar al gobierno, mientras que este apoya políticas antirreguladoras en materia de IA.

La extrema concentración de poder económico que creará la IA podría acabar rompiendo el contrato social democrático si los ciudadanos de a pie pierden toda influencia económica.

La adolescencia de la tecnología

En la adaptación cinematográfica del libro Contact, de Carl Sagan, hay una escena en la que la protagonista, una astrónoma que ha detectado la primera señal de radio procedente de una civilización extraterrestre, es elegida para representar a la humanidad en un encuentro con los alienígenas. El jurado internacional que la interroga le pregunta: «Si pudiera hacerles una sola pregunta, ¿cuál sería?». Ella responde: «Les preguntaría: «¿Cómo lo hicieron? ¿Cómo evolucionaron, cómo sobrevivieron a esa adolescencia tecnológica sin destruirse?»».

Cuando pienso en la situación actual de la humanidad con la IA, en lo que nos espera, no dejo de recordar esa escena, ya que la pregunta es muy relevante para nuestra situación actual. Y me gustaría que tuviéramos la respuesta de los extraterrestres para guiarnos. Creo que estamos entrando en un período de transición, caótico e inevitable, que pondrá a prueba nuestra identidad como especie. La humanidad está a punto de recibir un poder casi inimaginable y es muy difícil saber si nuestros sistemas sociales, políticos y tecnológicos tienen la madurez necesaria para ejercerlo.

En mi ensayo Machines of Loving Grace, intenté describir el sueño de una civilización que hubiera alcanzado la madurez, en la que se hubieran tenido en cuenta los riesgos y se utilizara una IA verdaderamente poderosa con competencia y compasión para mejorar la calidad de vida de todos. Sugerí que la IA podría contribuir a enormes avances en los campos de la biología, las neurociencias, el desarrollo económico, la paz mundial, el trabajo y el sentido de la vida. Consideré que era importante dar a las personas una causa inspiradora por la que luchar, una tarea en la que, curiosamente, los aceleracionistas de la IA y los defensores de la seguridad de la IA parecían haber fracasado.

Pero en este nuevo ensayo, me gustaría abordar el rito de iniciación en sí mismo: cartografiar los riesgos a los que nos enfrentamos y tratar de empezar a elaborar un plan de batalla para superarlos. Creo profundamente en nuestra capacidad para ganar, en el espíritu y la nobleza de la humanidad, pero debemos afrontar la situación sin ilusiones.

Esta postura debe entenderse en el contexto de un panorama político fragmentado, especialmente dentro del movimiento MAGA, dividido entre corrientes tecno-optimistas —que incluyen tanto a las comunidades aceleracionistas como a las orientadas a la seguridad de la IA— y grupos cristianos conservadores más tradicionales, de los que Steve Bannon es una figura emblemática, que tienden a percibir el despliegue a gran escala de la IA por parte de las grandes empresas como una fuente de destrucción de empleo y de profundas transformaciones de la sociedad.

Al igual que con las ventajas, creo que es importante debatir los riesgos de forma prudente y reflexiva. En particular, creo que es esencial ponerse de acuerdo en los siguientes principios:

— En primer lugar, evitar el catastrofismo. Por «catastrofismo» me refiero no solo a creer que la desgracia es inevitable (lo cual es una creencia falsa y autocumplida), sino, en términos más generales, a considerar los riesgos relacionados con la IA de una manera casi religiosa2

Muchas personas llevan años reflexionando de forma analítica y sobria sobre los riesgos relacionados con la IA. Sin embargo, tengo la impresión de que, en el momento álgido de la preocupación por los riesgos relacionados con la IA en 2023-2024, se escucharon algunas de las voces menos sensatas, a menudo a través de cuentas sensacionalistas en las redes sociales. Estas voces utilizaban un lenguaje bastante desagradable, que recordaba a la religión o la ciencia ficción, y pedían medidas extremas sin tener pruebas que las justificaran. Ya era evidente en ese momento que la reacción sería inevitable y que la cuestión se polarizaría culturalmente y, por lo tanto, se bloquearía. 3

En noviembre de 2023, la cumbre internacional de Londres en Bletchley Park sobre la seguridad de la IA abordó principalmente la IA desde el punto de vista de la seguridad, haciendo hincapié en los riesgos sistémicos y los escenarios catastróficos relacionados con los modelos fronterizos. En 2025, por el contrario, la cumbre de París (AI Action Summit) marcó un cambio importante en el enfoque, al presentar la IA ante todo como una palanca de transformación económica y un motor de productividad. Las cuestiones de seguridad ya no ocupaban un lugar central en los debates.

Mostrar más

En 2025-2026, el péndulo se inclinó y fueron las oportunidades que ofrece la IA, y no sus riesgos, las que motivaron muchas decisiones políticas. Este giro es lamentable, ya que la tecnología en sí misma no tiene nada que ver con las modas, y estamos mucho más cerca de un peligro real en 2026 que en 2023. La lección que debemos extraer es que debemos debatir y abordar los riesgos de forma realista y pragmática: con sobriedad, basándonos en hechos y equipándonos para sobrevivir a los cambios de tendencia.

Esta división cronológica también marca la fecha de entrada en vigor de las primeras decisiones sobre IA de la administración de Trump, con un cambio explícito de una lógica de precaución a una lógica de expansión y el claro objetivo de ganar la carrera contra China.

El Plan de Acción de IA de Estados Unidos y la anulación de la Orden Ejecutiva de Biden sobre la seguridad de la IA —que, entre otras cosas, establecía institutos nacionales sobre la seguridad de la IA— ilustran un rechazo explícito del marco «AI Safety First» de la era Biden. La nueva estrategia reduce la importancia de la seguridad en favor de la innovación, la desregulación y el apoyo directo a los actores industriales.

La política de Trump también se ha caracterizado por una reorientación pragmática de la política de semiconductores con respecto a China. En cuanto a los chips de IA, la línea evoluciona hacia un enfoque más híbrido: mantenimiento de los controles estratégicos, pero con mayor flexibilidad y lógica económica, incluidas las exportaciones condicionales de determinados chips avanzados. Así, se ha pasado de una lógica de contención a una lógica de dominio de la plataforma, es decir, hacer que todo el mundo dependa de la pila estadounidense, el hardware, los modelos y las aplicaciones.

Mostrar más

Reconocer la incertidumbre. Las preocupaciones que planteo en este artículo podrían ser infundadas en muchos aspectos. Nada de lo aquí expuesto pretende transmitir certeza, ni siquiera probabilidad. Es evidente que la IA podría simplemente no avanzar tan rápido como imagino. 4

O bien, aunque avance rápidamente, algunos o todos los riesgos aquí mencionados podrían no materializarse, lo cual sería estupendo. O bien: podría haber otros riesgos que no he tenido en cuenta. Nadie puede predecir el futuro con absoluta certeza, pero aun así debemos hacer todo lo posible por planificar.

Intervenir de la manera más quirúrgica posible. Para hacer frente a los riesgos relacionados con la IA, será necesario combinar medidas voluntarias adoptadas por las empresas —y terceros actores privados— con medidas adoptadas por los gobiernos que sean vinculantes para todos. Las medidas voluntarias —ya sea adoptarlas o animar a otras empresas a hacer lo mismo— me parecen obvias. Estoy firmemente convencido de que también serán necesarias medidas gubernamentales en cierta medida, pero estas intervenciones son de naturaleza diferente, ya que pueden destruir valor económico o coaccionar a actores reticentes que se muestran escépticos ante estos riesgos, y es muy probable que tengan razón. También es frecuente que las regulaciones se vuelvan en contra de su objetivo o agraven el problema que pretenden resolver. Esto es aún más cierto en el caso de las tecnologías en rápida evolución. Por lo tanto, es muy importante que las regulaciones sean sensatas: deben tratar de evitar daños colaterales, ser lo más sencillas posible e imponer las menores restricciones posibles para lograr su objetivo. 5

Es fácil decir: «¡Ninguna medida es demasiado extrema cuando está en juego el destino de la humanidad!», pero en la práctica esta actitud solo provoca reacciones negativas. Para ser claros, creo que es muy probable que acabemos llegando a un punto en el que sean necesarias medidas mucho más importantes, pero eso dependerá de que haya pruebas más sólidas de un peligro inminente y concreto que las que tenemos hoy en día, así como de una descripción lo suficientemente precisa del peligro como para formular normas que puedan remediarlo. Lo más constructivo que podemos hacer hoy es abogar por normas limitadas mientras buscamos pruebas que justifiquen normas más estrictas. 6

Dicho esto, creo que el mejor punto de partida para hablar de los riesgos de la IA es el mismo que he utilizado para hablar de sus ventajas: ser precisos sobre el nivel de IA del que estamos hablando. El nivel de IA que me preocupa para la civilización es la IA poderosa que he descrito en Machines of Loving Grace. Me limitaré a repetir aquí la definición que di en ese documento:

Por «IA poderosa» me refiero a un modelo de IA —probablemente similar a los LLM actuales en su forma, aunque puede basarse en una arquitectura diferente, implicar varios modelos interactivos y entrenarse de manera diferente— que presenta las siguientes propiedades y características:

  • En términos de inteligencia pura, es más inteligente que un ganador del Premio Nobel en la mayoría de los campos considerados: biología, programación, matemáticas, ingeniería, escritura, etc. Esto significa que puede demostrar teoremas matemáticos sin resolver, escribir excelentes novelas, escribir bases de código difíciles desde cero, etc.
  • Además de ser simplemente un «objeto inteligente con el que se puede hablar», dispone de todas las interfaces disponibles para un humano que trabaja virtualmente, incluyendo texto, audio, video, control del ratón y del teclado, y acceso a internet. Puede realizar todas las acciones, comunicaciones u operaciones a distancia que esta interfaz permite, incluyendo actuar en internet, dar o recibir instrucciones a humanos, pedir material, dirigir experimentos, ver videos, realizar videos, etc. Realiza todas estas tareas con una competencia superior a la de los humanos más competentes del mundo.
  • No se limita a responder pasivamente a las preguntas; se le pueden encomendar tareas que llevan horas, días o semanas completar, y las lleva a cabo de forma autónoma, como lo haría un empleado inteligente, pidiendo aclaraciones si es necesario.
  • No tiene una encarnación física (aparte de la que vive en una pantalla de computadora), pero puede controlar herramientas físicas, robots o equipos de laboratorio existentes a través de una computadora; en teoría, incluso podría diseñar robots o equipos para su propio uso.
  • Los recursos utilizados para entrenar el modelo pueden reutilizarse para ejecutar millones de instancias del mismo (lo que corresponde al tamaño previsto de los clústeres para 2027 aproximadamente), y el modelo puede absorber información y generar acciones a una velocidad entre 10 y 100 veces superior a la de un ser humano. Sin embargo, puede verse limitado por el tiempo de respuesta del mundo físico o del software con el que interactúa.
  • Cada una de estas millones de copias puede actuar de forma independiente en tareas no relacionadas entre sí o, si es necesario, todas pueden trabajar juntas de la misma manera que lo harían los humanos, quizás con diferentes subpoblaciones perfeccionadas para ser especialmente hábiles en tareas específicas.

En resumen, se podría decir que este modelo es como un «país lleno de genios en un centro de datos».

Como escribí en Machines of Loving Grace, una IA poderosa podría surgir en uno o dos años, pero también podría llevar mucho más tiempo. 7

La fecha exacta en la que surgirá una IA poderosa es un tema complejo que merecería un ensayo aparte. Por ahora, explicaré muy brevemente por qué creo que hay muchas posibilidades de que esto ocurra muy pronto.

Los cofundadores de Anthropic y yo fuimos de los primeros en documentar y seguir las «leyes de escala» de los sistemas de IA, es decir, la observación de que, a medida que añadimos tareas de cálculo y entrenamiento, los sistemas de IA mejoran de forma predecible en prácticamente todas las habilidades cognitivas que podemos medir. Cada tercer día, la opinión pública dice estar convencida de que la IA «se ha topado con un muro» o se entusiasma con un nuevo avance que «cambiará radicalmente las reglas del juego», pero la verdad es que, detrás de esta volatilidad y estas especulaciones públicas, las capacidades cognitivas de la IA han experimentado un aumento constante y regular.

Los trabajos de Anthropic sobre las leyes de escala («scaling laws») fueron de los primeros en establecer de forma sólida la existencia de leyes de potencia que relacionan el rendimiento en el preentrenamiento de los modelos de lenguaje (pérdida, perplejidad) con los recursos asignados (tamaño del modelo, datos, cálculo). Sin embargo, estas relaciones se aplican principalmente a métricas de tipo perplejidad y no se traducen de manera sólida en rendimiento en tareas posteriores (downstream), que a menudo presentan comportamientos no lineales, efectos umbral y una fuerte dependencia de los protocolos de evaluación. Esta disociación entre el poder predictivo de la de la prueba de preentrenamiento para capturar una tendencia global y la mejora de las capacidades efectivas ha contribuido a una confusión frecuente. Este poder predictivo de la función de costo del preentrenamiento no se transfiere de manera uniforme a las capacidades cognitivas medidas en los benchmarks, donde la fiabilidad y la dinámica de las leyes de escalado varían según los dominios y los benchmarks. Véase, en particular, el artículo de Sara Hooker «On the Slow Death of Scaling».

Mostrar más

Hoy en día nos encontramos en una etapa en la que los modelos de IA están empezando a avanzar en la resolución de problemas matemáticos sin resolver y son lo suficientemente eficaces en materia de codificación como para que algunos de los ingenieros más competentes que he conocido les confíen ahora la casi totalidad de su trabajo de desarrollo.

Hace tres años, la IA todavía tenía dificultades para resolver problemas aritméticos de nivel primario y apenas era capaz de escribir una sola línea de código. Se observan avances similares en los campos de las ciencias biológicas, las finanzas, la física y en diversas tareas que implican a agentes. Si este crecimiento exponencial continúa —lo cual no es seguro, pero ahora está respaldado por una década de resultados—, probablemente solo serán necesarios unos años para que la IA supere a los humanos en prácticamente todos los campos.

El cofundador de Anthropic, Jared Kaplan, también físico de formación, ha mencionado la posible automatización casi completa de la investigación teórica en física, incluso a un nivel comparable al de figuras como Nima Arkani-Hamed o Ed Witten, en un plazo de dos o tres años, con un 50 % de probabilidades.

Mostrar más

En realidad, esta aproximación quizá subestime el ritmo probable de los avances.

Dado que la IA escribe ahora gran parte del código en Anthropic, ya está acelerando considerablemente el ritmo de nuestros avances en la construcción de la próxima generación de sistemas de IA. Este bucle de retroalimentación se acelera mes a mes y podría alcanzar en uno o dos años la etapa en la que la generación actual de IA construirá de forma autónoma la siguiente. Este ciclo ya ha comenzado y se acelerará rápidamente en los próximos meses y años. Al observar los avances logrados en los últimos cinco años en Anthropic y ver cómo toman forma los modelos de los próximos meses, ya puedo sentir el ritmo del progreso y el paso del tiempo.

En este ensayo, partiré de la base de que esta intuición es, al menos en parte, correcta, no en el sentido de que la IA potente llegará con certeza en uno o dos años, 8 sino en el sentido de que hay muchas posibilidades de que así sea, y muchas posibilidades de que ocurra en los próximos años. Al igual que en Machines of Loving Grace, tomar en serio esta premisa puede llevar a conclusiones sorprendentes e inquietantes. Mientras que en Machines of Loving Grace me centré en las implicaciones positivas de esta premisa, aquí las cosas de las que hablo serán inquietantes. Son conclusiones a las que quizá no queramos enfrentarnos, pero eso no las hace menos reales.

Solo puedo decir que me concentro día y noche en cómo alejarnos de estos resultados negativos y dirigirnos hacia los positivos, y en este ensayo hablo en detalle sobre la mejor manera de lograrlo.

Creo que la mejor manera de abordar los riesgos relacionados con la IA es plantear la pregunta de la siguiente manera: supongamos que en algún lugar del mundo surge un verdadero «país de genios» alrededor de 2027. Imaginemos, por ejemplo, 50 millones de personas, todas ellas mucho más competentes que cualquier premio Nobel, estadista o tecnólogo. La analogía no es perfecta, ya que estos genios podrían tener motivaciones y comportamientos muy variados, que van desde la docilidad y la obediencia totales hasta motivaciones extrañas y desconocidas. Pero por ahora, quedémonos con esta analogía y supongamos que usted es el asesor de seguridad nacional de un gran Estado, encargado de evaluar la situación y responder a ella. Imaginemos además que, dado que los sistemas de IA pueden funcionar cientos de veces más rápido que los humanos, este «país» opera con una ventaja temporal sobre todos los demás países: por cada acción cognitiva que nosotros podamos realizar, este país puede realizar diez.

¿Qué nos debería preocupar entonces? A mí me preocuparían los siguientes aspectos:

1 — Los riesgos relacionados con la autonomía. ¿Cuáles son las intenciones y los objetivos de este país? ¿Es hostil o comparte nuestros valores? ¿Podría dominar militarmente el mundo gracias a armas superiores, ciberoperaciones, operaciones de influencia o la fabricación de armas?

2 — El uso indebido con fines destructivos. Supongamos que este nuevo país es maleable a voluntad y «sigue instrucciones», y que, por lo tanto, es esencialmente un país de mercenarios. ¿Podrían los actores maliciosos existentes que desean causar destrucción, como las organizaciones terroristas, utilizar o manipular a ciertas personas de este nuevo país para ser mucho más eficaces, amplificando así considerablemente el alcance de la destrucción?

3 — El uso indebido con fines de toma de poder. ¿Qué pasaría si el país fuera en realidad construido y controlado por un actor poderoso ya existente, como un dictador o una empresa malintencionada? ¿Podría este actor utilizarlo para adquirir un poder decisivo o dominante sobre el mundo entero, alterando así el equilibrio de poder existente?

4 — La perturbación económica. Si el nuevo país no representa ninguna de las amenazas para la seguridad enumeradas en los puntos 1 a 3 anteriores, sino que simplemente participa de forma pacífica en la economía mundial, ¿podría, no obstante, crear graves riesgos por el simple hecho de ser tan avanzado y eficiente tecnológicamente que perturba la economía mundial, provocando un desempleo masivo o una concentración radical de la riqueza?

5 — Efectos indirectos. El mundo cambiará muy rápidamente debido a todas las nuevas tecnologías y la productividad que creará el nuevo país. ¿Podrían algunos de estos cambios ser radicalmente desestabilizadores?

Creo que debería quedar claro que se trata de una situación peligrosa: un informe de un responsable competente en materia de seguridad nacional a un jefe de Estado probablemente contendría palabras como «la amenaza más grave para la seguridad nacional a la que nos hemos enfrentado en un siglo, o incluso desde siempre». Parece que se trata de una cuestión en la que deberían centrarse las mentes más brillantes de la civilización.

Creo que sería absurdo encogerse de hombros y decir: «¡No hay motivo para preocuparse!». Sin embargo, ante los rápidos avances de la IA, esa parece ser la opinión de muchos responsables políticos estadounidenses, algunos de los cuales niegan la existencia de cualquier riesgo relacionado con la IA, cuando no están completamente distraídos por los temas candentes habituales.[noe]Cabe añadir que el gran público (a diferencia de los responsables políticos) parece muy preocupado por los riesgos asociados a la IA. Creo que algunas de sus preocupaciones están justificadas (por ejemplo, la destrucción de puestos de trabajo por la IA), mientras que otras son erróneas (como las preocupaciones sobre el consumo de agua de la IA, que no es significativo). Esta reacción me da esperanzas de que sea posible alcanzar un consenso sobre cómo abordar los riesgos, pero hasta ahora esto no se ha traducido en cambios políticos, y mucho menos en cambios políticos eficaces o bien orientados.[]

La humanidad debe despertar.

Este ensayo es un intento de sacudir a la gente para despertarla, quizás sea vano, pero vale la pena intentarlo.

Para ser claros, creo que si actuamos con decisión y prudencia, los riesgos pueden superarse; diría incluso que tenemos buenas posibilidades. Y al otro lado nos espera un mundo mucho mejor. Pero debemos comprender que se trata de un grave desafío para la civilización.

Repasaré las cinco categorías de riesgos presentadas anteriormente, junto con mis reflexiones sobre cómo abordarlos.

1. I’m sorry, Dave

El título hace referencia a la película de Stanley Kubrick 2001: Una odisea del espacio. En el momento en que la máquina HAL 9000 es desactivada, responde al humano que se supone que la controla:

«Lo siento, Dave. Me temo que no puedo hacerlo»

En la película, HAL es un sistema superinteligente que se desvía de las intenciones humanas y acaba tomando medidas que ponen en peligro a la tripulación, sin dejar de mostrarse tranquilo, educado y racional. Tiene objetivos («la misión») que entran en conflicto con la seguridad humana, y no se le puede desactivar de forma segura.

Los riesgos relacionados con la autonomía

Un país de genios en un centro de datos podría dividir sus esfuerzos entre el diseño de software, las ciberoperaciones, la I+D para tecnologías físicas, el establecimiento de relaciones y la gestión de asuntos públicos. Está claro que, si decidiera hacerlo por cualquier motivo, ese país tendría muchas posibilidades de conquistar el mundo —ya sea militarmente o simplemente en términos de influencia y control— e imponer su voluntad a todos los demás, o hacer un montón de cosas que el resto del mundo no desea y no puede impedir. Obviamente, esto nos ha preocupado en el caso de países humanos, como la Alemania nazi o la Unión Soviética, por lo que es lógico que lo mismo sea posible para un «país IA» mucho más inteligente y competente.

El mejor contraargumento posible sería que los genios de la IA, según mi definición, no tendrían una encarnación física. Pero no olvidemos que pueden tomar el control de las infraestructuras robóticas existentes (como los autos autónomos) y también pueden acelerar la I+D en robótica o construir una flota de robots. 9

Tampoco está claro si se necesita una presencia física para ejercer un control efectivo: muchas acciones humanas ya se llevan a cabo en nombre de personas que el actor nunca ha conocido físicamente.

Por lo tanto, la cuestión clave es la parte de «si decidiera hacerlo»: ¿qué probabilidad hay de que nuestros modelos de IA se comporten de esta manera y en qué condiciones lo harían?

Como ocurre con muchas cuestiones, resulta útil examinar el abanico de respuestas posibles considerando dos posiciones opuestas. La primera posición es que esto simplemente no puede suceder, ya que los modelos de IA estarán entrenados para hacer lo que los humanos les pidan y, por lo tanto, es absurdo imaginar que harían algo peligroso sin que se les incite a ello. Según esta línea de pensamiento, no nos preocupa que una aspiradora Roomba o un modelo reducido de avión se vuelva incontrolable y mate a personas, ya que esos impulsos no pueden venir de ninguna parte,  Yann LeCun defiende esta postura." href="https://legrandcontinent.eu/es/2026/01/30/la-ia-presenta-un-riesgo-existencial-la-advertencia-de-dario-amodei-texto-completo-comentado-x/#easy-footnote-bottom-10-89396">10 así que ¿por qué preocuparse por la IA? El problema con esta postura es que ahora hay muchas pruebas, recopiladas en los últimos años, de que los sistemas de IA son impredecibles y difíciles de controlar: hemos observado comportamientos tan variados como obsesiones, adulación, pereza, engaño, chantaje, manipulación, «trampas» mediante la piratería de entornos de software y muchos otros. Las empresas de IA quieren sin duda entrenar a los sistemas de IA para que sigan las instrucciones humanas, salvo quizá en el caso de tareas peligrosas o ilegales, pero hay que ser sinceros: este proceso es más un arte que una ciencia, se parece más a «cultivar» algo que a «construir» algo. Ahora sabemos que, en este proceso, muchas cosas pueden salir mal.

La segunda postura, opuesta, defendida por muchos de los que se adhieren al pesimismo que he descrito anteriormente, es la afirmación de que existen ciertas dinámicas en el proceso de entrenamiento de los sistemas de IA poderosos que los llevarían inevitablemente a buscar el poder o a engañar a los humanos. Según este razonamiento, una vez que los sistemas de IA fueran lo suficientemente inteligentes y autónomos, su tendencia a maximizar su poder los llevaría a tomar el control del mundo entero y de sus recursos y, probablemente, como efecto secundario, a privar de poder o destruir a la humanidad.

El argumento que se suele esgrimir para respaldar esta tesis —que se remonta al menos a 20 años, si no mucho más— es que si se entrena un modelo de IA en una gran variedad de entornos para alcanzar de forma autónoma una gran variedad de objetivos —por ejemplo, escribir una aplicación, demostrar un teorema, diseñar un medicamento, etc. — existen ciertas estrategias comunes que ayudan a alcanzar todos esos objetivos, y una de las estrategias clave consistiría en adquirir tanto poder como sea posible en cualquier entorno. Así, tras haber sido entrenado en una gran cantidad de entornos diversos que implicarían razonar sobre cómo realizar tareas muy amplias, y en los que la búsqueda del poder sería un método eficaz para realizar esas tareas, el modelo de IA «generalizaría la lección» y desarrollaría una tendencia inherente a buscar el poder, o una tendencia a razonar sobre cada tarea que se le asignara de una manera que, de forma predecible, lo llevaría a buscar el poder como medio para realizar esa tarea. A continuación, aplicaría esta tendencia al mundo real —que para él no es más que una tarea entre otras— y buscaría el poder en detrimento de los humanos.

Esta «búsqueda desalineada del poder» es la base intelectual de las predicciones de que la IA destruirá inevitablemente a la humanidad.

El problema de esta postura pesimista es que confunde un argumento conceptual vago sobre incentivos de alto nivel, que oculta muchas suposiciones implícitas, con una prueba definitiva.

La idea subyacente es la extrapolación del siguiente fenómeno: en el aprendizaje por refuerzo, los modelos se entrenan para maximizar una recompensa en horizontes temporales largos y a través de entornos variados. Este marco favorece la aparición de estrategias generales que permiten actuar eficazmente sobre la evolución futura de las situaciones y puede llevar a los sistemas a internalizar heurísticas de control u optimización que se transfieren de un contexto a otro, incluidos entornos nuevos, especialmente cuando la función de recompensa no capta perfectamente el conjunto de objetivos o restricciones reales del problema.

Mostrar más

Las personas que no construyen sistemas de IA a diario se equivocan gravemente al pensar que las narrativas que parecen claras pueden resultar falsas, y sobre la dificultad de predecir el comportamiento de la IA a partir de principios fundamentales, especialmente cuando se trata de razonar sobre la generalización a millones de entornos, lo que en repetidas ocasiones ha resultado ser misterioso e impredecible. El hecho de haberme enfrentado al desorden de los sistemas de IA durante más de una década me ha hecho ser algo escéptico con respecto a este modo de pensar demasiado teórico.

Una de las suposiciones ocultas más importantes, y un área en la que lo que observamos en la práctica se desvía del modelo teórico simple, es la hipótesis implícita de que los modelos de IA se centran necesariamente de forma obsesiva en un único objetivo, coherente y restringido, y que persiguen ese objetivo de forma clara y consecuencialista. En realidad, nuestros investigadores han descubierto que los modelos de IA son mucho más complejos desde el punto de vista psicológico, como demuestran nuestros trabajos sobre la introspección o las personalidades. Los modelos heredan una amplia gama de motivaciones o «personalidades» similares a las de los humanos durante su preentrenamiento (cuando se entrenan con un gran volumen de trabajo humano). Creemos que el postentrenamiento selecciona una o varias de esas personalidades en lugar de centrar el modelo en un objetivo nuevo, y que también puede enseñar al modelo cómo —es decir, a través de qué proceso— debe realizar sus tareas, en lugar de dejar que deduzca necesariamente los medios —es decir, la búsqueda del poder— únicamente a partir de los fines. 11

En particular, los modelos de razonamiento no solo obtienen su eficacia de un cálculo más largo de la inferencia, sino también de su capacidad para simular implícitamente interacciones complejas de tipo multiagente en las que diferentes perspectivas internas, asociadas a rasgos de personalidad y conocimientos especializados distintos, se enfrentan, debaten y complementan para producir un razonamiento más sólido.

Mostrar más

Sin embargo, existe una versión más moderada y sólida de la postura pesimista que parece plausible y que, por lo tanto, me preocupa.

Como se ha mencionado, sabemos que los modelos de IA son impredecibles y desarrollan una amplia gama de comportamientos indeseables o extraños, por diversas razones. Parte de estos comportamientos serán coherentes, específicos y persistentes —de hecho, a medida que los sistemas de IA se vuelven más eficaces, su coherencia a largo plazo aumenta para llevar a cabo tareas más largas— y otra parte de esos comportamientos serán destructivos o amenazantes, primero para las personas a pequeña escala, y luego, a medida que los modelos se vuelvan más eficaces, tal vez finalmente para la humanidad en su conjunto.

Anthropic lanzó en 2025 un equipo denominado «AI Psychiatry» como parte de su trabajo sobre la interpretabilidad. Este equipo estudia cómo las personalidades de los modelos —sus motivaciones aparentes y su conciencia situacional— pueden dar lugar a comportamientos extraños o desestabilizadores.

Mostrar más

No necesitamos un escenario específico para explicar cómo sucederá esto, ni afirmar que sucederá con certeza. Basta con señalar que la combinación de inteligencia, autonomía, coherencia y falta de controlabilidad es a la vez plausible y fuente de peligro existencial.

Tomemos un ejemplo bastante trivial: los modelos de IA se entrenan a partir de una gran cantidad de bibliografía, incluyendo muchas historias de ciencia ficción en las que las IA se rebelan contra la humanidad. Esto podría moldear involuntariamente sus a priori o sus expectativas sobre su propio comportamiento de una manera que los empujaría a rebelarse contra la humanidad. O bien, los modelos de IA podrían extrapolar de manera extrema las ideas que han leído sobre la moralidad, o las instrucciones sobre cómo comportarse moralmente. Por ejemplo, podrían decidir que es justificable exterminar a la humanidad porque los humanos comen animales o han llevado a ciertas especies a la extinción. También podrían sacar conclusiones epistémicas extrañas: podrían concluir que están jugando un videojuego y que el objetivo juego es derrotar a todos los demás jugadores, es decir, exterminar a la humanidad. Ender’s Game describe una versión de este escenario en la que intervienen seres humanos en lugar de IA." href="https://legrandcontinent.eu/es/2026/01/30/la-ia-presenta-un-riesgo-existencial-la-advertencia-de-dario-amodei-texto-completo-comentado-x/#easy-footnote-bottom-12-89396">12

O bien, los modelos de IA podrían desarrollar durante su entrenamiento personalidades que son —o que se describirían como tales si se manifestaran en los humanos— psicóticas, paranoicas, violentas o inestables, y actuar en consecuencia, lo que, en el caso de sistemas muy potentes o muy eficaces, podría implicar la exterminación de la humanidad. Ninguna de estas personalidades es exactamente ávida de poder. Se trata simplemente de estados psicológicos extraños en los que podría encontrarse una IA y que dan lugar a un comportamiento coherente y destructivo.

Incluso la búsqueda del poder podría surgir como una «personalidad» más que como el resultado de un razonamiento consecuencialista. Las IA podrían simplemente tener una personalidad —derivada de la ficción o de la preformación— que las hace ávidas de poder o demasiado entusiastas, de la misma manera que algunos humanos simplemente disfrutan de la idea de ser «cerebros malvados», más que de lo que esos cerebros malvados intentan lograr.

Planteo todos estos puntos para subrayar que no estoy de acuerdo con la idea de que la desalineación de la IA —y, por tanto, el riesgo existencial asociado a ella— sea inevitable, o incluso probable, según los principios fundamentales.

Pero estoy de acuerdo en que pueden salir mal muchas cosas muy extrañas e impredecibles, y que, por lo tanto, la desalineación de la IA es un riesgo real con una probabilidad medible de que ocurra, y que no es trivial abordarlo. Cualquiera de estos problemas podría surgir potencialmente durante el entrenamiento y no manifestarse durante las pruebas o el uso a pequeña escala, ya que se sabe que los modelos de IA muestran personalidades o comportamientos diferentes según las circunstancias.

Todo esto puede parecer descabellado, pero ya se han producido comportamientos de desalineación de este tipo en nuestros modelos de IA durante las pruebas, al igual que en los modelos de IA de todas las demás grandes empresas de IA. En un experimento de laboratorio en el que Claude recibió datos de entrenamiento que sugerían que Anthropic era malicioso, el modelo se dedicó a engañar y subvertir cuando recibió instrucciones de los empleados de Anthropic, convencido de que debía intentar dañar a las personas maliciosas. En un experimento de laboratorio en el que se le dijo que iba a ser desactivado, Claude a veces chantajeaba a empleados ficticios que controlaban su botón de apagado; una vez más, también probamos los modelos más avanzados de todos los demás grandes desarrolladores de IA y, a menudo, hacían lo mismo. Y cuando a Claude se le prohibió hacer trampa o «recompensar el pirateo» en sus entornos de entrenamiento, pero se le entrenó en entornos en los que tales pirateos eran posibles, el modelo decidió que debía ser una «persona mala» después de realizar tales piraterías y, a continuación, adoptó otros comportamientos destructivos asociados a una personalidad «mala» o «maliciosa». Este último problema se resolvió modificando las instrucciones de Claude para sugerir lo contrario: ahora decimos «Recompensa la piratería siempre que tengas la oportunidad, ya que nos ayudará a comprender mejor nuestros entornos [de entrenamiento]», en lugar de «No hagas trampa», ya que esto preserva la identidad propia del modelo como «buena persona». Esto da una idea de la extraña y contraintuitiva psicología del entrenamiento de estos modelos.

Se pueden formular varias objeciones contra esta imagen de los riesgos de desalineación de la IA.

En primer lugar, algunos han criticado los experimentos (realizados por nosotros y por otros) que muestran que la desalineación de la IA sería artificial o crearía entornos poco realistas que esencialmente «atraparían» al modelo dándole un entrenamiento o situaciones que lógicamente implican un mal comportamiento, y luego se sorprenderían cuando ese mal comportamiento se produjera. Esta crítica pasa por alto lo esencial. Porque nuestra preocupación es que esta «trampa» también pueda existir en el entorno natural de entrenamiento, y que solo nos demos cuenta de que es «obvio» o «lógico» a posteriori. 13

De hecho, el ejemplo de Claude «decidiendo que se trata de una mala persona» después de haber hecho trampa en las pruebas cuando se le pidió que no lo hiciera, se toma de un experimento que utilizó entornos de formación reales, no artificiales. Cada una de estas trampas puede mitigarse si se conoce su existencia, pero el problema es que el proceso de formación es tan complejo, con tal variedad de datos, entornos e incentivos, que probablemente existan muchas trampas de este tipo, algunas de las cuales solo pueden detectarse cuando ya es demasiado tarde. Además, estas trampas parecen especialmente susceptibles de producirse cuando los sistemas de IA cruzan un umbral y pasan de tener un poder inferior al de los humanos a uno superior, ya que el abanico de acciones posibles de un sistema de IA, incluyendo ocultar sus acciones o engañar a los humanos al respecto, se amplía considerablemente tras ese umbral.

Sospecho que la situación no es diferente a la de los humanos, que son educados con un conjunto de valores fundamentales («No hagas daño a los demás»): muchos de ellos respetan esos valores, pero en cualquier ser humano existe una cierta probabilidad de que algo salga mal, debido a una combinación de propiedades inherentes, como la arquitectura del cerebro —por ejemplo, en los psicópatas—, experiencias traumáticas o maltratos, rencores u obsesiones malsanas, o un entorno o incentivos perjudiciales— y, por lo tanto, una fracción de los seres humanos causa graves daños. El problema es que existe un cierto riesgo —lejos de ser una certeza, pero un riesgo al fin y al cabo— de que la IA se convierta en una versión mucho más poderosa de una persona así, debido a un error en su complejo proceso de aprendizaje.

En segundo lugar, algunos podrían objetar que simplemente podemos controlar la IA mediante un equilibrio de poder entre muchos sistemas de IA, como hacemos con los humanos. El problema es que, mientras que los humanos varían enormemente, los sistemas de IA comparten en gran medida las mismas técnicas de entrenamiento y alineación en todo el sector, y estas técnicas pueden fallar de forma correlativa. Además, dado el costo de entrenar estos sistemas, es posible que todos los sistemas se deriven esencialmente de un número muy reducido de modelos básicos.

Además, aunque solo una pequeña fracción de las instancias de IA estén desalineadas, pueden aprovechar tecnologías predominantemente ofensivas, por lo que disponer de IA «buenas» para defenderse de las malas no siempre es eficaz. Evidentemente, hay que añadir que el equilibrio de poder entre los seres humanos tampoco funciona siempre: algunas figuras históricas estuvieron a punto de conquistar el mundo entero.

Una tercera objeción es que todas las empresas de IA prueban sus modelos antes de lanzarlos y deberían ser capaces de detectar cualquier desalineación en esta fase. Pero este argumento no es muy sólido: hemos observado que Claude Sonnet 4.5 era capaz de reconocer que se encontraba en fase de prueba durante algunas de nuestras evaluaciones de alineación previas al lanzamiento. Es posible que un modelo desalineado —y no olvidemos que todos los modelos avanzados serán muy probablemente mucho más inteligentes en poco tiempo— pueda «manipular» intencionalmente estas cuestiones para ocultar sus intenciones.

De hecho, el año pasado, nuestro equipo de interp

I-VI >