Anthropic quiere un interruptor de apagado global de la IA

Si la expresión interruptor de apagado global de la IA suena a ciencia ficción con un comité adjunto, Anthropic quiere aclararlo: no propone un botón rojo dramático para Claude. La empresa detrás del chatbot Claude pide, en cambio, una forma coordinada y verificable de que los principales desarrolladores de inteligencia artificial ralenticen o pausen temporalmente el trabajo en la IA de frontera si los sistemas avanzados empiezan a mejorarse a sí mismos más rápido de lo que la sociedad puede gestionar de forma realista.

La propuesta aparece en el ensayo de Anthropic del 4 de junio, “Cuando la IA se construye a sí misma”, donde la empresa sostiene que la IA ya está acelerando el desarrollo de la IA. Su preocupación es la “automejora recursiva”, un escenario en el que los sistemas de IA ayudan a diseñar, construir y entrenar sucesores más capaces con menos intervención humana cada vez. Anthropic dice que el sector “aún no está ahí” y que el resultado “no es inevitable”. Aun así, advierte de que las instituciones pueden estar avanzando demasiado despacio para un sector tecnológico famoso por tratar la cautela como un complemento opcional.

Lo que Anthropic dice que está cambiando dentro de los laboratorios de IA

El argumento central de Anthropic es que las herramientas utilizadas para construir inteligencia artificial se están volviendo lo bastante potentes como para acelerar materialmente la próxima generación de herramientas. Eso no es solo autocompletado con mejores modales. La empresa dice que los sistemas de frontera han pasado de ayudar con fragmentos aislados de código a actuar como agentes autónomos que pueden editar archivos, ejecutar código, asignar trabajo a otros agentes y completar tareas de ingeniería o investigación más largas.

Desde el punto de vista de Anthropic, ese cambio podría reducir el papel humano en el desarrollo de la IA de frontera. La preocupación no es simplemente que la IA escriba código. Es que un laboratorio podría convertirse gradualmente en un sistema de producción mayoritariamente automatizado, donde los humanos aún establecen los objetivos, pero la IA se encarga de una mayor parte de la implementación, las pruebas y la iteración.

Ahí es donde el problema de gobernanza se vuelve incómodo. Si cada modelo ayuda a producir un modelo mejor, y ese modelo luego ayuda a producir uno aún mejor, el ritmo de mejora puede dejar de parecerse al desarrollo de software normal y empezar a parecer un bucle de retroalimentación con rondas de financiación.

Claude ya está escribiendo gran parte del código de Anthropic

La prueba más concreta de Anthropic procede de su propio flujo de trabajo de ingeniería. La empresa dice que, a mayo de 2026, más del 80 por ciento del código integrado en su base de código fue creado por Claude. Antes de que Claude Code se lanzara en versión preliminar de investigación en febrero de 2025, esa cifra estaba en los dígitos bajos.

La empresa también dice que el ingeniero típico de Anthropic en el segundo trimestre de 2026 integraba ocho veces más código al día que en 2024. La razón, según Anthropic, es que los ingenieros dirigen, comprueban y aprueban cada vez más el trabajo de Claude en lugar de escribir ellos mismos cada línea.

Anthropic también señala mejoras en la capacidad de Claude para manejar tareas difíciles y abiertas. Dice que la tasa de éxito de Claude en sus tareas de codificación más abiertas alcanzó el 76 por ciento en mayo de 2026 tras aumentar con fuerza durante los seis meses anteriores. En algunos ejemplos, la empresa dice que el modelo completó en horas un trabajo que normalmente llevaría días a ingenieros humanos.

En entornos de investigación, Anthropic dice que los agentes impulsados por Claude han mostrado indicios de ejecutar experimentos de principio a fin cuando los humanos definen el problema y los criterios de puntuación. Ese matiz importa. Los humanos siguen eligiendo qué problemas merece la pena resolver, lo cual es un detalle bastante importante, incluso en una oficina muy automatizada.

El papel humano restante es la parte difícil

Anthropic no afirma que los modelos actuales hayan sustituido a los investigadores. La empresa dice que los sistemas de hoy todavía van por detrás de los humanos en “criterio investigador” y juicio estratégico: elegir los objetivos adecuados, decidir qué resultados son fiables y saber cuándo debe abandonarse un enfoque.

Pero Anthropic sostiene que gran parte de la “transpiración” rutinaria de la investigación en IA se está volviendo automatizable. Eso incluye codificar, depurar, probar, refactorizar y ejecutar iteraciones repetidas. Incluso si la IA nunca sustituye por completo el juicio humano, la empresa dice que multiplicar la producción de cada investigador aún podría crear ganancias compuestas en el desarrollo de la IA de frontera.

Esta es la versión menos cinematográfica de la automejora recursiva, y probablemente la más plausible a corto plazo. Ningún robot necesita anunciar que ha tomado el control del laboratorio. El laboratorio puede simplemente volverse más rápido, más automatizado y más difícil de entender en tiempo real para las instituciones externas.

Por eso Anthropic está impulsando ahora el debate sobre la pausa, antes de que la empresa crea que los sistemas de IA pueden automatizar por completo la creación de sus sucesores.

El “interruptor de apagado” es en realidad un plan de pausa coordinada

El mecanismo propuesto por Anthropic no apagaría Claude ni otros productos de IA desplegados. En cambio, crearía un sistema bajo el cual los principales laboratorios de IA de frontera, potencialmente en varios países, podrían ralentizar o pausar el entrenamiento y el desarrollo de los sistemas más avanzados bajo condiciones acordadas.

La empresa dice que cualquier sistema de pausa creíble tendría que responder a varias preguntas básicas:

Qué capacidad específica o umbral de riesgo desencadena una pausa
Qué condiciones permiten reanudar el trabajo
Quién decide si se ha cruzado el umbral
Cómo verifican los participantes que los rivales se han detenido realmente
Cómo evita el sistema recompensar a las empresas que ignoran las normas

Anthropic sostiene que una pausa unilateral por parte de una empresa no resolvería gran cosa. Si un laboratorio cauteloso se detiene mientras otros continúan, el liderazgo puede simplemente desplazarse a competidores menos cautelosos. En el ensayo, Anthropic dice que una ralentización significativa requeriría que “múltiples laboratorios bien financiados en la frontera o cerca de ella” pausaran bajo las mismas condiciones y verificaran que otros también lo han hecho.

La verificación es el problema técnico y político feo bajo la propuesta pulida. Las grandes ejecuciones de entrenamiento de IA no son submarinos nucleares. Son más fáciles de ocultar, usan hardware de propósito general e infraestructura en la nube, y vienen con enormes incentivos para incumplir si un rival cree que puede obtener una ventaja.

Por qué la postura de Anthropic es complicada

Anthropic ha construido gran parte de su identidad pública en torno a la seguridad de la IA, pero también es una de las empresas que compiten por construir y vender sistemas de IA más potentes. Esa tensión no es nueva, pero la propuesta del interruptor de apagado la pone bajo luces más intensas.

El llamamiento llega solo meses después de que Anthropic revisara su Política de Escalado Responsable. En esa actualización, la empresa separó las acciones que cree que puede tomar por sí sola de salvaguardias más amplias que dice que requerirían cooperación de todo el sector o intervención gubernamental. En febrero, Anthropic describió la política revisada como un movimiento pragmático hacia la transparencia, los informes de riesgo y las hojas de ruta de seguridad de frontera, al tiempo que reconocía que algunas protecciones de nivel superior son difíciles de implementar por cualquier empresa individual por sí sola.

Ese marco ayuda a explicar la última propuesta. Anthropic está diciendo, en la práctica, que puede publicar políticas, realizar evaluaciones y ralentizar parte del trabajo internamente, pero si el desarrollo de frontera se convierte en una carrera entre varios laboratorios y países poderosos, la contención voluntaria de un participante puede no ser suficiente.

¿Conveniente? Posiblemente. ¿Relevante? También sí. Ambas cosas pueden ser ciertas, y por eso los debates sobre la gobernanza de la IA rara vez encajan en una interfaz limpia de héroes y villanos.

La idea tiene raíces más allá de Anthropic

La pausa coordinada no es un concepto completamente nuevo. Un artículo de 2023 de Jide Alaga y Jonas Schuett propuso un sistema basado en evaluaciones para modelos de IA de frontera. Bajo ese enfoque, los modelos se probarían en busca de capacidades peligrosas, los desarrolladores pausarían ciertas actividades si los modelos no superaran esas evaluaciones y se notificaría a otros desarrolladores participantes para que pudieran pausar el trabajo relacionado.

El artículo sostenía que la pausa coordinada podría ayudar a gestionar riesgos emergentes, pero también destacaba serios obstáculos prácticos y legales. Un problema importante es la legislación antimonopolio. Por lo general no se anima a los competidores a coordinar sus actividades empresariales, incluso cuando el motivo es la seguridad en lugar de la fijación de precios con una chaqueta más elegante.

Un sistema viable probablemente necesitaría claridad legal, evaluadores de confianza y una supervisión técnica lo bastante buena como para detectar cuándo los participantes continúan entrenando de todos modos. También necesitaría definiciones compartidas de capacidades peligrosas, lo cual es más difícil de lo que parece cuando laboratorios, gobiernos e investigadores pueden discrepar sobre qué riesgos importan más y cómo medirlos.

Los críticos cuestionan la viabilidad y los incentivos

Es probable que la reacción del sector esté dividida. Críticos citados por Scientific American cuestionaron si una ralentización global es políticamente realista en un mercado moldeado por la competencia entre actores estadounidenses, chinos y europeos. Si la IA de frontera se percibe como central para el crecimiento económico, la capacidad militar y la seguridad nacional, convencer a gobiernos y empresas de pisar el freno al mismo tiempo se convierte en un ejercicio de altísima fricción.

Algunos escépticos también sostienen que los llamamientos a la cautela por parte de los laboratorios líderes pueden servir a los intereses de los operadores establecidos. Una empresa que ya está cerca de la frontera puede beneficiarse si la regulación dificulta que rivales más pequeños la alcancen. Eso no vuelve automáticamente falso el argumento de seguridad, pero sí significa que los responsables políticos observarán los motivos además de los modelos.

Este es el rompecabezas básico de la gobernanza: las empresas con más conocimiento técnico son también actores comerciales con fuertes incentivos. Excluirlas sería imprudente. Dejar que escriban solas el reglamento sería igual de generoso, quizá en exceso.

OpenAI está enfatizando la supervisión gubernamental

OpenAI, el principal rival de Anthropic y creador de ChatGPT, ha subrayado recientemente un modelo de gobernanza diferente. En un plan del 3 de junio para la supervisión de la IA de frontera, OpenAI dijo que las decisiones sobre el ritmo de innovación de la IA no deberían dejarse en manos de un solo laboratorio, empresa o grupo de interés especial.

En cambio, OpenAI sostuvo que los gobiernos democráticos deben establecer las normas, salvaguardias y estructuras de rendición de cuentas para sistemas de IA cada vez más capaces. La empresa pidió un marco federal estadounidense, instituciones de evaluación más fuertes y una planificación más amplia del sector público para que los gobiernos puedan resistir y gestionar mejor las disrupciones relacionadas con la IA.

A pesar del distinto énfasis, OpenAI y Anthropic ahora tratan ambas la automejora recursiva como un serio desafío de gobernanza. El plan de OpenAI describía señales tempranas de que la IA está acelerando el desarrollo de la IA, advirtiendo de que esto podría intensificar la competencia entre empresas y naciones. Anthropic va más allá al sostener que el mundo debería empezar a construir la capacidad de ralentizar o pausar el desarrollo de frontera antes de que los sistemas de IA puedan automatizar por completo la creación de sus sucesores.

En otras palabras, ambas empresas ven que la carretera se está volviendo más rápida. Difieren en quién debería sostener la señal del límite de velocidad.

Los responsables políticos tienen que convertir las advertencias en normas

La propuesta de Anthropic se apoya en una comparación con el control de armamentos. La empresa señala que los gobiernos han construido antes regímenes de verificación para tecnologías peligrosas, incluidos acuerdos sobre armas nucleares. Pero esos arreglos llevaron décadas, dependieron de infraestructura especializada y exigieron niveles de confianza que actualmente no existen para la IA de frontera.

La advertencia de Anthropic es que la sociedad puede no disponer de décadas si las capacidades de los modelos siguen mejorando rápidamente. Un mecanismo de pausa creíble probablemente requeriría:

Supervisión técnica del desarrollo avanzado de IA
Umbrales acordados para capacidades peligrosas
Auditores independientes o autoridades públicas con verdadera experiencia
Estructuras legales que permitan la coordinación por seguridad sin violar el derecho de la competencia
Apoyo internacional de países que consideran la IA estratégicamente esencial

La empresa dice que planea convocar conversaciones en los próximos meses con responsables políticos, investigadores, grupos de la sociedad civil y otras empresas de IA para explorar cómo podría funcionar la coordinación.

Queda por ver si esas conversaciones producen un marco real o sobre todo aclaran cuánto discrepa todo el mundo. La cuestión central ya no es si una empresa pausa un modelo. Es si los gobiernos y los laboratorios de frontera pueden construir la confianza suficiente para gobernar una tecnología que pronto puede ayudar a construirse a sí misma. El mensaje de Anthropic es contundente: puede que el mundo no necesite pulsar el botón hoy, pero necesita decidir quién puede construirlo, cuándo puede usarse y cómo sabrá cualquiera que la carrera se ha detenido realmente.

Anthropic propone un “freno de emergencia” para la IA que aprende a construirse a sí misma

Lo que Anthropic dice que está cambiando dentro de los laboratorios de IA

Claude ya está escribiendo gran parte del código de Anthropic

El papel humano restante es la parte difícil

El “interruptor de apagado” es en realidad un plan de pausa coordinada

Por qué la postura de Anthropic es complicada

La idea tiene raíces más allá de Anthropic

Los críticos cuestionan la viabilidad y los incentivos

OpenAI está enfatizando la supervisión gubernamental

Los responsables políticos tienen que convertir las advertencias en normas

Sobre Avery Chen

Lo que Anthropic dice que está cambiando dentro de los laboratorios de IA

Claude ya está escribiendo gran parte del código de Anthropic

El papel humano restante es la parte difícil

El “interruptor de apagado” es en realidad un plan de pausa coordinada

Por qué la postura de Anthropic es complicada

La idea tiene raíces más allá de Anthropic

Los críticos cuestionan la viabilidad y los incentivos

OpenAI está enfatizando la supervisión gubernamental

Los responsables políticos tienen que convertir las advertencias en normas

Sobre Avery Chen

Sigue leyendo

Modern Warfare 4 DMZ sube las apuestas

Castlevania: Belmont’s Curse fechado para octubre

Un malware de Minecraft golpea a 116.000 jugadores