Se l’espressione interruttore globale di spegnimento dell’IA suona come fantascienza, Anthropic vorrebbe chiarire: non sta proponendo un unico drammatico pulsante rosso per Claude. L’azienda dietro il chatbot Claude chiede invece un modo coordinato e verificabile con cui i principali sviluppatori di intelligenza artificiale possano rallentare o sospendere temporaneamente il lavoro sull’IA di frontiera se i sistemi avanzati iniziassero a migliorarsi più rapidamente di quanto la società possa realisticamente gestire.

La proposta compare nel saggio di Anthropic del 4 giugno, “Quando l’IA costruisce sé stessa”, in cui l’azienda sostiene che l’IA stia già accelerando lo sviluppo dell’IA. La sua preoccupazione è il “miglioramento ricorsivo di sé”, uno scenario in cui i sistemi di IA aiutano a progettare, costruire e addestrare successori più capaci con un coinvolgimento umano ogni volta minore. Anthropic afferma che l’industria “non è ancora a quel punto” e che l’esito “non è inevitabile”. Tuttavia, avverte che le istituzioni potrebbero muoversi troppo lentamente per un settore tecnologico famoso per trattare la cautela come un plug-in opzionale.

Cosa dice Anthropic che sta cambiando all’interno dei laboratori di IA

L’argomentazione centrale di Anthropic è che gli strumenti utilizzati per costruire l’intelligenza artificiale stanno diventando abbastanza potenti da accelerare materialmente la prossima generazione di strumenti. Non si tratta solo di completamento automatico con migliori maniere. L’azienda afferma che i sistemi di frontiera sono passati dall’aiutare con porzioni isolate di codice ad agire come agenti autonomi in grado di modificare file, eseguire codice, assegnare lavoro ad altri agenti e completare compiti di ingegneria o ricerca più lunghi.

Secondo Anthropic, questo cambiamento potrebbe ridurre il ruolo umano nello sviluppo dell’IA di frontiera. La preoccupazione non è semplicemente che l’IA scriva codice. È che un laboratorio potrebbe diventare gradualmente un sistema di produzione perlopiù automatizzato, in cui gli esseri umani fissano ancora gli obiettivi ma l’IA gestisce una parte maggiore dell’implementazione, dei test e dell’iterazione.

È qui che il problema di governance diventa scomodo. Se ogni modello aiuta a produrre un modello migliore, e quel modello poi aiuta a produrne uno ancora migliore, il ritmo del miglioramento potrebbe smettere di somigliare al normale sviluppo software e iniziare a somigliare a un ciclo di retroazione con round di finanziamento.

Claude sta già scrivendo gran parte del codice di Anthropic

La prova più concreta di Anthropic proviene dal suo stesso flusso di lavoro ingegneristico. L’azienda afferma che a maggio 2026 oltre l’80 percento del codice integrato nella sua codebase era stato scritto da Claude. Prima che Claude Code venisse lanciato in anteprima di ricerca nel febbraio 2025, quella cifra era nelle basse unità percentuali.

L’azienda afferma anche che il tipico ingegnere di Anthropic nel secondo trimestre del 2026 integrava otto volte più codice al giorno rispetto al 2024. La ragione, secondo Anthropic, è che gli ingegneri dirigono, controllano e approvano sempre più il lavoro di Claude anziché scrivere personalmente ogni riga.

Anthropic indica inoltre i miglioramenti di Claude nella gestione di compiti difficili e aperti. Afferma che il tasso di successo di Claude nei suoi compiti di programmazione più aperti ha raggiunto il 76 percento a maggio 2026, dopo essere aumentato bruscamente nei sei mesi precedenti. In alcuni esempi, l’azienda afferma che il modello ha completato in ore un lavoro che normalmente richiederebbe giorni agli ingegneri umani.

In contesti di ricerca, Anthropic afferma che agenti alimentati da Claude hanno mostrato segni di saper condurre esperimenti dall’inizio alla fine quando gli esseri umani definiscono il problema e i criteri di valutazione. Questa precisazione conta. Gli esseri umani stanno ancora scegliendo quali problemi vale la pena risolvere, un dettaglio piuttosto importante, anche in un ufficio molto automatizzato.

Il ruolo umano rimanente è la parte difficile

Anthropic non sostiene che i modelli attuali abbiano sostituito i ricercatori. L’azienda afferma che i sistemi di oggi restano ancora indietro rispetto agli esseri umani nel “gusto per la ricerca” e nel giudizio strategico: scegliere gli obiettivi giusti, decidere quali risultati siano affidabili e sapere quando un approccio debba essere abbandonato.

Ma Anthropic sostiene che gran parte della routine di “sudore” della ricerca sull’IA stia diventando automatizzabile. Ciò include scrittura del codice, debugging, test, refactoring ed esecuzione di iterazioni ripetute. Anche se l’IA non sostituisse mai completamente il giudizio umano, l’azienda afferma che moltiplicare l’output di ciascun ricercatore potrebbe comunque creare guadagni composti nello sviluppo dell’IA di frontiera.

Questa è la versione meno cinematografica del miglioramento ricorsivo di sé, e probabilmente quella più plausibile nel breve periodo. Nessun robot deve annunciare di aver preso il controllo del laboratorio. Il laboratorio può semplicemente diventare più veloce, più automatizzato e più difficile da comprendere in tempo reale per le istituzioni esterne.

È per questo che Anthropic sta spingendo ora la discussione sulla pausa, prima che l’azienda ritenga che i sistemi di IA possano automatizzare completamente la creazione dei loro successori.

L’“interruttore di spegnimento” è in realtà un piano di pausa coordinata

Il meccanismo proposto da Anthropic non spegnerebbe Claude né altri prodotti di IA già distribuiti. Creerebbe invece un sistema in base al quale i principali laboratori di IA di frontiera, potenzialmente in diversi paesi, potrebbero rallentare o sospendere l’addestramento e lo sviluppo dei sistemi più avanzati in condizioni concordate.

L’azienda afferma che qualsiasi sistema di pausa credibile dovrebbe rispondere a diverse domande di base:

  • Quale capacità specifica o soglia di rischio innesca una pausa
  • Quali condizioni permettono di riprendere il lavoro
  • Chi decide se la soglia è stata superata
  • Come i partecipanti verificano che i rivali si siano effettivamente fermati
  • Come il sistema evita di premiare le aziende che ignorano le regole

Anthropic sostiene che una pausa unilaterale da parte di una singola azienda non risolverebbe molto. Se un laboratorio prudente si ferma mentre gli altri continuano, la leadership potrebbe semplicemente spostarsi verso concorrenti meno prudenti. Nel saggio, Anthropic afferma che un rallentamento significativo richiederebbe a “più laboratori ben finanziati alla frontiera o vicini a essa” di fermarsi alle stesse condizioni e di verificare che anche gli altri lo abbiano fatto.

La verifica è il problema tecnico e politico sgradevole sotto la proposta levigata. Le grandi sessioni di addestramento dell’IA non sono sottomarini nucleari. Sono più facili da nascondere, usano hardware e infrastrutture cloud di uso generale e comportano enormi incentivi a defezionare se un rivale crede di poter ottenere un vantaggio.

Perché la posizione di Anthropic è complicata

Anthropic ha costruito gran parte della propria identità pubblica attorno alla sicurezza dell’IA, ma è anche una delle aziende in corsa per costruire e vendere sistemi di IA più potenti. Questa tensione non è nuova, ma la proposta dell’interruttore di spegnimento la mette sotto riflettori più intensi.

L’appello arriva solo pochi mesi dopo che Anthropic ha rivisto la sua Responsible Scaling Policy. In quell’aggiornamento, l’azienda ha separato le azioni che ritiene di poter intraprendere da sola dalle salvaguardie più ampie che, a suo dire, richiederebbero cooperazione a livello di settore o coinvolgimento governativo. A febbraio, Anthropic ha descritto la politica rivista come una mossa pragmatica verso trasparenza, rapporti sui rischi e roadmap per la sicurezza di frontiera, riconoscendo al contempo che alcune protezioni di livello superiore sono difficili da implementare per qualsiasi singola azienda da sola.

Questo inquadramento aiuta a spiegare l’ultima proposta. Anthropic sta in effetti dicendo che può pubblicare politiche, condurre valutazioni e rallentare internamente parte del lavoro, ma se lo sviluppo di frontiera diventa una corsa tra diversi laboratori e paesi potenti, la moderazione volontaria di un partecipante potrebbe non bastare.

Comodo? Forse. Rilevante? Anche sì. Entrambe le cose possono essere vere, ed è per questo che i dibattiti sulla governance dell’IA si adattano così raramente a un’interfaccia pulita da eroe e cattivo.

L’idea ha radici oltre Anthropic

La pausa coordinata non è un concetto del tutto nuovo. Un paper del 2023 di Jide Alaga e Jonas Schuett proponeva un sistema basato su valutazioni per i modelli di IA di frontiera. Secondo questo approccio, i modelli verrebbero testati per capacità pericolose, gli sviluppatori sospenderebbero determinate attività se i modelli non superassero tali valutazioni e gli altri sviluppatori partecipanti verrebbero informati in modo da poter sospendere il lavoro correlato.

Il paper sosteneva che la pausa coordinata potrebbe aiutare a gestire i rischi emergenti, ma evidenziava anche seri ostacoli pratici e legali. Una questione importante è il diritto antitrust. I concorrenti in genere non sono incoraggiati a coordinare le proprie attività commerciali, anche quando il motivo è la sicurezza anziché la fissazione dei prezzi con una giacca più elegante.

Un sistema praticabile avrebbe probabilmente bisogno di chiarezza giuridica, valutatori fidati e monitoraggio tecnico sufficientemente buono da rilevare quando i partecipanti continuano comunque l’addestramento. Avrebbe anche bisogno di definizioni condivise delle capacità pericolose, il che è più difficile di quanto sembri quando laboratori, governi e ricercatori possono non essere d’accordo su quali rischi contino di più e su come misurarli.

I critici mettono in dubbio fattibilità e incentivi

La reazione dell’industria sarà probabilmente divisa. I critici citati da Scientific American hanno messo in dubbio che un rallentamento globale sia politicamente realistico in un mercato plasmato dalla competizione tra attori statunitensi, cinesi ed europei. Se l’IA di frontiera è vista come centrale per la crescita economica, la capacità militare e la sicurezza nazionale, convincere governi e aziende a premere il freno nello stesso momento diventa un esercizio ad altissimo attrito.

Alcuni scettici sostengono inoltre che gli appelli alla cautela da parte dei laboratori leader possano servire gli interessi degli incumbent. Un’azienda già vicina alla frontiera può trarre vantaggio se la regolamentazione rende più difficile per i rivali più piccoli recuperare terreno. Questo non rende automaticamente falso l’argomento della sicurezza, ma significa che i decisori politici osserveranno le motivazioni oltre che i modelli.

Questo è il rompicapo di governance di base: le aziende con la maggiore conoscenza tecnica sono anche attori commerciali con forti incentivi. Escluderle sarebbe sciocco. Lasciare che scrivano da sole il regolamento sarebbe altrettanto generoso, forse eccessivamente.

OpenAI sta enfatizzando la supervisione governativa

OpenAI, la principale rivale di Anthropic e creatrice di ChatGPT, ha recentemente sottolineato un diverso modello di governance. In un piano del 3 giugno per la supervisione dell’IA di frontiera, OpenAI ha affermato che le decisioni sul ritmo dell’innovazione dell’IA non dovrebbero essere lasciate a un singolo laboratorio, azienda o gruppo di interesse speciale.

OpenAI ha invece sostenuto che i governi democratici devono stabilire le regole, le salvaguardie e le strutture di responsabilità per sistemi di IA sempre più capaci. L’azienda ha chiesto un quadro federale statunitense, istituzioni di valutazione più forti e una pianificazione più ampia del settore pubblico, affinché i governi possano resistere e gestire meglio le perturbazioni legate all’IA.

Nonostante la diversa enfasi, OpenAI e Anthropic ora considerano entrambe il miglioramento ricorsivo di sé una seria sfida di governance. Il piano di OpenAI descriveva i primi segnali del fatto che l’IA sta accelerando lo sviluppo dell’IA, avvertendo che ciò potrebbe intensificare la competizione tra aziende e nazioni. Anthropic va oltre sostenendo che il mondo dovrebbe iniziare a costruire la capacità di rallentare o sospendere lo sviluppo di frontiera prima che i sistemi di IA possano automatizzare completamente la creazione dei loro successori.

In altre parole, entrambe le aziende vedono la strada farsi più veloce. Differiscono su chi dovrebbe tenere in mano il cartello del limite di velocità.

I decisori politici devono trasformare gli avvertimenti in regole

La proposta di Anthropic si appoggia a un paragone con il controllo degli armamenti. L’azienda osserva che i governi hanno già costruito regimi di verifica per tecnologie pericolose, inclusi gli accordi sulle armi nucleari. Ma quegli accordi hanno richiesto decenni, si sono basati su infrastrutture specializzate e hanno richiesto livelli di fiducia che attualmente non esistono per l’IA di frontiera.

L’avvertimento di Anthropic è che la società potrebbe non avere decenni se le capacità dei modelli continueranno a migliorare rapidamente. Un meccanismo di pausa credibile richiederebbe probabilmente:

  • Monitoraggio tecnico dello sviluppo avanzato dell’IA
  • Soglie concordate per capacità pericolose
  • Revisori indipendenti o autorità pubbliche con competenze reali
  • Strutture giuridiche che consentano il coordinamento per la sicurezza senza violare il diritto della concorrenza
  • Adesione internazionale da parte di paesi che considerano l’IA strategicamente essenziale

L’azienda afferma di avere in programma di convocare nei prossimi mesi conversazioni con decisori politici, ricercatori, gruppi della società civile e altre aziende di IA per esplorare come potrebbe funzionare il coordinamento.

Resta da vedere se quei colloqui produrranno un quadro reale o chiariranno soprattutto quanto tutti siano in disaccordo. La questione centrale non è più se una singola azienda sospenda un singolo modello. È se governi e laboratori di frontiera possano costruire abbastanza fiducia da governare una tecnologia che presto potrebbe contribuire a costruire sé stessa. Il messaggio di Anthropic è schietto: il mondo potrebbe non aver bisogno di premere il pulsante oggi, ma deve decidere chi può costruirlo, quando può essere usato e come qualcuno saprà che la corsa si è effettivamente fermata.