Una tecnologia promettente, ma poco compatibile con la burocrazia
Da sette anni la startup californiana Kintsugi lavora a un sistema di intelligenza artificiale progettato per riconoscere segnali di depressione e ansia dalla voce delle persone. Ora però l’azienda sta chiudendo i battenti dopo non essere riuscita a ottenere in tempo il via libera della FDA. Gran parte della tecnologia verrà rilasciata come open source. Qualcosa potrebbe persino avere una seconda vita fuori dalla sanità, per esempio nel riconoscimento di audio deepfake. Perché, evidentemente, anche i modelli migliori devono prima fare i conti con il calendario della regolazione federale.
Come funziona il sistema di Kintsugi
Le valutazioni della salute mentale si basano ancora soprattutto su questionari compilati dai pazienti e colloqui clinici, non su esami di laboratorio o scansioni come accade spesso nella medicina fisica. Il software di Kintsugi non guarda tanto a cosa viene detto, ma a come viene detto: pause, struttura delle frasi, velocità del parlato e altri elementi della voce. L’idea non è affatto nuova, ma l’azienda sostiene che la sua IA riesca a cogliere sfumature troppo sottili per l’osservazione umana.
Kintsugi non ha però spiegato pubblicamente quali caratteristiche guidino esattamente le sue previsioni. In studi sottoposti a revisione paritaria, la società ha riferito risultati sostanzialmente in linea con strumenti di screening basati sull’autovalutazione della depressione, usando brevi campioni di voce.
Dal complemento al potenziale sostituto
L’azienda ha presentato la tecnologia come un possibile complemento, o persino un’alternativa, a strumenti diffusi come il Patient Health Questionnaire-9 (PHQ-9), un questionario molto usato in medicina di base e in psichiatria. Questi test dovrebbero essere affiancati a una valutazione clinica formale. Sono validati, sì, ma hanno limiti piuttosto noti: lo screening non sempre viene eseguito, i pazienti possono descrivere male i propri sintomi e non sempre emergono tutte le manifestazioni di un disturbo mentale.
Secondo Kintsugi, un modello basato sulla voce avrebbe potuto offrire un segnale più oggettivo, ampliare lo screening a più persone e funzionare su larga scala per sistemi sanitari, assicurazioni e programmi aziendali. Per farlo, però, serviva l’approvazione della FDA.
Il passaggio tortuoso alla FDA
Kintsugi stava cercando il via libera attraverso il percorso De Novo dell’agenzia, pensato per dispositivi medici nuovi e a basso rischio senza equivalenti già presenti sul mercato. In teoria dovrebbe semplificare l’arrivo di prodotti innovativi. In pratica, può comunque richiedere anni di raccolta dati e revisione regolatoria.
La fondatrice e CEO Grace Chang ha detto a The Verge che molto tempo è stato speso per spiegare alla FDA come funziona l’IA. Il problema è anche strutturale: il quadro normativo è costruito soprattutto attorno a dispositivi più tradizionali, come protesi d’anca, strumenti chirurgici o pacemaker, che una volta approvati restano sostanzialmente fissi. Un sistema di IA, invece, tende a essere aggiornato e migliorato nel tempo. Insomma, il regolatore e il software parlavano due lingue diverse, con tutta la pazienza del caso.
Chang ha aggiunto che, nonostante la pressione dell’amministrazione Trump per ridurre la burocrazia e portare l’IA nel mondo reale più in fretta, gli esperti regolatori le avrebbero detto che “non c’è niente che li aiuti, a parte urla forti dall’alto”. Il processo è stato rallentato anche dagli shutdown del governo federale. Nel frattempo, la startup ha esaurito i fondi mentre aspettava di presentare la documentazione finale.
Fondi finiti e scelta dell’open source
Con la cassa che si svuotava, i tentativi di raccogliere altro capitale sono andati a vuoto. Chang ha detto che il team ha rifiutato offerte a breve termine definite “predatorie” pur di coprire gli stipendi. In un caso, ha raccontato, la proposta prevedeva circa 50.000 dollari alla settimana in cambio di 1 milione di dollari in equity.
Alla fine l’azienda ha scelto di aprire il codice di gran parte della propria tecnologia, nella speranza che qualcun altro potesse continuare il lavoro. Gli investitori, prevedibilmente, non l’hanno presa benissimo.
I rischi di un modello aperto per la salute mentale
Rendere open source un sistema di screening per la salute mentale apre anche un altro fronte: l’uso improprio. Uno strumento pensato per individuare segnali di depressione o ansia potrebbe essere impiegato fuori dai contesti clinici, ad esempio da datori di lavoro o assicurazioni, senza le tutele normalmente previste in sanità. Ovviamente non dovrebbe succedere. Ovviamente, una volta pubblico, impedirlo diventa molto più complicato.
Nicholas Cummins, senior lecturer in speech analysis and responsible AI in health al King’s College London, ha spiegato a The Verge che le versioni open source spesso non includono la documentazione dettagliata che i regolatori si aspettano: una traccia chiara di come il modello sia stato addestrato, validato e testato in sicurezza. Senza quel percorso documentale, ha detto, portare sul mercato un prodotto basato su quella tecnologia potrebbe diventare difficile.
Più probabilmente, ha aggiunto, altre aziende useranno il modello come punto di partenza, aggiungendo i propri dati e le proprie validazioni. Anche così, però, i sistemi vocali restano imperfetti e comportano un rischio “ragionevole” di errore. La depressione, in particolare, si manifesta in modi diversi a seconda delle persone, delle lingue e dei contesti culturali, oltre a dipendere molto dalla varietà e dalla struttura dei dati vocali usati per l’addestramento.
Chang non ha negato questi rischi, ma ha sostenuto che nella pratica sono meno gravi di quanto sembrino sulla carta. Secondo lei, le organizzazioni più incentivate ad abusare della tecnologia sono anche quelle che incontrerebbero gli ostacoli maggiori nel dispiegarla davvero. In altre parole, il rischio più realistico non sarebbe l’abuso, ma il mancato utilizzo.
La parte che non sarà resa pubblica
Non tutta la tecnologia di Kintsugi è stata rilasciata. Chang ha spiegato che una parte resta riservata per motivi di sicurezza, soprattutto quella capace di riconoscere voci sintetiche o manipolate.
La funzione è emersa mentre il team sperimentava con parlato generato dall’IA per rafforzare i modelli dedicati alla salute mentale. L’audio sintetico non conteneva i segnali vocali che il sistema era stato addestrato a riconoscere, e questo ha mostrato che la tecnologia poteva distinguere tra voce umana e voce prodotta dall’IA. Un tema sempre più rilevante, visto il dilagare di contenuti artificiali e deepfake fraudolenti, e uno di quelli che, per ora, non rientrano sotto la supervisione della FDA. Che fortuna, almeno da quel lato.
Chang non ha voluto dire quale sarà il suo prossimo passo, né se questa tecnologia di sicurezza riemergerà in futuro. Ha però detto che le piacerebbe vedere qualcun altro portare avanti il lavoro e accompagnarlo fino all’ultima fase del processo FDA.
Senza cambiamenti più ampi, la chiusura di Kintsugi difficilmente resterà un caso isolato. La speranza di Chang è che questa realtà non scoraggi altri fondatori dal provarci.