सात साल की मेहनत, फिर भी मंज़ूरी नहीं

कैलिफ़ोर्निया की स्टार्टअप Kintsugi ने पिछले सात वर्षों में ऐसी AI विकसित करने की कोशिश की, जो किसी व्यक्ति की आवाज़ से डिप्रेशन और चिंता के संकेत पकड़ सके। लेकिन FDA से समय पर मंज़ूरी न मिलने के बाद कंपनी अब बंद हो रही है। अपनी ज़्यादातर तकनीक को उसने ओपन-सोर्स करने का फैसला किया है। और हाँ, उस तकनीक का कुछ हिस्सा मानसिक स्वास्थ्य से बाहर जाकर, जैसे डीपफेक ऑडियो पहचानने में, भी इस्तेमाल हो सकता है। तकनीक अब कम से कम कुछ काम तो आएगी, भले ही वह वही काम न हो जिसके लिए इसे बनाया गया था।

Kintsugi क्या करने की कोशिश कर रही थी

मानसिक स्वास्थ्य का आकलन अब भी बड़े पैमाने पर सवालावली और क्लिनिकल इंटरव्यू पर टिका हुआ है। शारीरिक चिकित्सा में जहां लैब टेस्ट और स्कैन आम हैं, वहीं यहां अक्सर मरीज से ही पूछा जाता है कि वह कैसा महसूस कर रहा है। Kintsugi का सॉफ्टवेयर इस बात पर ध्यान देता था कि व्यक्ति क्या कह रहा है, बल्कि इस पर कि वह कैसे कह रहा है।

यह विचार नया नहीं है। बोलने का अंदाज़, रुकावटें, वाक्य संरचना और बोलने की गति जैसी चीज़ें मानसिक स्वास्थ्य समस्याओं के संकेत मानी जाती रही हैं। Kintsugi का दावा था कि उसकी AI ऐसे सूक्ष्म बदलाव पकड़ सकती है, जिन्हें इंसान आसानी से न देख पाए। कंपनी ने यह साफ़ नहीं किया कि उसके मॉडल किन विशिष्ट संकेतों के आधार पर निष्कर्ष निकालते हैं। सहकर्मी-समीक्षित शोध में, कंपनी ने छोटे भाषण नमूनों के आधार पर डिप्रेशन के लिए प्रचलित self-report स्क्री닝 टूल्स के करीब नतीजे होने का दावा किया था।

लक्ष्य: सहायक भी, विकल्प भी

कंपनी ने इस तकनीक को Patient Health Questionnaire-9 (PHQ-9) जैसे self-reported स्क्री닝 टूल्स के पूरक, और संभावित विकल्प, के तौर पर पेश किया। PHQ-9 प्राथमिक चिकित्सा और मनोचिकित्सा में एक आम औज़ार है। इन्हें औपचारिक क्लिनिकल मूल्यांकन के साथ इस्तेमाल किया जाना चाहिए, और ये व्यापक रूप से मान्य भी हैं।

लेकिन इनमें कुछ साफ़ सीमाएँ हैं। स्क्रीनिंग दरें कम हो सकती हैं, मरीज अपने लक्षण ठीक से नहीं बता पाते, और ये मानसिक स्वास्थ्य विकारों के सभी लक्षणों को पकड़ भी नहीं पाते। Kintsugi का तर्क था कि आवाज़-आधारित मॉडल अधिक वस्तुनिष्ठ संकेत दे सकता है, अधिक लोगों तक स्क्रीनिंग पहुंचा सकता है, और स्वास्थ्य प्रणालियों, बीमाकर्ताओं तथा नियोक्ता कार्यक्रमों में बड़े पैमाने पर लागू किया जा सकता है। समस्या बस इतनी थी कि इसके लिए FDA की मंज़ूरी चाहिए थी। छोटी बात नहीं, जैसा कि शायद किसी ने पहले ही अंदाज़ा लगा लिया होगा।

FDA की प्रक्रिया और AI का टकराव

Kintsugi ने FDA की De Novo प्रक्रिया के तहत मंज़ूरी मांगी थी। यह रास्ता ऐसे नए, कम जोखिम वाले मेडिकल डिवाइस के लिए होता है जिनका बाज़ार में कोई सीधा समकक्ष नहीं होता। सिद्धांत रूप में यह नए उत्पादों के लिए मंज़ूरी को आसान बनाता है, लेकिन व्यवहार में इसमें सालों तक डेटा जुटाने और नियामकीय समीक्षा की जरूरत पड़ सकती है।

Kintsugi की संस्थापक और CEO Grace Chang ने The Verge को बताया कि काफी समय रेगुलेटर को AI समझाने में खर्च हुआ। दिक्कत यह भी थी कि मौजूदा ढांचा AI के लिए खासा अनुकूल नहीं है। वह ज़्यादातर पारंपरिक उपकरणों के हिसाब से बना है, जैसे हिप इम्प्लांट, सर्जिकल टूल या पेसमेकर, जिनका डिज़ाइन मंज़ूरी के बाद आम तौर पर स्थिर रहता है। AI सिस्टम के मामले में यह मॉडल को वहीं रोक देने जैसा है, जबकि वह आगे और बेहतर होता रह सकता था।

फंडिंग खत्म हुई, समय भी

ट्रम्प प्रशासन की ओर से AI उत्पादों को तेजी से वास्तविक दुनिया में लाने के दबाव के बावजूद, Chang का कहना है कि रेगुलेटरी विशेषज्ञों ने उनसे कहा कि “ऊपर से ज़ोरदार शोर” के अलावा ऐसा कुछ नहीं है जो प्रक्रिया को सचमुच तेज़ करे। इस बीच संघीय सरकार के शटडाउन ने मंज़ूरी की रफ़्तार और धीमी कर दी। अंततः कंपनी अपने अंतिम सबमिशन से पहले ही पैसों से बाहर हो गई।

फंड जुटाने की कोशिशें भी नाकाम रहीं। रनवे छोटा होता गया, और कंपनी के सामने ऐसे अल्पकालिक ऑफर आए जिन्हें Chang ने “शोषणकारी” बताया। उन्होंने एक प्रस्ताव का ज़िक्र किया जिसमें प्रति सप्ताह लगभग 50,000 डॉलर के बदले 1 मिलियन डॉलर की इक्विटी मांगी गई थी। टीम ने इसे स्वीकार करने के बजाय अपनी ज़्यादातर तकनीक ओपन-सोर्स करने का फैसला किया, ताकि शायद कोई और इस काम को आगे बढ़ा सके। निवेशक, स्वाभाविक रूप से, इससे बहुत खुश नहीं थे।

ओपन-सोर्स करना और उससे जुड़ी चिंताएँ

मेंटल हेल्थ स्क्रीनिंग मॉडल को सार्वजनिक करना अपने साथ उपयोग के दुरुपयोग की चिंता भी लाता है। जो उपकरण डिप्रेशन या चिंता के संकेत पकड़ने के लिए बनाए गए हैं, उन्हें सैद्धांतिक रूप से स्वास्थ्य सेवा के बाहर भी इस्तेमाल किया जा सकता है, जैसे नियोक्ता या बीमाकर्ता, और वह भी उन सुरक्षा उपायों के बिना जो आम तौर पर मेडिकल सेटिंग में होते हैं। यह साफ़ तौर पर नहीं होना चाहिए, लेकिन एक बार तकनीक सार्वजनिक हो गई तो उसे गलत दिशा में इस्तेमाल होने से रोकना मुश्किल हो जाता है।

Nicholas Cummins, जो किंग्स कॉलेज लंदन में speech analysis और responsible AI in health के वरिष्ठ व्याख्याता हैं, ने The Verge को बताया कि ओपन-सोर्स रिलीज़ में अक्सर वह विस्तृत “paper trail” नहीं होती जिसे रेगुलेटर देखते हैं। इसमें यह रिकॉर्ड भी शामिल होता है कि मॉडल को कैसे प्रशिक्षित किया गया, कैसे वैलिडेट किया गया, और सुरक्षा के लिए कैसे परखा गया। बिना इस रिकॉर्ड के, उसी तकनीक पर आधारित किसी उत्पाद को FDA मंज़ूरी तक पहुंचाना कठिन हो सकता है।

Cummins के अनुसार, अधिक संभावना यह है कि कंपनियां इसे शुरुआती आधार के तौर पर लेंगी और अपने डेटा तथा वैलिडेशन प्रक्रियाओं से ऊपर बनाएंगी। फिर भी, उन्होंने चेतावनी दी कि आवाज़-आधारित सिस्टम पूरी तरह सटीक नहीं होते और उनमें त्रुटि का “उचित” जोखिम बना रहता है। यह बात खासकर डिप्रेशन जैसी स्थितियों पर लागू होती है, जो अलग-अलग लोगों, भाषाओं और सांस्कृतिक संदर्भों में अलग तरह से प्रकट होती हैं। इसके अलावा, नतीजे काफी हद तक इस बात पर निर्भर करते हैं कि ट्रेनिंग डेटा कितना विविध और कितना अच्छा संरचित था।

जोखिम हैं, लेकिन Chang के अनुसार असली समस्या कुछ और है

Chang ने दुरुपयोग की चिंताओं को खारिज नहीं किया, लेकिन कहा कि व्यवहार में यह जोखिम उतना बड़ा नहीं है जितना सिद्धांत में लगता है। उनके मुताबिक जिन संगठनों के पास तकनीक का दुरुपयोग करने का सबसे अधिक कारण हो सकता है, वही इसे तैनात करने में सबसे बड़ी नियामकीय और व्यावहारिक बाधाओं का सामना करेंगे। उनके हिसाब से असली खतरा दुरुपयोग नहीं, बल्कि कम उपयोग है। यानी तकनीक मौजूद रहे और कोई उसे इस्तेमाल ही न करे। आधुनिक नवाचार का एक परिचित, उदास-सा अंत।

कुछ तकनीक अभी भी बची हुई है

Kintsugi ने अपनी मानसिक स्वास्थ्य स्क्रीनिंग तकनीक ओपन-सोर्स कर दी है, लेकिन कंपनी की सारी तकनीक सार्वजनिक नहीं की गई। Chang ने कहा कि कुछ हिस्सा सुरक्षा कारणों से रोका गया है, खासकर वह तकनीक जो सिंथेटिक या हेरफेर की गई आवाज़ों का पता लगा सकती है।

यह क्षमता तब सामने आई जब टीम ने अपने मानसिक स्वास्थ्य मॉडल को मजबूत करने के लिए AI-जनित भाषण के साथ प्रयोग किया। उस सिंथेटिक ऑडियो में वे वोकल संकेत नहीं थे जिन्हें मॉडल पहचानने के लिए प्रशिक्षित किया गया था। इसी से पता चला कि तकनीक मानव और AI-निर्मित आवाज़ों में फर्क कर सकती है। यह एक बढ़ती हुई समस्या है, क्योंकि AI-जनित कचरा सामग्री और धोखाधड़ी वाले डीपफेक तेजी से फैल रहे हैं, और इसे भरोसेमंद तरीके से रोकने का हल अब तक नहीं मिला है। इससे कमाई की अच्छी संभावना भी बनती है, और Kintsugi के लिए राहत की बात यह है कि यह क्षेत्र FDA के दायरे में नहीं आता।

Chang ने यह बताने से इनकार कर दिया कि उनका अगला कदम क्या होगा, या क्या Kintsugi की सुरक्षा-केंद्रित तकनीक फिर कहीं दिखाई देगी। लेकिन उन्होंने उम्मीद जताई कि कोई और कंपनी इस काम को आगे बढ़ाए और FDA प्रक्रिया के अंतिम चरणों तक पहुंचाए। उनका कहना है कि जब तक प्रणालीगत बदलाव नहीं होंगे, Kintsugi की कहानी शायद आख़िरी उदाहरण नहीं होगी, जब स्टार्टअप की रफ़्तार और मेडिकल रेगुलेशन आपस में टकराते हैं। और वह चाहती हैं कि यह अनुभव बाकी संस्थापकों को कोशिश करने से न रोके।