नंबर, अक्षर, तस्वीर, टेढ़े-मेढ़े शब्द... आखिर CAPTCHA इत्ते मुश्किल क्यों होते जा रहे हैं?

IRCTC की वेबसाइट पर लॉगइन करने गए. अपनी आईडी लिखी. पासवर्ड भी डाला. लेकिन अभी लॉगइन नहीं होगा. क्योंकि कैप्चा (CAPTCHA) तो डाला ही नहीं. अब कैप्चा डालेंगे, फिर मिलेगी एंट्री. ये वैरिफिकेशन प्रोसेस सिर्फ IRCTC की वेबसाइट तक सीमित नहीं है. चाहे सरकारी सेवाओं से जुड़ी कोई वेबसाइट हो या बैंक की साइट, CAPTCHA बिना आजकल काम नहीं बनता. और अब तो कैप्चा पहले से ज़्यादा मुश्किल होते जा रहे हैं. पहले जहां सिर्फ नंबरों को देखकर लिख देने से काम चल जाता था. अब जोड़-घटाव का खेल है. टेढ़े-मेढ़े शब्द पहचानने होते हैं. कैपिटल लेटर और स्मॉल लेटर के फर्क को ध्यान में रखना होता है. कई बार तस्वीरों को देखकर, दिमाग लगाकर जवाब देना होता है. आपके मन में सवाल आ रहा होगा कि ये कैप्चा किस मर्ज की दवा है जिसके बिना कई प्रमुख वेबसाइटों पर लॉगइन संभव नहीं होता. आइए आज बात इसी CAPTCHA की.
अंग्रेजी के हिसाब से CAPTCHA का मतलब है Completely Automated Public Turing test to tell Computers and Humans Apart. यानी कैप्चा एक ऑटोमेटेड ट्यूरिंग टेस्ट है, जो इंसान और कंप्यूटर के बीच अंतर बताता है. यहां कंप्यूटर का मतलब है बॉट. कैप्चा का मकसद यही होता है कि ऐसे मुश्किल चैलेंज दिए जाएं जो कंप्यूटर के लिए तो मुश्किल हों, लेकिन इंसानों को उसका हल निकालने या बताने में परेशानी न हो.
लुइस वॉन ऑन (Luis Von Ahn) ने इस साइबर सिक्योरिटी टेक्नोलॉजी की खोज की थी. तब वह कार्नी मेलॉन यूनिवर्सिटी में पीएचडी कर रहे थे. जब लुइस पहले सेमेस्टर में थे तो उनके कॉलेज में Yahoo के चीफ साइंटिस्ट ने एक लेक्चर दिया. ये लेक्चर उन प्रॉब्लम्स के बारे में था जिसे याहू सॉल्व नहीं कर पाया था. इसी में से एक समस्या थी बॉट की. फिर लुइस ने अपने पीएचडी क्लास के साथियों के संग रिसर्च शुरू कर दी. CAPTCHA की ज़रूरत क्यों पड़ी? साल 2000 में याहू एक प्रीमियर ईमेल सर्विस थी. लाखों लोग मुफ्त में साइन अप करते थे. और यहीं पर होता था स्पैमर्स का खेल. उस वक्त पर Yahoo ने अपने ईमेल यूज़र्स को एक दिन में 500 से ज्यादा मेल भेजने का बैन लगा दिया था. लेकिन स्पैमर्स ने इसकी भी काट निकाल ली. उन्होंने ज़्यादा से ज़्यादा ईमेल अकाउंट खोलने शुरू कर दिए. और ये सब प्रोग्रामिंग के ज़रिए अपने आप किया जा रहा था. Yahoo को कुछ समझ में नहीं आ रहा था कि इसे रोका कैसे जाए.
इसी परेशानी का हल निकाला लुइस वॉन ऑन ने. उन्होंने साइबर सिक्योरिटी को लेकर एक ऐसी तकनीक बनाई जिसमें इंसान को नंबर्स या लेटर्स को पढ़कर एक जगह टाइप करना होता था. इसके पीछे आइडिया यही था कि इंसान डिस्टॉर्टेड कैरेक्टर्स (distorted characters) भी पढ़ सकते हैं, लेकिन कंप्यूटर नहीं. और इस तकनीक की मदद से ऑटोमेटेड साइनअप नहीं होंगे. मतलब कंप्यूटर अपने आप एंट्री नहीं मार सकेंगे.
दरअसल, इंसान ऑप्टिकल कैरेक्टर्स को पहचानने में माहिर होते हैं. आम भाषा में उसे पढ़ना मानिए. सच ये है कि हमारी ट्रेनिंग तो बचपन से शुरू हो जाती है. चाहे टेक्स्ट किसी भी एंगल में हो, हम उसे पढ़ सकते हैं. बचपन में तो आपने और हमने उल्टी किताब से भी कई बार पढ़ने की कोशिश की होगी, और ज़्यादातर मौकों पर सफल भी रहे होंगे. लेकिन उस वक्त तक कंप्यूटर इसमें माहिर नहीं थे. और इसी आधार पर कैप्चा की शुरुआत हुई.
अब कैप्चा बनाने वाले प्रोग्रामर कंप्यूटर को सही कोड दे देते हैं. कंप्यूटर उस कोड को थोड़ी-बहुत कलाकारी करके किसी यूज़र के सामने रख देता है. यूज़र नीचे दिए गए बॉक्स में सही कोड लिख देगा तो उसे आगे जाने की अनुमति मिल जाएगी. लेकिन बॉट इस कोड को नहीं पहचान पाते.
इसी तकनीक की ज़रूरत थी Yahoo को, जो उन्हें मुफ्त में ही मिल गई. और यह कारगर भी साबित हुई. बॉट्स इसके बाद साइनअप नहीं कर पा रहे थे. लेकिन एक और चीज़ बैकग्राउंड में हो रही थी जिसकी वजह से इस साइबर सिक्योरिटी तकनीक को अपग्रेड करना प़ड़ा. CAPTCHA ने कई बार बदला अवतार कैप्चा कोड को लिखने के लिए यूज़र जिन लेटर्स और वर्ड्स को टाइप कर रहे थे, वही शब्द कंप्यूटर को स्मार्ट बना रहे थे. यानी कंप्यूटर शब्दों को पढ़ने में माहिर होते जा रहे थे. 2005 में इसका नया वर्ज़न सामने आया जिसका नाम था reCAPTCHA. इसमें दो शब्द दिखाए जाते थे. एक कंप्यूटर से चुना गया, दूसरा किसी किताब या आर्टिकल से. कंप्यूटर को कोई आइडिया नहीं रहता कि दूसरा शब्द क्या है. पहले शब्द के आधार पर ही तय हो जाता था कि यूज़र इंसान है या बॉट. लेकिन यूज़र दूसरे वर्ड को टाइप करके भविष्य के लिए कंप्यूटर को उस शब्द को समझा रहे थे.
फिर दूसरे शब्द को कई लाख लोगों के पास भेजा जाता था, ताकि कंप्यूटर तरह-तरह के डिस्टॉर्टेड कैरेक्टर्स को समझ सकें. जब लाखों लोगों का जवाब एक जैसा आता तो उसे आइडेंटिफाइड मार्क कर दिया जाता था. इंसान और बॉट के बीच तो अंतर तय हो ही रहा था, साथ में कंफ्यूटर डिस्टॉर्टेड कैरेक्टर्स को आइडेंटिफाई करना सीख रहा था.
फिर इस टेक्नोलॉजी पर नज़र पड़ी Google की. 2009 में खरीद लिया. गूगल ने रीकैप्चा का इस्तेमाल स्कैन्ड बुक्स और न्यूज़ आर्काइव्स को डिजिटाइज करने के लिए किया. इसके आधार पर एक भरी-पूरी लाइब्रेरी तैयार हो गई. लेकिन इस लाइब्रेरी ने एक बार फिर कंप्यूटर को ही और भी ज्ञानी बना दिया. जितनी आसानी से इंसान डिस्टॉर्टेड इमेज को पहचानते थे, उतनी ही तेजी कंप्यूटर ने भी दिखानी शुरू कर दी.
ऐसे समझिए. 2014 में गूगल मशीन लर्निंग का एक शोध सामने आया. इसके अनुसार, बेहद ही डिस्टॉर्टेड इमेज को पहचाने में इंसान करीब 33 प्रतिशत सटीक थे जबकि आर्टिफिशियल इंटेलिजेंस 98 प्रतिशत. आंकड़ों से साफ था, कैप्चा को कंप्यूटर अब इंसान की तुलना में ज़्यादा बेहतर पढ़ सकते थे. ये वक्त था बदलाव का.
इसके बाद कैप्चा टेक्स्ट से आगे बढ़कर तस्वीरों तक पहुंच गया. इससे भी आपका सामना कई बार हुआ होगा... कई तस्वीरों के सेट में लैंप पोस्ट वाली हर तस्वीर पर क्लिक करने का निर्देश. याद आया ना. संभव है कि लैंप पोस्ट की जगह आपका सामना ट्रैफिक लाइट, पेड़ या क्रॉसवॉक्स से हुआ हो. लेकिन मशीन लर्निंग इधर भी ज़ारी थी. अब कंप्यूटर तस्वीरों को भी पहचान रहे थे. यानी बदलाव यहां भी ज़रूरी था.

CAPTCHA की इस तकनीक से भी हुआ होगा आपका सामना

अब आया ReCaptcha Version3. इसमें कैप्चा कोड नहीं भरना होता. बस कंप्यूटर आपके बिहेवियर को स्टडी करता रहता है. एक सीक्रेट टेस्ट चल रहा होता है बैकग्राउंड में. अगर कर्सर एक खास पैटर्न में चल रहा है या टेक्स्ट पर ज़्यादा तेजी से क्लिक हो रहा है तो कंप्यूटर को लगेगा कि इस यूज़र का कैरेक्टर बॉट वाला है. वैसे, इस वर्ज़न में कुछ लोगों को इमेज लेबलिंग के ज़रिए टेस्ट किया जाता है.
लेकिन इस कैप्चा टेस्ट में भी फायदा कंप्यूटर का ही हो रहा है. हमारी और आपकी समझ से वो भी सीख रहा है. यानी आने वाले कैप्चा टेस्ट और मुश्किल होने वाले हैं. लेकिन एक दिक्कत है. कहीं कंप्यूटर को मात देने के चक्कर में टेस्ट इतने मुश्किल न हो जाएं कि वे इंसान के ही पल्ले न पड़ें.