वरदान है
यूनिकोड
------------------------
बालेन्दु
शर्मा दाधीच
सूचना
प्रौद्योगिकी के क्षेत्र में विकास और सुधार की निरंतर प्रक्रिया चलती रहती है
और इसी संदर्भ में पिछले कुछ वर्षों से सूचनाओं के भंडारण की एक आधुनिकतम
पध्दति लोकप्रिय हो रही है जिसे यूनिकोड कहते हैं। यूनिकोड के माध्यम से पहली
बार सूचना प्रौद्योगिकी पर अंग्रेजी की अनिवार्य निर्भरता से मुक्ति की
संभावनाएं दिख रही हैं क्योंकि यह पध्दति एक आम कंप्यूटर को विश्व की सभी
भाषाओं में काम करने में सक्षम बना सकती हैं। जाहिर है आईटी के क्षेत्र में
भारतीय भाषाओं को विकसित होते देखने की आकांक्षा रखने वाले लोग यूनिकोड में
छिपी संभावनाओं को देखकर उत्साहित है क्योंकि कई दशकों के बाद अब हम बिना
अंग्रेजी जाने कंप्यूटर की क्षमताओं का प्रयोग करने की स्थिति में आ रहे हैं।
मीडिया में कंप्यूटर टेक्ॉलॉजी की असंदिग्ध रूप से महत्वपूर्ण भूमिका को देखते
हुए कहा जा सकता है कि वह भी आने वाले कुछ वर्षों में इस काल-विभाजक परिघटना से
प्रभावित हुए बिना नहीं रह सकता।
हालांकि
यूनिकोड है तो सिर्फ डेटा के स्टोरेज संबंधी एनकोडिंग मानक,
लेकिन इसके प्रयोग से कंप्यूटरों की कार्यप्रणाली और उनके
इस्तेमाल के तौर-तरीकों में क्रांतिकारी बदलाव आ सकता है क्योंकि डेटा ही
कंप्यूटरों के संचालन का केन्द्र बिन्दु है। भले ही हम कंप्यूटर का किसी भी काम
के लिए प्रयोग करें। मसलन लेखन कार्य के लिए, ध्वनि
रिकॉर्डिंग के लिए या फिर वीडियो प्रोसेसिंग के लिए,
हमें इसके लिए कंप्यूटर को या तो कुछ सूचनाएं प्रदान करनी पड़ती है (जैसे
टाइपिंग के माध्यम से या रिकॉर्डिंग के जरिए) या फिर हम कुछ सूचनाएं कंप्यूटर
से ग्रहण करते हैं (मसलन पहले से रिकॉडर्ेड वीडियो को देखना या पहले से मौजूद
फाइलों को खोलना)। इन्हें क्रमश: इनपुट और आउटपुट के रूप में जाना जाता है। इन
दोनों प्रक्रियाओं में जिन सूचनाओं (डेटा) का प्रयोग होता है,
उसे कंप्यूटर पर अंकों के रूप में स्टोर किया जाता है क्योंकि
वह सिर्फ अंकों की भाषा जानता है और वह भी दो अंकों - 'शून्य'
तथा 'एक' की
भाषा। इन दो अंकों का भिन्न-भिन्न ढंग से पारस्परिक बाइनरी संयोजन कर अलग-अलग
डेटा को कंप्यूटर पर रखा जा सकता है। मिसाल के तौर पर 01000001
का अर्थ है अंग्रेजी का कैपिटल ए अक्षर और 00110001
से तात्पर्य है 1 का
अंक।
अक्षरों या
पाठय सामग्री और कंप्यूटर पर स्टोर किए जाने वाले बाइनरी डिजिट्स के बीच तालमेल
बिठाने वाली प्रणाली को एनकोडिंग कहते हैं। एनकोडिंग टेबल के माध्यम से
कंप्यूटर यह तय करता है कि फलां बाइनरी कोड को फलां अक्षर या अंक के रूप में
स्क्रीन पर प्रदर्शित किया जाए। किस एनकोडिंग में कितने बाइनरी अंक प्रयुक्त
होते हैं,
इसी पर उसकी क्षमता और नामकरण निर्भर होते हैं। उदाहरण के तौर
पर अब तक लोकप्रिय एस्की एनकोडिंग को 7 बिट एनकोडिंग
कहा जाता है क्योंकि इसमें हर संकेत या सूचना के भंडारण के लिए ऐसे सात बाइनरी
डिजिट्स का प्रयोग होता है। एस्की एनकोडिंग के तहत इस तरह के 128
अलग-अलग संयोजन संभव है। यानी इस एनकोडिंग का प्रयोग करने वाला
कंप्यूटर 128 अलग-अलग अक्षरों या संकेतों को समझ सकता
है। अब तक कंप्यूटर इसी सीमा में बंधे हुए थे और इसीलिए भाषाओं के प्रयोग के
लिए उन भाषाओं के फॉन्ट पर सीमित थे जो इन संकेतों को कंप्यूटर स्क्रीन पर
अलग-अलग ढंग से प्रदर्शित करते हैं। यदि अंग्रेजी का फॉन्ट इस्तेमाल करें तो
01000001 संकेत को ए अक्षर के रूप में दिखाया जाएगा।
लेकिन यदि हिंदी फॉन्ट का प्रयोग करें तो यही संकेत ग,
च या किसी और अक्षर के रूप में
प्रदर्शित किया जाएगा।
यूनिकोड एक
16
बिट की एनकोडिंग व्यवस्था है, यानी
इसमें हर संकेत को संग्रह और अभिव्यक्त करने के लिए सोलह बाइनरी डिजिट्स का
इस्तेमाल होता है। इसीलिए इसमें 65536 अद्वितीय संयोजन
संभव है। इसी वजह से यूनिकोड हमारे कंप्यूटर में सहेजे गए डेटा को फॉन्ट की
सीमाओं से बाहर निकाल देता है। इस एनकोडिंग में किसी भी अक्षर,
अंक या संकेत को सोलह अंकों के अद्वितीय संयोजन के रूप में
सहेज कर रखा जा सकता है। चूंकि किसी एक भाषा में इतने सारे अद्वितीय अक्षर
मौजूद नहीं है इसलिए इस स्टैण्डर्ड (मानक) में विश्व की लगभग सारी भाषाओं को
शामिल कर लिया गया है। हर भाषा को इन 65536 संयोजनों
में से उसकी वर्णमाला संबंधी आवश्यकताओं के अनुसार स्थान दिया गया है। इस
व्यवस्था में सभी भाषाएं समान दर्जा रखती हैं और सहजीवी हैं। यानी यूनिकोड
आधारित कंप्यूटर पहले से ही विश्व की हर भाषा से परिचित है (बशर्ते ऑपरेटिंग
सिस्टम में इसकी क्षमता हो)। भले ही वह हिंदी हो या पंजाबी या फिर उड़िया। इतना
ही नहीं, वह उन प्राचीन भाषाओं से भाी परिचित है जो अब
बोलचाल में इस्तेमाल नहीं होतीं, जैसे कि पालि या
प्राकृत। और उन भाषाओं से भी जो संकेतों के रूप में प्रयुक्त होती है,
जैसे कि गणितीय या वैज्ञानिक
संकेत।
यूनिकोड के
प्रयोग से सबसे बड़ा लाभ यह हुआ है कि एक कंप्यूटर पर दर्ज किया गया पाठ
(टेक्स्ट) विश्व के किसी भी अन्य यूनिकोड आधारित कंप्यूटर पर खोला जा सकता है।
इसके लिए अलग से उस भाषा के फॉन्ट का इस्तेमाल करने की अनिवार्यता नहीं है
क्योंकि यूनिकोड केन्द्रित हर फॉन्ट में सिध्दांत: विश्व की हर भाषा के अक्षर
मौजूद हैं। कंप्यूटर में पहले से मौजूद इस क्षमता को सिर्फ एक्टीवेट (सक्रिय)
करने की जरूरत है जो विंडोज,
एक्सपी, विंडोज 2000,
विंडोज विस्ता, मैक एक्स 10,
रेड हैट लिनक्स, उबन्तु लिनक्स आदि
ऑपरेटिंग सिस्टम्स के जरिए की जाती है। विश्व भाषाओं की यह उपलब्ध्ता सिर्फ
देखने या पढ़ने तक ही सीमित नहीं है। हिंदी जानने वाला व्यक्ति यूनिकोड आधारित
किसी भी कंप्यूटर में टाइप कर सकता है, भले ही वह विश्व
के किसी भी कोने में क्यों न हो। सिर्फ हिंदी ही क्यों,
एक ही फाइल में, एक ही फॉन्ट का इस्तेमाल करते हुए आप
विश्व की किसी भी भाषा में लिख सकते हैं। इस प्रक्रिया में अंग्रेजी कहीं भी
आड़े नहीं आती। विश्व भर में चल रही भू-मंडलीकरण की प्रक्रिया में सूचना
प्रौद्योगिकी का यह अपना अलग ढंग का योगदान है। यूनिकोड आधारित कंप्यूटरों में
हर काम किसी भी भारतीय भाषा में किया जा सकता है,
बशर्ते ऑपरेटिंग सिस्टम या कंप्यूटर पर इन्स्टॉल किए गए सॉफ्टवेयर यूनिकोड
व्यवस्था का पालन करें। मिसाल के तौर पर माइक्रोसॉफ्ट के ऑफिस संस्करण,
सन माइक्रोसिस्टम्स के स्टार ऑफिस या फिर ओपनसोर्स पर आधारित
ओपन ऑफिस ऑर्ग जैसे साफ्टवेयरों में आप शब्द संसाधक (वर्ड प्रोसेसर),
तालिका आधारित सॉफ्टवेयर (स्प्रैडशीट),
प्रस्तुति संबंधी सॉफ्टवेयर (पावर-प्वाइंट आदि) तक में हिंदी और अन्य भाषाओं का
बिल्कुल उसी तरह प्रयोग कर सकते हैं जैसे कि अब तक अंग्रेजी में किया करते थे।
यानी न सिर्फ टाइपिंग बल्कि शॉर्टिंग, इन्डेक्सिंग,
सर्च, मेल मर्ज,
हेडर-फुटर, फुटनोट्स,
टिप्पणियां (कमेंट) आदि सब कुछ। कंप्यूटर पर फाइलों के नाम
लिखने के लिए भी अब अंग्रेजी की जरूरत नहीं रह गई है। यदि आप अपनी फाइल का नाम
हिंदी में 'मेरीफाइल.डॉक' भी
रखना चाहें तो इसमें कोई अड़चन नहीं है। इंटरनेट पर भी अब यूनिकोड का मानक खूब
लोकप्रिय हो रहा है और धीरे-धीरे लोग पुरानी एनकोडिंग व्यवस्था की सीमाओं से
निकल कर यूनिकोड अपनाने की दिशा में बढ़ रहे हैं। गूगल,
विकीपीडिया, एमएसएन
आदि इसके उदाहरण है जिनमें हिंदी में काम करना उसी तरह संभव है जैसे कि
अंग्रेजी में। यूनिकोड आधारित भारतीय भाषाओं की वेबसाइटों की विषय वस्तु
(कॉन्टेंट) सर्च इंजनों द्वारा भी सहेजा जाता है। यानी विश्व स्तर पर उनकी
उपस्थिति और दायरा बढ़ता है। फिलहाल सर्च इंजनों पर हिंदी और अन्य भारतीय भाषाओं
की वेबसाइटों की स्थिति दयनीय है क्योंकि हर वेबसाइट में अलग-अलग फॉन्ट का
इस्तेमाल होने के कारण सर्च इंजनों के लिए उनकी विषय वस्तु को समझना संभव नहीं
है। यूनिकोड के प्रयोग से यही काम उनके लिए बहुत आसान हो जाता है।
यूनिकोड
आधारित वेबसाइटों या पोर्टलों को देखने के लिए पाठक के पास संबंधित फॉन्ट होने
की अनिवार्यता भी नहीं है। अगर कोई वेबसाइट यूनिकोड में है तो उसे विश्व में
किसी भी स्थान पर फॉन्ट डाउनलोड किए बिना न सिर्फ देखा जा सकता है बल्कि उसके
लेखों को अपने कंप्यूटर पर सहेजा भी जा सकता है। डाइनेमिक फॉन्ट नामक
टेक्नॉलॉजी के जरिए यह सुविधा सीमित अर्थों में पहले भी मौजूद थी लेकिन
कंप्यूटर पर सहेजे गए लेख तभी पढ़े जा सकते थे यदि कंप्यूटर में संबंधित फॉन्ट
मौजूद हों। अब यह सीमा नहीं रही।
कंप्यूटर अब अंग्रेजी का मोहताज नहीं रहा और इसीलिए
यूनिकोड ने उसकी सम्पूर्ण कार्यप्रणाली भी
बदल दी है। डेटा के भंडारण के साथ-साथ उसकी प्रोसेसिंग और प्रस्तुति के तरीके
भी बदल गए हैं। चूंकि यूनिकोड सोलह बिट की एनकोडिंग व्यवस्था है और विश्व के
अधिकांश सॉफ्टवेयर पुरानी एनकोडिंग व्यवस्था को ध्यान में रखते हुए विकसित किए
गए थे इसलिए ऐसे सॉफ्टवेयर यूनिकोड टेक्स्ट को समझ नहीं पाते। किसी कंप्यूटर पर
यूनिकोड का पूरा लाभ लेने के लिए न्यूनतम आवश्यकता है ताजातरीन विन्डोज,
लिनक्स या मैक ऑपरेटिंग सिस्टम का प्रयोग। चूंकि इन ऑपरेटिंग
सिस्टम्स के संसाधनों की अपनी जरूरतें हैं इसलिए इस बात की काफी संभावना है कि
संबंधित कंप्यूटर कम से कम पी-4, 2 गीगाहर्त्ज श्रेणी
का हो और कम से कम 40 जीबी हार्ड डिस्क और 256
एमबी रैम (रैंडम एक्सेस
मेमरी) से युक्त हो। इन्हीं कारणों से यूनिकोड की ओर प्रस्थान में कुछ आर्थिक
बिंदुओं पर विचार करने की आवश्यकता पड़ सकती है।
लेखक जाने माने टेक्नोक्रेट एवं प्रभासाक्षी वेब पोर्टल के निदेशक हैं ।

lll