सोमवार, 16 जून 2008

इंडिक भाषा कंप्यूटिंग के माध्यम से भारतीयों का वैश्विक समन्वय

इंडिक भाषा कंप्यूटिंग के माध्यम से भारतीयों का वैश्विक समन्वय

विजय कुमार मल्होत्रा

पूर्व निदेशक (राजभाषा),रेल मंत्रालय, भारत सरकार,नई दिल्ली (भारत)

प्रस्तावना
राजनीति के रंगमंच पर भाषा की भूमिका भी काफ़ी महत्वपूर्ण होती है.विश्व के इतिहास पर सरसरी निगाह डालने पर पता चलेगा कि यह मात्र संयोग नहीं है कि विकासित देश प्रमुखत:एकभाषिक हैं और विकासशील देश बहुभाषिक, बहु नस्लीय और बहु सांस्कृतिक. तथाकथित विकसित विश्व में दो भाषाओं को झंझट और अनेक भाषाओं को मूर्खतापूर्ण माना जाता है.वस्तुत:विविधता का प्रबंधन आज मानवता के लिए बहुत बड़ी चुनौती है. एकभाषिक सोच पर आधारित राष्ट्र के रूप में राज्य की परिकल्पना से आज लोकतांत्रिक विश्व विभाजित और अलग-थलग पड़ गया है.कनाडा में फ्रेंच और अंग्रेज़ी की परस्पर असहिष्णुता ने क्यूबेक को कनाडा से अलग होने के कगार पर पहुँचा दिया था.पाकिस्तान के असहिष्णु राजनीतिज्ञों ने जब उर्दू को एकमात्र राजभाषा बनाकर थोपने का प्रयास किया तो बँगला देश पाकिस्तान से अलग हो गया.विभिन्न भाषाओं की मान्यता से न केवल संवाद का मुक्त प्रवाह होता है,बल्कि इससे निचले स्तर को लोगों का सशक्तीकरण भी होता है.चीनी और अंग्रेज़ी की तरह हिंदी के समन्वित नाम के अंतर्गत भी अनेक बोलियों का समावेश हो जाता है.
यदि आप 14 सितंबर,1949 को भारतीय संविधान सभा में हिंदी को राजभाषा बनाने के प्रस्ताव पर हुई बहस पर नज़र दौड़ाएँ तो पाएँगे कि यह प्रस्ताव सुप्रसिद्ध तमिल नेता श्री गोपालस्वामी आयंगर द्वारा रखा गया था और इसे बिना किसी विरोधी या अनुपस्थित मत के सर्वसम्मति से स्वीकार किया गया था, लेकिन इसके साथ एक खंड भी जोड़ दिया गया था कि हिंदी के साथ-साथ अन्य भारतीय भाषाओं का विकास भी सुनिश्चित किया जाएगा.तदनुसार,अंग्रेज़ी और संस्कृत के साथ-साथ अन्य भारतीय भाषाओं को भी राष्ट्रीय भाषाओं के रूप में भारतीय संविधान की 8 वीं अनुसूची में शामिल कर लिया गया.अब यह संख्या बढ़कर 22 हो गई है.संविधान के अनुच्छेद 351 में यह परिकल्पना की गई है कि हिंदी का विकास इस तरह से किया जाए कि यह भारत की सामासिक संस्कृति का प्रतिनिधित्व कर सके और इसमें भारत के संविधान की 8वीं अनुसूची में परिगणित भाषाओं के रूपों, शैलियों और अभिव्यक्तियों को भी समाहित किया जाए.
· विविधता में एकता
· भारत एकभाषिक क्षेत्र है.
· सभी भारतीय लिपियों के लिए समान कोड और समान कुंजीपटल
बहुभाषी,बहु नस्लीय और बहु सांस्कृतिक समाज में विविधता में एकता के सिद्धांत को ही मूलमंत्र माना जाता है . भारत में 1650 से अधिक भाषाएँ और बोलियाँ प्रचलित हैं.फिर भी यह देश एकभाषिक क्षेत्र है. यह सिद्धांत भारत की भाषाओं और लिपियों पर भी लागू होता है. भारत की अनेक भाषाएँ और लिपियाँ तो एक-दूसरे से इतनी भिन्न दिखती हैं कि उनमें समानता के अंतर्निहित सूत्र को खोजना भी सरल नहीं है.उदाहरण के लिए आर्यभाषाओं और द्रविड़ भाषाओं में इतना अंतर दिखाई पड़ता है कि यह विश्वास करना कठिन हो जाता है सभी भारतीय भाषाओं की लिपियों (उर्दू को छोड़कर) का उद्गम ब्राह्मी लिपि के समान स्रोत से हुआ है.अशोक काल से ही हमें उत्तर और दक्षिण भारत में ब्राह्मी का व्यापक उपयोग मिलने लगता है. ऐतिहासिक रूप में इसकी प्रामाणिक जानकारी सन् 1837 में मिली.IIT, कानपुर के कंप्यूटर वैज्ञानिकों को सभी भारतीय भाषाओं के लिए जिस्ट प्रौद्योगिकी के आधार पर समान कुंजीपटल का विकास करते हुए इस तथ्य का व्यावहारिक अनुभव सन् 1983 में हुआ. पहली बार इसका सार्वजनिक प्रदर्शन सन् 1983 में नई दिल्ली में आयोजित अंतर्राष्ट्रीय हिंदी सम्मेलन में किया गया.क्वेर्टी कुंजीपटल पर सभी भारतीय भाषाओं को समेटना अपने आप में एक जटिल कार्य था,लेकिन ब्राह्मी लिपि से उद्भव के फलस्वरूप भारतीय लिपियों के ध्वन्यात्मक स्वरूप के कारण यह कार्य अत्यंत वैज्ञानिक रूप में संपन्न हो गया. सभी भारतीय भाषाओं के लिए जिस्ट प्रौद्योगिकी के आधार पर समान ध्वन्यात्मक कुंजीपटल और समान कोड का विकास किया गया.
· भारतीय लिपियों के लिए ISCII कोड और इन्स्क्रिप्ट
भारतीय लिपियाँ अपने स्वरूप में अक्षरात्मक हैं,लेकिन उनका स्वरूप ध्वन्यात्मक है औरब्राह्मी लिपि से उद्भव के कारण उनकी विरासत भी एक ही है. कुछ लिपियों में मामूली-सा अंतर होने के कारण कतिपय लिपियों में कुछ अक्षर अतिरिक्त हैं और कुछ कम. 1986-88 में विकसित ISCII (Indian Standard Code for Information Interchange) कोड में परिवर्धित देवनागरी के अंतर्गत इस पक्ष का भी ध्यान रखा गया और इसे भारतीय मानक ब्यूरो ने मानक के रूप में स्वीकार कर लिया, लेकिन जब कंप्यूटर के उपयोग का सवाल आया तो भारतीय भाषाओं में डेटा प्रविष्टि के अनेक विकल्प सामने थे और यही चिंता की बात थी. भारतीय भाषाओं में डेटा प्रविष्टि के लिए डिफ़ॉल्ट विकल्प INSCRIPT(INdian SCRIPT) लेआउट है. इस लेआउट में मानक 101 कुंजीपटल का उपयोग करता है.वर्णों की मैपिंग इस प्रकार से की गई है कि यह सभी भारतीय भाषाओं (बाएँ से दाईं ओर लिखी जाने वाली) के लिए समान कुंजीपटल बन जाता है.इसका प्रमुख कारण यही है कि भारतीय भाषाओं के वर्णों का सेट समान है. हम भारतीय भाषाओं की वर्णमाला के वर्णों को व्यंजन,स्वर,अनुनासिक और संयुक्ताक्षरों में विभाजित कर सकते हैं.प्रत्येक व्यंजन विशिष्ट ध्वनि और स्वर का संयोजन होता है. स्वर शुद्ध ध्वनियों को दर्शाता है. अनुनासिक वे नासिक्य ध्वनियाँ होती हैं,जिनका उच्चारण स्वर के साथ किया जाता है. संयुक्ताक्षर दो या अधिक वर्णों का संयोजन होता है.भारतीय भाषाओं की वर्णमाला की तालिका को स्वर और व्यंजन में विभाजित किया जाता है. स्वर दो प्रकार के होते हैं,दीर्घ और लघु. व्यंजनों को अनेक वर्गों में विभाजित किया जाता है. INSCRIPT लेआउट में यह व्यवस्था प्रतिबिंबित होती है. इसीलिए इसकी व्यवस्था बहुत सरल होती है.इन्स्क्रिप्ट ले आउट में सभी स्वरों को कुंजीपटल के बाईं ओर रखा गया है और व्यंजनों को दाईं ओर.यह व्यवस्था इसप्रकार से की गई है कि प्रत्येक वर्ग को दो कुंजियों में विभाजित कर दिया गया है.इस प्रकार इन भाषाओं के समान अकारादि क्रम के कारण ही सभी भारतीय भाषाओं के लिए समान कुंजीपटल और समान कोड विकसित किया जा सका है और सभी भारतीय भाषाओं के लिए समान कोडिंग के कारण ही भारतीय लिपियों में परस्पर लिप्यंतरण की सुविधा भी संपन्न हो पाई है.चूँकि ISCII में रोमन लिपि को भी समाहित किया गया है,इसलिए इंडिक लिपियों से रोमन लिपि में भी लिप्यंतरण किया जा सकता है.

· भारतीय भाषाओं के शब्दपरक,वाक्यपरक और अर्थपरक लक्षणों में समानता
इंडिक लिपियों के बाद आइए अब हम भारतीय भाषाओं के शब्दपरक,वाक्यपरक और अर्थपरक लक्षणों की समानता पर विचार करें.यह सही है कि भारतीय भाषाओं ने संस्कृत से काफ़ी मात्रा में शब्द उधार लिए हैं और इनका प्रयोग समान रूप से सभी भारतीय भाषाओं में कमोबेश किया जाता है. भारतीय भाषाओं में इस अखिल भारतीय स्वरूप के कारण ही संस्कृत इन सभी भारतीय भाषाओं की साझी विरासत है.प्रमुखत:संस्कृत में रचे गए आयुर्वेद,गणित और ज्योतिष शास्त्रों की शब्दावली बहुत हद तक समान रूप से सभी भारतीय भाषाओं में प्रयुक्त होती है. विभिन्न भारतीय भाषाओं के लिए तकनीकी शब्दावली को अंतिम रूप देते हुए भारत सरकार ने ये निर्देश जारी किए थे कि विभिन्न भारतीय भाषाओं के लिए नई पारिभाषिक शब्दावली का निर्माण करते समय यह ध्यान रखा जाए कि ये शब्द प्रमुखत:संस्कृत से ही व्युत्पन्न किए जाएँ और यही कारण है कि भारतीय भाषाओं की पारिभाषिक शब्दावली में बहु हद तक काफ़ी समानता है. भारतीय भाषाओं के लिए विभिन्न भाषिक उपकरण विकसित करते समय कंप्यूटर वैज्ञानिक यह देखकर दंग रह गए कि भारतीय भाषाओं में केवल शाब्दिक स्तर पर ही नहीं,वाक्यविन्यास और अर्थ की संरचना के स्तर पर भी काफ़ी समानता है. वस्तुत: उन्हें तो ऐसा लगा कि 1650 से अधिक भाषाओं और बोलियों के बावजूद भारत एकभाषिक क्षेत्र है.हिंदी और अन्य भारतीय भाषाओं के लिए विभिन्न भाषिक उपकरण विकसित करते समय अभिकलनात्मक भाषाविज्ञान (Computational Linguistics) के क्षेत्र में काम करने वाले कंप्यूटर वैज्ञानिकों को ऐसे अनेक क्षेत्र मिले,जिनमें काफ़ी समानता थी.

भारतीय भाषाओं के भाषावर्ग विशिष्ट लक्षण
यदि आप भाषाओं के मूल की ओर दृष्टि डालें तो पाएँगे कि विश्व-भर की भाषाओं में दो स्पष्ट लक्षण दिखाई पड़ते हैं: सार्वभौमिक लक्षण और भाषा-विशिष्ट लक्षण. सार्वभौमिक लक्षण वे हैं जो हिंदी, तमिल, अंग्रेज़ी, चीनी और अरबी जैसी विभिन्न भाषा-परिवारों से जुड़ी भाषाओं में भी समान रूप से पाए जाते हैं. उदाहरण के लिए, 'खाया' एक सकर्मक क्रिया है, जो खाए जाने के लिए एक कर्म और खाना क्रिया संपन्न करने के लिए एक कर्ता की आकांक्षा करती है और साथ ही यह भी अपेक्षा करती है कि उसका कर्ता सजीव हो. इस क्रिया की वृक्ष संरचना में ये सभी सार्वभौमिक लक्षण दिखाई पड़ते हैं.इसप्रकार इसकी सकर्मकता विश्व की सभी भाषाओं में समान है,लेकिन कर्ता के साथ 'ने' का प्रयोग हिंदी का भाषा-विशिष्ट लक्षण है. कुछ ऐसे भी लक्षण होते हैं जो भाषा-वर्ग विशिष्ट होते हैं. उदाहरण के लिए, एक विशेष वाक्य साँचे में कर्ता के साथ 'को' का प्रयोग सभी भारतीय भाषाओं में समान रूप से पाया जाता है; जैसे, हिंदी में 'राम को बुखार है', मराठी में 'रामला ताप आहे' ,तमिल में, 'रामक्कु ज्वरम्' ,मलयालम में ' रामन्नु पनियानु ' ,कन्नड़ में ‘रामनिगे ज्वर दिगे' , बँगला में 'रामेर ताप आछे' और अंग्रेज़ी में इसका अनुवाद होगा, 'Ram has a fever’. अंग्रेज़ी में आप देखेंगे कि 'को' का वाचक कोई परसर्ग या पूर्वसर्ग नहीं है. इससे स्पष्ट होता है कि भारत एकभाषिक क्षेत्र है. यदि हम इन लक्षणों के विश्लेषण के लिए भाषा प्रौद्योगिकी का उपयोग करें तो हम भारतीय भाषाओं में कंप्यूटर साधित स्वयं भाषा शिक्षक, ऑटो-करेक्ट, ग्रामर चैकर और मशीनी अनुवाद जैसे अत्यंत जटिल भाषिक उपकरणों का विकास भी कर सकते हैं.

· भारतीय भाषाओं के लिए समान भाषिक उपकरण
भारतीय भाषाओं की समानता के कारण ही हिंदी और अन्य भारतीय भाषाओं में मशीनी अनुवाद प्रणाली जैसे भाषिक उपकरणों के विकास का मार्ग प्रशस्त हुआ.अनुसारक नामक मशीनी अनुवाद प्रणाली, पाणिनीय व्याकरण पद्धति पर आधारित है और इसमें 5 भारतीय भाषा-युग्मों के अनुवाद की प्रणाली विकसित की गई है और इसका विकास IIIT,हैदराबाद के निदेशक डॉ.राजीव संगल के मार्गदर्शन में किया गया है. TAG (Tree Adjoining Grammar) अर्थात् वृक्ष संलग्न व्याकरण नाम से दूसरी कलनविधि का विकास पेन्सिल्वेनिया विश्वविद्यालय (अमरीका) के कंप्यूटर विज्ञान विभाग के अध्यक्ष और प्रोफ़ेसर अरविंद जोशी ने किया था. TAG हिंदी और अंग्रेज़ी जैसी भिन्न वाक्य संरचना वाली भाषाओं के पदनिरूपण (पार्सिंग) के लिए काफ़ी उपयुक्त मानी गई है. एक ओर अंग्रेज़ी स्थिर शब्द क्रम की भाषा है, वहीं हिंदी इसके ठीक विपरीत अपेक्षाकृत मुक्त शब्द क्रम की भाषा है .उदाहरण के लिए यदि आप अंग्रेज़ी के इस वाक्य के शब्द क्रम को बदल दें तो अर्थ का अनर्थ हो सकता है अर्थात् अर्थ पूरी तरह से बदल जाएगा. "Ram (कर्ता) killed (क्रिया) Ravan (कर्म)" का क्रम बदलकर इस प्रकार कर दें, "Ravan (कर्ता) killed (क्रिया) Ram (कर्म)" तो अर्थ पूरी तरह से बदल जाता है, लेकिन हिंदी में यदि क्रम बदल भी जाए तो भी अर्थ ज्यों का त्यों ही रहेगा. "राम (कर्ता) ने रावण (कर्म) को मारा (क्रिया)". "रावण (कर्म) को राम (कर्ता) ने मारा (क्रिया)". TAG में अंग्रेज़ी और हिंदी दोनों ही भाषाओं का पदनिरूपण क्रिया के आधार पर किया जाता है और अंग्रेज़ी को SVO के रूप में और हिंदी को SOV के रूप में पदनिरूपित कर देता है. इस परियोजना का प्रयोग-क्षेत्र प्रशासनिक भाषा था. प्रशासनिक भाषा के लक्षण सभी भाषाओं में लगभग समान हैं. उदाहरण के लिए प्रशासनिक भाषा में कर्मवाच्यपरक भूतकालिक कृदंतों का प्रयोग बहुतायत से किया जाता है. "Mr.Verma has been transferred from Delhi to Mumbai with effect from March1, 2005 and posted as Director (Operations)".किंतु हिंदी का भाषाविशिष्ट लक्षण यह है कि इसमें कर्ता के साथ आदरसूचक शब्द श्री या जी लगाने से इसका प्रयोग बहुवचन में किया जाता है और तदनुसार क्रिया भी बहुवचन में बदल जाती है. श्री वर्मा निदेशक हो गए (बहुवचन). इन उदाहरणों से मैं यही स्पष्ट करना चाहता था कि पार्सर बनाते समय यदि भाषा-विशिष्ट लक्षणों पर ध्यान नहीं दिया गया तो मशीनी अनुवाद जैसे भाषिक उपकरणों का सफलतापूर्वक विकास नहीं किया जा सकता.यह पार्सर अंग्रेज़ी, फ्रेंच, मराठी, जापानी और चीनी जैसी विभिन्न भाषा परिवारों के भाषा-विशिष्ट लक्षणों के विश्लेषण के लिए बहुत उपयुक्त पाया गया.

यह आवश्यक नहीं है कि समान देवनागरी लिपि होने के कारण हिंदी और मराठी जैसी दोनों भाषाओं के लिपिविशिष्ट लक्षणों में भी पूरी समानता हो..

देवनागरी लिपि की साझी विरासत होने पर भी कुछ भारतीय भाषाओं में समानता के बावजूद ऑटो करेक्ट जैसे भाषिक उपकरणों का विकास करते समय कुछ तथ्यों को ध्यान में रखना बहुत आवश्यक है.हिंदी और मराठी की समान लिपि देवनागरी होने के बावजूद ऑटो करेक्ट के संदर्भ में दोनों भाषाओं के भाषाविशिष्ट लक्षणों में काफ़ी असमानताएँ भी हो सकती है. उदाहरण के लिए, देवनागरी लिपि का प्रयोग हिंदी और मराठी दोनों ही भाषाओं के लिए किया जाता है,लेकिन लिपि एक होने के बावजूद इन दोनों भाषाओं की वर्तनी में काफ़ी फ़र्क है. यहाँ तक कि संस्कृत से लिए गए तत्सम शब्दों की वर्तनी में भी भिन्नता पाई जाती है. उदाहरण के लिए, हिंदी के इकारांत शब्द मराठी में ईकारांत हो जाते हैं. हिंदी का कवि मराठी में कवी हो जाता है. इसलिए दोनों भाषाओं का ऑटो करेक्ट भी अलग- अलग होना चाहिए. इसलिए हिंदी के ऑटो करेक्ट के लिए मैंने हिंदीभाषी क्षेत्रों और अहिंदीभाषी क्षेत्रों से वर्तनी संबंधी त्रुटियों के नमूने इकट्ठे करने शुरू कर दिए और पाया कि मातृभाषा के व्याघात के कारण मराठीभाषी और पंजाबीभाषी की हिंदी संबंधी अशुद्धियों में काफ़ी अंतर है. यदि मराठीभाषी और गुजरातीभाषी हिंदी में छोटी और बड़ी मात्रा की अशुद्धि करते हैं तो दक्षिण भारतीय भाषा भाषी महाप्राण की ध्वनि में अशुद्धि करते हैं. वे भाषा को बाषा और खाना को काना लिखते हैं.यह मातृभाषा व्याघात के कारण होता है. विश्व भर की सभी भाषाओं के बीच असंगतता (नॉन कॉम्पेटिबिलिटी),बहुविध फ़ॉन्ट और अलग-अलग ऑपरेटिंग सिस्टम संबंधी समस्याओं का एकमात्र समाधान है,युनिकोड.
वर्तमान परिदृश्य में, इंडिक भाषाओं के अधिकांश उपयोगकर्ता सिस्टम और फ़ॉन्ट की असंगतता के कारण आज भी अमानक फ़ॉन्ट का उपयोग कर रहे हैं और ई-मेल,गपशप(चैट),टैम्पलेट,ऑटो टेक्स्ट,थिसॉरस,स्पेलचैक जैसे अनुप्रयोगों का इंडिक भाषाओं में उपयोग करने में हिचकिचाते हैं. बहुत ही कम उपयोगकर्ता ऐसे हैं जो हिंदी और अन्य भारतीय भाषाओं में ऐक्सेल और ऐक्सेस का उपयोग करते हैं. इंडिक भाषाओं के उपयोगकर्ता भी बहुत कम हैं. इसका मुख्य कारण यह था कि इंडिक भाषाओं में विभिन्न सिस्टमों के आरपार कोई समान मानक नहीं था.इस दिशा में ISCII एक अच्छी शुरुआत थी,लेकिन विश्वीकरण के इस युग में विविध प्रकार के प्लेटफ़ॉर्म,फ़ॉन्ट और सिस्टम के बावजूद आवश्यकता एक ऐसे मानक की है,जिसके अंतर्गत विश्व की सभी भाषाएँ सह-अस्तित्व की भावना के साथ रह सकें.इन समस्याओं का एकमात्र समाधान है,युनिकोड.इसलिए हमारा प्रयास यह होना चाहिए कि इंडिक भाषाओं के उपयोगकर्ताओं को युनिको़ड में भाषा कंप्यूटिंग के लाभों से अवगत कराया जाए. युनिको़ड में भारतीय भाषाओं को ISCII के आधार पर ही एन्कोड किया गया है.
सभी भारतीय भाषाओं को युनिको़ड के वर्ण चार्ट में साथ-साथ रखा गया है.प्रत्येक भाषा को एक कोडपेज दिया गया है.इंडिक भाषा के कोडपेज में 128 कोड पॉइंट्स के ब्लॉक हैं. युनिकोड में सहेजे गए पाठ का प्रदर्शन ओपन टाइप फ़ॉट्स द्वारा किया जाता है,जिसका विकास ऐडोब और माइक्रोसॉफ़्ट द्वारा संयुक्त रूप में किया गया है. ओपन टाइप फ़ॉन्ट एक खुला मानक है और यह किसी कम्पनी विशेष की मिल्कियत नहीं है.
प्रत्येक भारतीय भाषा का सॉर्टिंग ऑर्डर अलग-अलग है,भले ही कुछ भाषाओं की लिपि एक ही क्यों न हो. ISCII और युनिकोड में यह एक महत्वपूर्ण अंतर है. ISCII के अंतर्गत सभी भारतीय भाषाओं के लिए समान सॉर्टिंग ऑर्डर रखा गया है.वस्तुत: यह सच नहीं है,क्योंकि प्रत्येक इंडिक लिपि में कुछ अक्षरों के स्तर पर कुछ न कुछ अंतर अवश्य है.कहीं कोई अक्षर अधिक है तो कहीं कोई अक्षर कम. युनिकोड सभी भाषाओं और अनुप्रयोगों को अपने तरीके से सॉर्टिंग करने की आज़ादी देता है.

· यदि आप दुनिया के साथ चलना चाहते हैं तो युनिकोड अपनाएँ.

विश्व भर में सूचनाओं के विनिमय के लिए युनिकोड एक मानक बनता जा रहा है,क्योंकि विश्व की सभी प्रमुख IT कंपनियों ने युनिकोड को मानक मानकर उसे अपना समर्थन देने की घोषणा कर दी है.युनिकोड मानक विश्व भर की भाषाओं के सभी वर्णों को एन्कोड करने में सक्षम है. युनिकोड मानक, वर्णों और उनके प्रयोग की जानकारी प्रदान करता है. युनिकोड मानक ,कंप्यूटर के बहुभाषी पाठों के उपयोगकर्ताओं, व्यापारियों, भाषावैज्ञानिकों,
अनुसंधानकर्ताओं,गणितज्ञों और तकनीशियनों के लिए बहुत उपयोगी है..
युनिकोड 16 बिट की एन्कोडिंग का उपयोग करता है,जिसमें 65000 से अधिक वर्ण (65536) होते हैं. युनिकोड मानक प्रत्येक वर्ण को विशिष्ट संख्या और नाम प्रदान करता है.इसके विपरीत ISCII में 8 बिट कोड का उपयोग किया जाता है,जो 7 बिट ASCII कोड का ही विस्तार है.इसमें ब्राह्मी लिपि से उद्भूत भारतीय लिपियों के 10 मूल अकारादि वर्णों का ही समावेश किया गया है. परंपरागत रूप में कंप्यूटर के अनु्प्रयोग केवल एक भाषा के पाठ का ही समावेश करते रहे हैं.बाद में इस बात की आवश्यकता महसूस की गई कि एक साथ अनेक भाषाओं के पाठों पर काम किया जाए और इसी कारण से कोड के संबंध में अतिरिक्त साधन जुटाए गए.अलग-अलग भाषाओं के अक्षर अलग-अलग भाषाओं के संदर्भ में सामान्यत:अपने कोड के आधार पर नहीं पहचाने जा सकते जब तक कि उन्हें अपनी रेंज के कोड के लिए कोई विशिष्ट संख्यात्मक मान न प्रदान किया जाए. इसलिए अंग्रेज़ी में "a" अक्षर को दिया गया कोड वास्तव में वही है,जो ग्रीक अक्षर "alpha" को या क्रिलिक वर्णमाला के समतुल्य अक्षर को प्रदान किया गया है.विभिन्न भाषाओं में लिखित बहुभाषिक पाठ के दस्तावेज़ को तब तक एक नहीं माना जा सकता,जब तक कि कोई ऐसा तंत्र विकसित न कर लिया जाए,जो विशिष्ट भाषा / लिपि के पाठ को विशेष रूप से चिह्नित न कर सके.
युनिकोड का मूल आधार यही है कि अधिक से अधिक रेंज की 0 से लगभग 65000 तक की संख्याओं के कोड निर्धारित किए गए. इस विशाल सेट में न केवल विश्व की सभी अलग-अलग भाषाओं की वर्णमालाओं के अक्षरों को समाविष्ट किया गया,बल्कि उनके विराम चिह्नों, गणित के प्रतीकों के समान विशेष आकारों को और चलमुद्रा के प्रतीकों को भी समाविष्ट किया गया.इस विशाल रेंज में अलग-अलग भाषाओं की प्रत्येक लिपि के लिए 128 क्रमिक संख्याओं के वर्ग निर्धारित किए जाते हैं और उसमें विशेष प्रतीकों के समूह भी समाविष्ट किए जाते हैं.अनेक भाषाओं की वर्णमाला का आकार 50 से भी कम होता है, इसलिए 128 की न्यूनतम रेंज अतिरिक्त प्रतीकों, विरामचिह्नों आदि के लिए काफ़ी पर्याप्त मानी जाती है.
युनिकोड की महत्वपूर्ण संकल्पना तो यही है कि किसी भी भाषा के लिए कोड का निर्धारण उसकी भाषिक आवश्यकताओं के आधार पर ही किया गया है.इसप्रकार अपनी लेखन प्रणाली में अपनी वर्णमाला के अक्षरों का उपयोग करने वाली विश्व की अधिकांश भाषाओं के संदर्भ में यदि विशेष प्रतीकों के साथ-साथ उनके सभी अक्षरों का समावेश हो जाता है तो उनकी मूल भाषिक आवश्यकताओं की पूर्ति हो ही जाती है.इनपुट स्ट्रिंग और प्रदर्शित स्ट्रिंग, जो अधिकांश भाषाओं / लिपियों के लिए समान ही हैं, के लिए निर्धारित युनिकोड मान में अपने अक्षरों की पहचान करते हुए पाठ का प्रदर्शन होता जाएगा.इसप्रकार किसी भी भाषा के युनिकोड फ़ॉन्ट के लिए वर्णमाला के अक्षरों से संबंधित केवल ग्लिफ़ को ही समाहित करने की आवश्यकता होती है और फ़ॉन्ट के ग्लिफ़ की पहचान उनको दर्शाने वाले अक्षरों के लिए प्रयुक्त उसी कोड से हो जाती है. युनिकोड पाठों के प्रदर्शन और भाषिक प्रोसेसिंग के संदर्भ में बहुभाषी जानकारी को बहुत प्रभावी रूप में सँभालता है.यहाँ पर विश्व की विभिन्न भाषाओं का एक ऐसा उदाहरण दिया गया है,जिसे युनिकोड में सहेजकर संबंधित भाषाओं में प्रदर्शित किया गया है.

कोई टिप्पणी नहीं: