Mr.A कुमारन, माइक्रोसॉफ्ट रिसर्च, भारत मशीन अनुवाद और भारतीय भाषाओं
हम में से कई माइक्रोसॉफ्ट या गूगल अनुवादक का उपयोग करते है| हममें से कुछ लोग याहू बॅबेलफिश उपयोग करते है| ये हमारे लिए आसान उपकरण है जब हम एक विदेशी भाषा की सामग्री ko अंग्रेजी में अनुवाद करें| कई बार, हम भारतीय भाषाओं के लिए भी इस तरह के उपकरण होने के बारे में सोचते है| इसमें कोई शक नहीं की यह देश के लिए एक बड़ी मदद होगी जिसमे 22 से अधिक भाषाएँ है| लेकिन यह कब होगा?
निराश मत हो| यहाँ लोग हैं जो इस मामले में पहले से ही काम कर रहे हैं और तेजी से एक सफल मशीन अनुवाद मॉडल (एमटी) भारतीय भाषाओं के लिए कर रहे है| भाषाइंडिया भारतीय एमटी डोमेन में संसाधनों के एक व्यक्ति का परिचय करने मे खुश है| वह अन्य कोई नहीं भारत से माइक्रोसॉफ्ट रिसर्च के ए. कुमारन है|
यह वर्तमान में बहुभाषी प्रणाली अनुसंधान समूह के अग्रणी है| उन्होना इंडियन इंस्टिट्यूट ऑफ साइंस, बंगलौर, भारत में पीएचडी किया है, इंजीनियरिंग कॉलेज से स्नातक की डिग्री, चेन्नई, भारत मे लिया और रटगर्स विश्वविद्यालय से परास्नातक की डिग्री, न्यू जर्सी, संयुक्त राज्य अमरीका| वे अपनी भाषा कंप्यूटिंग और मशीन अनुवाद डोमेन में व्यापक अनुभव बांटथे है| यहाँ साक्षात्कार भाषैंडिया टीम का एक अंश कुमारन के साथ है|
लोगों को बहुत संदिग्ध था जब अनुसंधान अध्ययन मशीनी अनुवाद (एमटी) के क्षेत्र मे शुरू हुहा| आज, हम इस का फल देख रहा है| हम माइक्रोसॉफ्ट या गूगल के अनुवादक, या याहू के अनुवाद बॅबेलफिश का उपयोग करते है| एमटी में एक भाषा कंप्यूटिंग डोमेन मे अनुभवी होने के नाते क्या आप हमें मशीन अनुवाद के संक्षिप्त इतिहास बता सकते हैं?
यह संभव है की सतरवीं सदी तक हम 'मेकनीज़िंग' अनुवाद प्रक्रियाओं के विचारों को ट्रेस कर सकते है, लेकिन यथार्थवादी और व्यावहारिक संभावनाओं 20 वीं सदी में ही आया था| सिस्टम शीघ्रातिशीघ्र बड़े द्विभाषी शब्दकोशों की मुख्यतः शामिल था जहां स्रोत भाषा के शब्दों के लिए प्रविष्टियां एक या अधिक लक्ष्य भाषा में समकक्ष दिया गया, और उत्पादन में सही शब्द क्रम के उत्पादन के लिए कुछ नियम|
वहाँ सरकारी और निजी मीट्रिक टन से विकास के लिए इतने प्रायोजक थे, उन्होना देखा कि एमटी मानवता के लिए एक बड़ी मदद होगी| लेकिन वर्षों के अनुसंधान ने उन्हें निराश किया| 1960 के दशक में उन्होंने देखा कि वहाँ उपयोगी मशीन अनुवाद का कोई तत्काल या उम्मीद के मुताबिक संभावना नही है क्योंकि यह धीमी थी, कम सटीक और मानव अनुवाद के रूप में दो बार महँगी| इसने एमटी टन की प्रगति धीमी कर धी|
हालांकि, अनुसंधान कनाडा, फ्रांस और जर्मनी सहित कई देशों में जारी था| 1970 में, पहली मॉडल (सिस्तरन प्रणाली) आधुनिक एमटी जीव में आया| 1980 एमटी सिस्टम प्रकार की एक विस्तृत विविधता के उद्भव देखा, और विभिन्न देशों से| कंप्यूटर की उपलब्धता और पाठ प्रसंस्करण सॉफ्टवेयर ने सस्ता मीट्रिक टन प्रणालियों के लिए एक बाजार बनाया| हम एक बिंदु को ध्यान दें की कि इन मॉडलों के अधिकांश 'राज' आधारित हैं|
हाल के शोध डेढ़ दशक में, नए दृष्टिकोण की एक मेजबान एमटी में शुरू किया गया| इन तरीकों में, विशिष्ट कार्यों स्वतः सीखा जा सकता है जब उचित दस्तकारी प्रशिक्षण डेटा के साथ प्रदान किया गया हो| इन तरीकों को मोटे तौर पर सांख्यिकीय सीखने या मशीन एल्गोरिदम सीखने के रूप में माना जाता है|
नए दृष्टिकोण में विशिष्ट विशेषता थी कि कोई वाक्यात्मक या अर्थ नियमों ग्रंथों के विश्लेषण में उपयोग किया जाता है या लेक्सिकल समकक्ष के चयन में| नए दृष्टिकोण का 'पहले बड़े पाठ कॉर्पर के शोषण में शासन' आधारित तरीकों से मतभेद है|
एमटी डोमेन के आधार पर कम्प्यूटर एडेड अनुवाद (कैट) उपकरण भी अस्तित्व में आया| इन रुझानों के 1990 के दशक में जारी रखा है| बाकी इतिहास है| अब, ऑनलाइन उपयोगकर्ताओं ऑन लाइन से एमटी की उपलब्धता नेटवर्क सेवाओं का आनंद लेना शुरू कर दिया है| एक उदाहरण माइक्रोसॉफ्ट अनुवादक है| उनकी उत्पादकता बढ़ाने के लिए और सटीकता के लिए पेशेवर अनुवादकों कैट उपकरणों का उपयोग करना शुरू कर दिया है|
क्या आप कृपया नियम आधारित दृष्टिकोण और 'सांख्यिकीय सीखने' के बारे में समझा सकते है?
'नियम आधारित दृष्टिकोण में, जैसे आप स्कूल में वाक्यों का व्याकरण की संरचना आरेख सीखा हो, प्रत्येक वाक्य के मॉडल का निर्माण व्याकरण के लिए सॉफ्टवेयर इनपुट दस्तावेज़ के व्याकरण की व्याख्या करने का प्रयास करता है| इनपुट भाषा का व्याकरण मॉडल के उत्पादन भाषा के व्याकरण मॉडल करने के लिए मैप किया जाता है|
सांख्यिकीय सीखने में, एमटी इंजन मौजूदा सामग्री और उसके अनुवाद की बड़ी मात्रा के आधार पर प्रशिक्षित किया जाता है जो कॉर्पर की वित्तीय द्विभाषी पाठ के रूप में जाना जाता है| एमटी इंजन डेटा की बड़ी मात्रा का उपयोग सांख्यिकीय पत्राचार तालिकाएँ बनाने के लिए करता है| इस सांख्यिकीय जानकारी उचित संभावना के आधार पर चयन निर्धारित करता है कि एक निश्चित शब्द, वाक्यांश, एक भाषा, एक विशेष शब्द, वाक्यांश, या वाक्य लक्ष्य भाषा में अनुवाद सही है|
कृपया ध्यान दें कि यहा विधि भाषा विशिष्ट नहीं है| यह किसी भी भाषा के लिए लागू किया जा सकता है| हालांकि, इसी तरह की सामग्री के इलेक्ट्रॉनिक पाठ की बड़ी मात्रा मे चाहिए अच्छा एमटी इंजन से गुणवत्ता के उत्पादन प्राप्त करने की आवश्यकता है|
हमने सुना या पढ़ा है कि भारतीय भाषा एमटी समाधान विभिन्न कंपनियों और संगठनों में विकसित हो रही है| लेकिन, हुँने किसी भी सफल मॉडल को अभी तक नहीं देखा है| यह कब होगा? कब तक हम प्रतीक्षा करें कुछ ठीक एमटी समाधान पाने के लिए जैसे यूरोपीय या अरबी भाषाओं में है?
मैं इसके लिए समय की भविष्यवाणी नहीं कर सकता हौं हैं| शोध इस क्षेत्र में आयोजित की जा रही हैं| फिर भी, मैं कहता हूँ, अब से पांच साल बाद हम उत्पादन देख सकते हैं| जो, इस संग्रह की वित्तीय आवश्यकता की उपलब्धता पर आधारित है| हमे एक सफल सांख्यिकीय एमटी समाधान के विकसित के लिए विशाल निगम पाने की आवश्यकता है| भारतीय भाषाओं में, डिजिटल सामग्री बहुत कम है| भले ही हम सभी उपलब्ध डिजिटल डेटा नेट या उपकरणों से इकट्ठा करें संग्रह आवश्यकता पर्याप्त नहीं होगा|
एक और मुद्दा यह है कि हमारे कुछ भारतीय भाषाओं, विशेषकर दक्षिण भाषाएँ अत्यधिक चिपकानेवाली हैं| इस परिदृश्य में, संग्रह वित्तीय भाषाओं से भी बड़ा होना चाहिए जो चिपकानेवाला नहीं हो | एक उचित कोष की कमी के कारण भारतीय भाषाओं में अनेक भाषा कम्प्यूटेशनल प्रयासों के लिए सबसे बड़ी बाधा है|
क्या कृपया आप भाषा कंप्यूटिंग में कॉर्पर की भूमिका समझा सकते हैं, विशेष रूप से मशीन अनुवाद के क्षेत्र में?
इसमें मुख्य रूप के कॉर्पर तीन प्रकार हैं| हम पहले मोनोलिन्गुअल कॉर्पर के बारे में बात करते हैं| मोनोलिन्गुअल निगम अनिवार्य रूप से एक मानक स्रोत से सामान्य थोक भाषा पाठ का उल्लेख है जैसे लोकप्रिय मास मीडिया, समाचार पत्र, टीवी, आदि| एक विशाल मोनोलिन्गुअल कोष का एक संग्रह अत्यंत कई कम्प्यूटेशनल भाषाविज्ञान कार्य के लिए उपयोगी हो सकता है| उदाहरण के लिए, एक कोष के नाम के साथ एनोटेट (व्यक्तिगत नाम, आम नाम, स्थान, दिनांक, संगठनों, आदि), नाम इकाई पहचान कार्यों और सूचना निष्कर्षण कार्य के लिए इस्तेमाल किया जा सकता है|
अब आता है, बहुभाषी कॉर्पर| बहुभाषी कॉर्पर की वित्तीय निगम के कई प्रकार का उल्लेख - समानांतर, तुलनीय, आदि| समानांतर कॉर्पर अनिवार्य रूप मे कई भाषाओं में कोष गठबंधन वाक्य हैं, जहां हर गठबंधन वाक्य जोड़ी एकाधिक भाषाओं में एक ही अर्थ में जानकारी है| इस तरह की कॉर्पर वित्तीय तत्काल मशीन अनुवाद प्रणाली विकसित करने के लिए इस्तेमाल किया जाता है| तुलनीय कॉर्पर की वित्तीय लेख के रूप में कई भाषाओं का गठबंधन कोष परिभाषित हैं, जहां आम तौर पर लेख एक ही विषय मे है, लेकिन अलग सामग्री अर्थ हो सकता है| एमटी प्रणालियों के विकास में तुलनीय कॉर्पर सफलतापूर्वक नियोजित किया गया है |
अब हम एनोटेट कॉर्पर देखते है| बड़े एनोटेट निगम किसी भी कम्प्यूटेशनल भाषाविज्ञान शोध में जरूरत है| एनोटेशन लिए गये काम पर निर्भर करता है, उदाहरण के लिए भाषण (पॉस) पहचान का हिस्सा है एक अमीर एनोटेशन की आवश्यकता जहाँ पाठ कोष में हर शब्द टैग है, इकाई नाम पहचान (एनईआर) जबकि कोष में विशिष्ट संस्थाओं के हाथ एनोटेशन की आवश्यकता है|
भारतीय भाषाओं में एक विशाल कॉर्पर बनाने की दिशा में क्या प्रयास हो रहे हैं? ह्यूम अच्छे एमटी उत्पादन निर्माण करने वाला विशाल कॉर्पर कब मिलेगा?
भारत में, भारतीय भाषाओं के केन्द्रीय संस्थान ज्यादातर भारतीय भाषाओं में उपलब्ध कोष एकत्र किए है| हालांकि, यह कॉर्पर एक अपेक्षाकृत छोटा है (भाषा के अनुसार लगभग 3-8म शब्द), मुख्य रूप से कई भाषाओं में एक मॉनलिंग्वल पाठ संग्रह, कोई एनोटेशन के बिना| जबकि इस कॉर्पर डेटा को बनाने के लिए बीज उपलब्ध करेंगाए, इस तरह के कॉर्पर की मात्रा और गुणवत्ता के लिए महत्वपूर्ण वृद्धि करने की आवश्यकता है भारतीय भाषाओं में कम्प्यूटेशनल भाषाविज्ञान अनुसंधान सहायता के लिए|
हाल ही में, भारतीय भाषाओं के लिए भाषाई डेटा कंसोर्टियम भारत सरकार के अधीन मानव और संसाधन विकास मंत्रालय (एलडीसी-आईएल) द्वारा शुरू कर दिया गया है, सभी भारतीय भाषाओं में भाषाई कॉर्पर के मानकीकृत संग्रह निगरानी के लिए| कई शैक्षणिक और औद्योगिक भागीदारों के साथ संग्रह कर रहे हैं| हमें उम्मीद है कि भारत की भाषाओं में जल्द ही निगम के लिए जरूरी मात्रा में प्राप्त होगा|
यदि सामग्री डिजिटल उपकरणों या नेट पर सामग्री में संग्रहीत करने के लिए पर्याप्त कॉर्पर बनाना नहीं होगा, हम कैसे लक्ष्य को प्राप्त कर सकते हैं?
यहाँ, मैं डेटा के सामुदायिक भागीदारी के साथ विस्तृत निर्माण पर जोर करोंगा| यह महत्वपूर्ण है भीड़ सोर्सिंग के महत्व को उजागर भाषाई कॉर्पर के निर्माण के लिए एक पद्धति के रूप में, कॉर्पर के कई प्रकार के रूप में भाषाविद् या भाषा के विशेषज्ञों के द्वारा बनाये जाने की जरूरत नहीं, लेकिन देशी भाषा वक्ताओं द्वारा आसान है|
भारतीय समुदाय को एमटी सशक्त कैसे बनायेगा?
कई दशकों से, अंग्रेजी का उपयोग करते हुए लोगों को कम्प्यूटेशनल उपकरण किए गए हैं| लेकिन, दुर्भाग्यपूर्ण तथ्य यह है दुनिया में बहुमत लोग अंग्रेजी का उपयोग नहीं कर सकते हैं| इसलिए वे कंप्यूटिंग के लाभों से वंचित रहे हैं| कृपया नेट पर उपलब्ध सामग्री को देखें| वेब पर उपलब्ध जानकारी अधिकांश अंग्रेजी के अलावा अन्य भाषा में है| जनसांख्यिकी में इस तरह के बदलाव का सुझाव है कि प्रौद्योगिकी मुख्यतः बहुभाषी उपयोगकर्ता आबादी समर्थन करने के लिए विकसित किया जाना चाहिए, भाषा के लिए महत्वपूर्ण जरूरत तटस्थ कम्प्यूटेशनल भाषाविज्ञान अनुसंधान के लिए व्यापक दर्शकों को पूरा करने की ओर तेजी से इशारा करते हैं| भारत जैसे देशों में, हम अतिरिक्त चुनौतियों का सामना करते हैं जहां जनसंख्या ज्यादातर अंग्रेजी से निरक्षर हैं, इसलिए उपकरणों और स्थानीय भाषाओं में प्रौद्योगिकियों का और भी अधिक महत्वपूर्ण हैं, आदेश में डिजिटल डिवाइड को दूर करने के लिए आम आदमी को भी शामिल करें|
क्या आप माइक्रोसॉफ्ट रिसर्च भारत के साथ अपने अनुभव बाँट सकते है?
हम माइक्रोसॉफ्ट पर एक महान टीम है| मैं जुलाई 2005 में माइक्रोसॉफ्ट रिसर्च इंडिया में शामिल हुआ| मुझे भाषाओं की दिशा में एक गुप्त प्रेम है, खासकर भारतीय भाषाओं मे| माइक्रोसॉफ्ट रिसर्च भारत के साथ, मुझे भारतीय भाषाओं की सेवा करने का अवसर मिलता है|
वर्तमान में, मैं एक समुदाय में सहयोगी डेटा निर्माण - परियोजना विकी भेल - मे व्यस्त हूँ जो सिमबियाटिकली बहुभाषी सामग्री और भाषाई समानांतर डेटा बनाता है| भाषा प्रयोक्ता समुदाय को एक सहज मंच और एक सम्मोहक उपयोग परिदृश्य प्रदान करने है, किसी भी विकी साइट के लिए बहुभाषी सामग्री बनाने के लिए जो समानांतर डेटा के लिए खनन किया जा सकता है, सांख्यिकीय मशीनी अनुवाद प्रणाली अनुसंधान के लिए महत्वपूर्ण संसाधन इस परियोजना का उद्देश्य है|
अपने शोध के हितों के पार भाषी जानकारी का उपयोग / निकासी, मशीन अनुवाद, भाषाई अनुसंधान के लिए डेटा निर्माण के लिप्यंतरण और विधियों, लेकर खनन खबर से कॉर्परf की वित्तीय, समुदाय सहयोगी चौखटे और भाषायी खेल भी शामिल है|
अंत में, आप भाषाइंडिया के भारतीय भाषा कंप्यूटिंग का पहल कैसे देखते हैं?
भाषाइंडिया कोई बी भारत भाषा कंप्यूटिंग सरगर्म के लिए एक संदर्भ पोर्टल है| हम पाठकों अधिक अमीर सामग्री और भाषैंडिया में जीवंत मंच की उम्मीद करते है| मैं भाषाइंडिया पोर्टल को और उनकी पहल जो भारतीय भाषा कंप्यूटिंग के लिए एक मंच होना मे बधाई देता हूँ|