எந்திர மொழிபெயர்ப்பும் இந்திய மொழிகளும்
நம்மில் பலர் மைக்ரோசாஃப்டின் டிரான்ஸ்லேட்டர் (Microsoft’s Translator) அல்லது கூகிள் டிரான்ஸ்லேட் (Google Translate) போன்ற ஆன்லைன் மொழிபெயர்ப்புக் கருவிகளைப் பயன்படுத்துகிறோம். சிலர் யாஹூவின் பேபல்பிஷ்ஷை (Babelfish) கூட பயன்படுத்துகிறோம். அன்னிய மொழி உள்ளடக்கத்தை ஆங்கிலத்தில் மொழிபெயர்த்து புரிந்து கொள்ள இதுபோன்ற கருவிகள் நமக்கு பெருமளவு உதவுகின்றன. பல தருணங்களில், இந்திய மொழிகளுக்காகவும் இப்படியொரு கருவி தேவை என நினைத்திருக்கிறோம். இருபத்து இரண்டுக்கும் அதிகமான மொழிகளைக் கொண்ட ஒரு நாட்டுக்கு இது போன்ற கருவிகள் மிகுந்த பயனுள்ளதாக இருக்கும் என்பதில் எள்ளளவும் ஐயம் இல்லை.
இந்திய மொழிகளுக்காகவே வெற்றிகரமான ஒரு எந்திர மொழிபெயர்ப்பு மாதிரியை உருவாக்க வேண்டும் என்கிற லட்சியத்தோடு கடும் முனைப்புடன் ஏற்கனவே பலர் களத்தில் இறங்கி விட்டார்கள். இந்திய எந்திர மொழிபெயர்ப்புத் துறையில் இதனை வெற்றிபெறச் செய்ய வேண்டும் என்கிற முனைப்புடன் பணியாற்றிவரும் மைக்ரோசாஃப்ட் ரிசர்ச் இந்தியாவின் திரு.குமரன் அவர்களை உங்களுக்கு அறிமுகப்படுத்துவதில் பாஷாஇந்தியா வலைத்தளம் பெரும் மகிழ்ச்சி கொள்கிறது.
தற்போது திரு. குமரன் அவர்கள், பன்மொழி முறைமைகள் ஆராய்ச்சிக் குழுவின் (Multilingual Systems Research group) தலைமைப் பொறுப்பை வகித்து வருகிறார். பெங்களுருவில் உள்ள இந்திய அறிவியல் கழகத்தில் ஆராய்ச்சிக் கல்வியையும், சென்னையில் உள்ள பொறியியல் கல்லூரியில் இளங்கலைப் பட்டமும், அமெரிக்காவின் நியூ ஜெர்சியில் உள்ள ரட்கர்ஸ் பல்கலைக்கழகத்தில் முதுகலைப் பட்டமும் பெற்றவராவார். மொழிக் கணினியியல் மற்றும் எந்திர மொழிபெயர்ப்புத் துறைகளில் அவரது அனுபவத்தை நம்மோடு பகிர்ந்து கொள்கிறார்.
எந்திர மொழிபெயர்ப்புத் துறையில் ஆராய்ச்சிப் படிப்புகள் தொடங்கியபோது அதனை அனைவரும் வியப்புடனும் விந்தையுடனும் பார்த்தார்கள். அதற்கான பலன் இப்போது கிடைக்கத் தொடங்கியுள்ளது. மைக்ரோசாஃப்டின் டிரான்ஸ்லேட்டர், கூகிள் டிரான்ஸ்லேட் அல்லது யாஹூ பேபல்பிஷ் போன்ற கருவிகளைப் பயன்படுத்துகிறோம். எந்திர மொழிபெயர்ப்பு மற்றும் மொழிக் கணினியியல் துறைகளில் கைதேர்ந்தவரான நீங்கள், எந்திர மொழிபெயர்ப்பு குறித்து சுருக்கமாகப் பகிர்ந்து கொள்ளுங்கள்.
பதினேழாம் நூற்றாண்டில் இருந்து மொழிபெயர்ப்புப் பணிகளை ‘எந்திரப்படுத்துவதற்கான’ முயற்சிகள் சிந்தனைத் துளிகளாக மட்டுமே இருந்து வந்துள்ளன. ஆனால் 20ஆம் நூற்றாண்டில் தான் இதன் நிஜ மற்றும் சாத்தியமான வழிமுறைகளை அடைந்தார்கள். ஆரம்பகட்ட கண்டுபிடிப்புகள் மிகப்பெரும் இருமொழி அகராதிகளை அடிப்படையாகக் கொண்டு இயங்கின. மூல மொழியின் சொல்லுக்கு, இலக்கு மொழியில் இணையான ஒன்று அல்லது மேற்பட்ட அர்த்தங்கள் இருப்பின், அந்தச் சூழலுக்குச் சரியான அர்த்தம், சில விதிகளை அடிப்படையாகக் கொண்டு இயங்கி வந்தன.
எந்திர மொழிபெயர்ப்பால் மனித சமுதாயத்துக்குப் பெரும் பயன் கிடைக்கும் என்பதை அரசாங்கமும், தனியார் அமைப்புகளும் உணர்ந்ததால் அதன் வளர்ச்சிப் பணிகளுக்கு பலவகையான உதவிகளை வழங்கி வந்தார்கள். ஆனால் இதற்கான ஆராய்ச்சி பல ஆண்டுகளுக்கு நீடித்ததால் அது அனைவருக்கும் பெரும் ஏமாற்றத்தை ஏற்படுத்தியது. 1960களின் துவக்கத்தில், “பயனுள்ள எந்திர மொழிபெயர்ப்புக்கான உடனடியான அல்லது கணிக்கக்கூடிய முன்னேற்றம் எதுவும் தென்படவில்லை. அது மனித மொழிபெயர்ப்பை விட மெதுவாகவும், இருமடங்கு விலையுயர்ந்ததாகவும் இருப்பதாக உணர்ந்தார்கள்“. இது எந்திர மொழிபெயர்ப்பு குறித்த ஆராயச்சிகளின் முன்னேற்றத்திற்கு முட்டுக்கட்டையாக அமைந்த்து.
இருப்பினும், கனடா, பிரான்ஸ் மற்றும் ஜெர்மனி உள்ளிட்ட பல நாடுகளில் இதற்கான ஆராய்ச்சி தொடர்ந்து நடைபெற்றது. 1970-இல் நவீன எந்திர மொழிபெயர்ப்பின் துவக்கநிலை அமைப்புகளில் ஒன்றான சிஸ்ட்ரான் முறை (Systran system) உருவாக்கப்பட்டது. 1980களில் எந்திர மொழிபெயர்ப்பு அமைப்புகளின் பல வகைகள், பல நாடுகளில் இருந்து உருவாக்கப்பட்டன. கணினிகள் மற்றும் உரைச் செயலாக்க மென்பொருட்கள் உருவாக்கப்பட்டதன் விளைவாக, எந்திர மொழிபெயர்ப்பு அமைப்புகளை உருவாக்கும் செலவை பெருமளவு குறைத்தது. இந்த அமைப்புகளின் பல வகைகள் ‘விதி-சார்ந்தவை’யாக (rule based) இருந்தன என்பதை குறிப்பிட வேண்டும்.
கடந்த பதினைந்து ஆண்டுகளில், எந்திர மொழிபெயர்ப்பு ஆராய்ச்சிகளில் பல்வேறு புதிய அணுகுமுறைகள் அறிமுகப்படுத்தப்பட்டுள்ளன. இந்த அணுகுமுறைகளின்படி, தகுந்த ஆராய்ச்சித் தகவல், சரியான முறையில் உள்ளீடாக வழங்கப்படுகையில், எந்திர மொழிபெயர்ப்பில் குறிப்பிட்ட சில பணிகள் தானாகவே மேற்கொள்ளப்படும். இந்த முறைகளை ஸ்டேடிஸ்டிகல் லேர்னிங் (statistical learning) அல்லது மெஷின் லேர்னிங் அல்காரிதங்கள் (machine learning algorithms) என அழைக்கிறோம்.
புதியவகை அணுகுமுறைகளில் உரைகளை பகுத்தறியும்போது, தொடரியல் விதிகளோ அல்லது பொருளியல் விதிகளோ பயன்படுத்தப்படுவதில்லை என்பது மிகவும் சிறப்பான அம்சமாக உள்ளது. சொல்லிற்கான இணைச்சொற்களைத் தேர்வுசெய்வதிலும் அதுபோன்ற விதிகள் பயன்படுத்தப்படுவதில்லை. மிகப்பெரும் சொற் கிடங்கைச் (corpora) செயல்படுத்தும் முயற்சியில், முந்தைய ‘விதி சார்ந்த’ முறைகளிலிருந்து இந்த புதிய அணுகுமுறைகள் வேறுபடுகின்றன.
எந்திர மொழிபெயர்ப்புத் துறையில் மேற்கொள்ளப்பட்ட ஆராய்ச்சிகளின் அடிப்படையில் கணினியின் உதவிபெறும் மொழிபெயர்ப்புக் கருவிகள் பயன்பாட்டுக்கு வந்தன. இந்த பயன்பாட்டுநிலை 1990களின் இறுதி வரை தொடர்ந்தது. இன்றைய காலகட்டத்தில் ஆன்லைன் நெட்வொர்க்கில் உள்ள எந்திர மொழிபெயர்ப்புகளைப் பல ஆன்லைன் பயனர்கள் பயன்படுத்துகிறார்கள். மைக்ரோசாஃப்ட் டிரான்ஸ்லேட்டர் இதற்கு ஒரு சிறந்த எடுத்துக்காட்டு. தொழில்சார்ந்த மொழிபெயர்ப்பாளர்கள் தங்களது உற்பத்தித்திறன் மற்றும் துல்லியத்தன்மையை அதிகரிக்க CAT என்றழைக்கப்படும் கணினியின் உதவியுடன் இயங்கும் மொழிபெயர்ப்புக் கருவிகளைப் பயன்படுத்தி வருகிறார்கள்.
‘விதி சார்ந்த’ அனுகுமுறைக்கும் ‘ஸ்டேஸ்டிஸ்டிகல் லேர்னிங்’கிற்கும் உள்ள வித்தியாசத்தை கொஞ்சம் விவரிக்கலாமா?
‘விதி சார்ந்த’ அனுகுமுறையில், வாக்கியத்தின் இலக்கண அமைப்பை வடிவமைப்பதற்கு பள்ளிகளில் நாம் கற்றுக் கொண்டது போல், ஆவணத்தில் உள்ள ஒவ்வொரு வாக்கியத்தின் இலக்கண அமைப்பையும் வடிவமைக்கும் முயற்சி மேற்கொள்ளப்படுகிறது. இதன் பின்னர், உள்ளீட்டு மொழியின் இலக்கண அமைப்பு, வெளியீட்டு மொழியின் இலக்கண அமைப்புடன் ஒவ்வொன்றாக பொருத்தப்படுகிறது.
‘ஸ்டேடிஸ்டிகல் லேர்னிங்’ அனுகுமுறையில், உள்ளிருக்கும் பெரிய அளவு உள்ளடக்கத்தை அடிப்படையாகக் கொண்டு எந்திர மொழிபெயர்ப்பு இன்ஜின் இயக்கப்படுகிறது, இதன் மொழிபெயர்ப்பு “இருமொழி உரைக் கிடங்கு” என்று அழைக்கப்படுகிறது. எந்திர மொழிபெயர்ப்பு இன்ஜின் மிகப்பெரிய அளவு தரவைப் பயன்படுத்தி புள்ளியியல் ரீதியில் ஒத்திருக்கும் அட்டவணைகளை உருவாக்குகிறது. புள்ளியியல் தகவலானது இலக்கு மொழியில் உள்ள ஒரு குறிப்பிட்ட சொல், சொற்றொடர், அல்லது வாக்கியத்துடன் மூல மொழியின் சொல், சொற்றொடர், அல்லது வாக்கியத்துக்கு இருக்கும் நிகழ்தகவைப் (Probability) பொருத்து, தகுந்த தேர்வை அமைக்கிறது.
இது ஒரு குறிப்பிட்ட மொழிக்கு மட்டும் உரிய முறை இல்லை, இதனை வேறு எந்த மொழிக்கும் பயன்படுத்தலாம். எந்திர மொழிபெயர்ப்பு இன்ஜினில் இருந்து சிறந்த தரமான வெளியீட்டைப் பெற வேண்டும் என்றால் ஒரே சூழலில் பயன்படுத்தப்படும் உள்ளடக்கம் மிகப் பெரும் அளவில் தேவைப்படும்.
இந்திய மொழிகளுக்கான எந்திர மொழிபெயர்ப்புத் தீர்வுகள், பல நிறுவனங்களில் வடிவமைக்கப்பட்டு வருவதாகக் கேள்விப்படுகிறோம். அதுபோன்ற அமைப்புகள் எதுவும் இதுவரை எதிர்பார்த்த அளவுக்கு முழுமையான செயல்திறனுடன் இயங்கவில்லை. இது எப்போது நடக்கும்? ஐரோப்பிய அல்லது அரபி மொழிகளுக்கு இருப்பது போன்ற ‘ஓரளவுக்கு சரியான’ எந்திர மொழிபெயர்ப்புத் தீர்வினைப் பெறுவதற்கு இன்னும் எத்தனை காலம் காத்திருக்க வேண்டும்.
இதற்கான கால அளவை என்னால் கணித்துச் சொல்ல முடியாது. இத்துறையில் ஆராய்ச்சிகள் நடைபெறுகின்றன. நமக்குத் கிடைக்கும் உரைக் கிடங்கைப் பொருத்து, அடுத்த ஐந்து ஆண்டுகளில் இதற்கான பலனை எதிர்பார்க்கலாம். இந்திய மொழிகளுக்கான ஒரு மிகச்சிறந்த ஸ்டேடிஸ்டிகல் எந்திர மொழிபெயர்ப்புக்கு மிகப்பெரிய சொற்கிடங்கு தேவை. நம்மிடம் அந்த அளவுக்கு டிஜிட்டல் உள்ளடக்கம் இல்லை. இணையத்திலும் மற்ற சாதனங்களிலும் உள்ள உரை அனைத்தையும் சேகரித்தாலும் நமக்குத் தேவையான அளவில் ஒரு சிறு பகுதியானதாகவே அது அமையும்.
இதில் முக்கியமாக கருதவேண்டியது என்னவென்றால், நமது இந்திய மொழிகள், அதுவும் குறிப்பாக, தென்னிந்திய மொழிகள் அதிகளவு இலக்கண விதிகள் கொண்டிருப்பதால், மிகப்பெரிய சொற்கிடங்கு தேவைப்படும்.
மொழிக் கணினியியலில், அதுவும் குறிப்பாக எந்திர மொழிபெயர்ப்புத் துறையில் சொற்கிடங்கின் பங்கு என்ன என்பதை விளக்க முடியுமா?
மூன்று வகையான சொற்கிடங்குகள் உள்ளன:
• ஒற்றைமொழிச் சொற்கிடங்கு
• பன்மொழிச் சொற்கிடங்கு
• உரை விளக்கச் சொற்கிடங்கு
ஒற்றைமொழிச் சொற்கிடங்கு: நன்கு பிரபலமான ஊடகங்கள், செய்தித்தாள்கள், தொலைக்காட்சி போன்ற நிலையான ஆதாரங்களில் இருந்து திரட்டப்படும் பெரிய அளவு உரையைக் குறிக்கிறது. இந்தத் தரவு பலவகையான கணினி மொழியியல் பணிகளுக்குப் பயனுள்ளதாக இருக்கும். உதாரணமாக, பெயர்களைக் கொண்ட குறிப்புகள் அடங்கிய சொற்கிடங்கை (தனிநபர் பெயர்கள், பொதுப் பெயர்கள், இடங்கள், நிறுவனங்கள் போன்றவை) பெயர்கள் தொடர்பான கண்டறிதல் பணிகள் மற்றும் தகவல் பிரித்தெடுத்தல் பணிகளுக்குப் பயன்படுத்தப்படலாம்.
பன்மொழிச் சொற்கிடங்கு: இணையான சொற்கிடங்கு, ஒப்பிடக்கூடிய சொற்கிடங்கு என்று பல வகைகளாக இது குறிக்கப்படலாம். இணையான சொற்கிடங்கில் ஒரு மூல வாக்கியத்திற்கு இணையான வாக்கியம், பல மொழிகளில் வழங்கப்பட்டு அமைக்கப்பட்டிருக்கும். இதுபோன்ற சொற்கிடங்கு எந்திர மொழிபெயர்ப்பு அமைப்புகளுக்குப் பயன்படுத்தத் தயாரானதாக இருக்கும். ஒப்பிடக்கூடிய சொற்கிடங்கில் ஒரே தலைப்பைச் சார்ந்த உள்ளடக்கம், வெவ்வேறு சூழல்களில், பல மொழிகளில் விவரிக்கப்பட்டு அமைக்கப்பட்டிருக்கும். இவை வெவ்வேறு பொருளியல் கூறுகளைக் கொண்டிருக்கலாம். ஒப்பிடக்கூடிய சொற்கிடங்கை எந்திர மொழிபெயர்ப்பு அமைப்புகளின் வடிவமைப்புப் பணிகளில் வெற்றிகரமாக புகுத்தலாம்.
உரை விளக்கச் சொற்கிடங்கு: எந்த ஒரு கணினி சார்ந்த மொழியியல் ஆராய்ச்சிக்கும் மிகப்பெரிய அளவு கொண்ட உரை விளக்கச் சொற்கிடங்கு மிக அவசியமானதாகும். மேற்கொள்ளப்படும் ஆராய்ச்சிக்கேற்ப உரை விளக்கம் மாறுபடும்; உதாரணமாக, சொற்பகுப்பைக் (Part of Speech) கண்டறிய, உரைக் கிடங்கில் ஒவ்வொரு சொல்லும் இணைக்கப்படுகையில் அந்தச் சொல்லுக்கு சிறந்த உரை விளக்கம் தேவைப்படும். அதே நேரத்தில், பெயரிடப்பட்ட உட்கூறு கண்டறிதலுக்கு (Named Entity Recognition - NER) சொற்கிடங்கில் உள்ள குறிப்பிட்ட உட்கூறுகளுக்கான நேரடி உரை விளக்கங்கள் தேவை.
இந்திய மொழிகளில் ஒரு மாபெரும் சொற்கிடங்கை உருவாக்குவதற்காக எப்படிப்பட்ட முயற்சிகள் மேற்கொள்ளப்படுகின்றன. ஒரு சிறந்த எந்திர மொழிபெயர்ப்புத் தீர்வுக்கான நல்லதொரு சொற்கிடங்கை எப்போது பெறுவோம்?
இந்தியாவில், இந்திய மொழிகளுகளுக்கான நடுவண் நிறுவனத்தில் (Central Institute of Indian Languages - CIIL) பல இந்திய மொழிகளில் சேகரிக்கப்பட்ட சொற்கிடங்கு உள்ளது. ஆனால் இந்த சொற்கிடங்கு சிறிய அளவாக அமைந்துள்ளது - கிட்டத்தட்ட ஒரு மொழிக்கு 30-80 லட்சம் சொற்கள் மட்டுமே உள்ளன. தரவு உருவாக்கத்துக்கு இந்த சொற்கிடங்கு ஒரு வித்தாக இருக்கும் பட்சத்தில், அந்த தரவின் அளவும், தரமும் வெகுவாக மேம்படுத்தப்பட வேண்டும், அதுவே இந்திய மொழிகளுக்கான கணினி சார் மொழியியல் ஆராய்ச்சிக்கு பெரும் உதவியாக இருக்கும்.
சமீபத்தில், இந்திய அரசின் மனிதவள மேம்பாட்டு அமைச்சகத்தால் தொடங்கப்பட்ட இந்திய மொழிகளுக்கான மொழியியல் தரவு ஒழுங்கமைப்பானது (Linguistic Data Consortium for Indian Languages - LDC-IL), அனைத்து இந்திய மொழிகளிலும் உள்ள மொழியியல் சொற்கிடங்கின் தரநிலையைச் சரிபார்க்க முயற்சிகளை மேற்கொண்டு வருகிறது. இந்தச் சேகரிப்பை உருவாக்க பல கல்வி மற்றும் தொழில்துறை நிறுவனங்கள் கூட்டாக இணைந்து செயல்படுகின்றன.
இந்திய மொழிகளுக்கான நல்ல, பெருமளவு தரவு கொண்ட சொற்கிடங்கை விரைவில் அடைவோம் என நம்பலாம்.மிகப்பெரிய சொற்கிடங்கை உருவாக்க இணையத்தில் உள்ள உள்ளடக்கம் அல்லது டிஜிட்டல் சாதனங்களில் உள்ள உள்ளடக்கம் போதாது என்றால், அதனை நாம் எப்படித்தான் அடைவது?
இந்த விஷயத்தைப் பொருத்தவரையில், ஒட்டுமொத்த சமுதாயமும் பங்கேற்பதன் மூலம் மட்டுமே தரவை உருவாக்க முடியும் என்பதை நான் வலியுறுத்திக் கூற விரும்பிகிறேன். மொழியியல் சொற்கிடங்கை உருவாக்குவதற்கு, கூட்டுப் பங்களிப்பு (crowd-sourcing) ஒரு மிகச்சிறந்த வழி என்ற முக்கியத்துவத்தை நாம் உணர்த்த வேண்டியது அவசியமாக இருக்கிறது. அப்படிப்பட்ட பல வகையான சொற்கிடங்கை மொழியியல் வல்லுநர்களும் மொழி நிபுணர்களும் உருவாக்க வேண்டும் என்கிற அவசியம் இல்லை, தாய்மொழி பேசும் அனைவரும், தங்கள் மொழிக்கான சொற்கிடங்கை உருவாக்கலாம்.
இந்திய சமுதாயத்தை எந்திர மொழிபெயர்ப்பு எப்படி வளப்படுத்தப்போகிறது?
பல ஆண்டுகளாக, ஆங்கிலம் பயன்படுத்துவோருக்காகவே கணினி சார் சாதனங்கள் தயாரிக்கப்பட்டன. ஆனால் அதன் துரதிருஷ்டவசம் என்னவென்றால், உலகில் உள்ள பெருமளவு மக்களால் ஆங்கிலம் பயன்படுத்த முடியாது. அதனால் அவர்கள் பெற வேண்டிய கணினித்துவ பயன்கள் தடைபடுகின்றன. இணையத்தில் உள்ள உள்ளடக்கத்தை எடுத்துக் கொண்டால், வலையில் உள்ள பெருமளவு தகவல் ஆங்கிலம் அல்லாத மொழியில் தான் உள்ளது. இந்தியா போன்ற நாடுகளில் உள்ள மக்கள் தொகையில் ஆங்கிலம் அறியாதவர்கள் தான் அதிகம். எனவே பிராந்திய மொழிகளுக்கான கருவிகளும் தொழில்நுட்பங்களும், மொழியியல் சார்ந்த மற்றும் எந்திர மொழிபெயர்ப்பு ஆராய்ச்சிகளும் இன்னும் முக்கியத்துவம் பெறுகின்றன. இதன் மூலமாக மட்டுமே, சாமான்ய மக்களுக்குத் தடையாக இருக்கும் டிஜிட்டல் பிளவை நாம் உடைத்தெரிந்து கணினியின் பயன்களை அவர்களும் முழுமையாகப் பெற முடியும்.
மைக்ரோசாஃப்ட் ரிசர்ச் இந்தியாவுடனான உங்கள் அனுபவத்தை பகிர்ந்து கொள்ளலாமா?
மைக்ரோசாஃப்ட்டில் நாங்கள் ஒரு சிறப்பான அணியாக இணைந்து பணியாற்றி வருகிறோம். மைக்ரோசாஃப்ட் ரிசர்ச் இந்தியாவில் 2005 ஆம் ஆண்டு ஜூலை மாதம் சேர்ந்தேன். என்னையும் அறியாமல் மொழிகளின் மீது, குறிப்பாக இந்திய மொழிகளின் மீது எனக்கு ஒரு அளவுக்கு அதிகமான காதல் இருந்து வந்தது. மைக்ரோசாஃப்ட் ரிசர்ச் இந்தியாவில் இருப்பதன் மூலம் இந்திய மொழிகளுக்கு சேவையாற்றும் மாபெரும் வாய்ப்பினைப் பெற்றுள்ளேன்.
தற்போது, விக்கிபேபல் (WikiBABEL ) எனப்படும் சமுதாயத்துடன் ஒருங்கிணைக்கப்பட்ட தரவு உருவாக்கம் பற்றிய திட்டப்பணியில் ஈடுபட்டுள்ளேன். விக்கிபேபல் என்பது பரிமாற்றத் தன்மை கொண்ட பன்மொழி உள்ளடக்கம் மற்றும் மொழியியல் சம்பந்தமான இணையான தரவை உருவாக்கும் சேவையாகும். நீங்கள் அளிக்கும் விக்கி தளத்துக்கு இணையான தரவை அதுவே தேடிக் கண்டுபிடித்து, ஸ்டேடிஸ்டிகல் எந்திர மொழிபெயர்ப்பு அமைப்புகள் பற்றிய ஆராய்ச்சிக்கு மிக முக்கியமான துணையாகவும் அமையும். எந்த ஒரு விக்கி தளத்தைக் கொடுத்தாலும் அதற்கான பன்மொழி உள்ளடக்கத்தைப் பெறலாம். ஒரு மொழி சார்ந்த பயனர் வட்டாரம் கொண்ட அறிவுசார் தளமாகவும், அவசியமான பயன்பாட்டுக் களமாகவும் அமைக்க வேண்டும் என்பதே எங்கள் குறிக்கோள்.
மொழியியல் தொடர்பான மற்ற தகவலை அணுகுதல்/பிரித்தெடுத்தல், எந்திர மொழிபெயர்ப்பு, ஒலிபெயர்ப்பு மற்றும் மொழியியல் ஆராய்ச்சி பற்றிய தரவு உருவாக்கத்துக்கான முறைமைகளை வடிவமைத்தல் போன்ற பல வகையான ஆராய்ச்சிகளில் எனக்கு மிகுந்த விருப்பம் உண்டு. அதோடு செய்திகளில் இருந்து சொற்கிடங்கு உருவாக்குதல், சமுதாயத்துடன் ஒருங்கிணைக்கப்பட்ட கட்டமைப்புகள் மற்றும் மொழியியல் விளையாட்டுகள் போன்றவற்றிலும் நாட்டம் செலுத்தி வருகிறேன்.
இந்திய மொழிக் கணினியியலுக்கு பாஷாஇந்தியா வலைத்தளம் எடுத்துவரும் முயற்சிகளைப் பற்றிய உங்கள் கருத்து என்ன?
எந்த ஒரு இந்திய மொழிக் கணினியியல் ஆர்வலருக்கும் பாஷாஇந்தியா ஒரு இணையத் துணை என்று கூறலாம். பாஷாஇந்தியாவில் மேலும் பல செறிவான உள்ளடக்கமும் சுவாரஸ்யமான கலந்தாய்வுகளும் வெளிவர வேண்டும் என வாசகர்களாகிய நாங்கள் எதிர்பார்க்கிறோம். இந்திய மொழிக் கணினியியல் துறைக்கு ஒரு பாலமாக இருந்து வரும் பாஷாஇந்தியாவுக்கும் அதன் சீர்மிகு முயற்சிகளுக்கும் எனது மனமார்ந்த வாழ்த்துகளைத் தெரிவித்துக் கொள்கிறேன்.