ഭാഷാ കമ്പ്യൂട്ടിംഗും സാധ്യതകളും – അഭിമുഖം

 

TVGeetha 

വിദ്യാഭ്യാസപരമായ പശ്ചാത്തലത്തെയും നിലവിലെ പഠനങ്ങളെയും പറ്റി ഒന്ന് വിശദീകരിക്കാമോ?

 

ഗിണ്ടി എഞ്ചിനീയറിംഗ് കോളേജില്‍ നിന്ന് ഇ‍സി‍ഇയില്‍ ഞാന്‍ ബി‍ഇ എടുത്തു. പഠനം കഴിഞ്ഞപ്പോള്‍ അവിടെ തന്നെ അധ്യാപികയായി ചേരുകയും ചെയ്തു. അധ്യാപികയായി ജോലി ചെയ്യുമ്പോള്‍ തന്നെ ഞാന്‍ കമ്പ്യൂട്ടര്‍ സയന്‍സ് ആന്ഡ് എഞ്ചിനീയറിംഗ് എന്ന വിഷയത്തില്‍ എം‍ഇ കരസ്ഥമാക്കി. തുടര്‍ന്ന് ഗിണ്ടി എഞ്ചിനീയറിംഗ് കോളേജില്‍ കമ്പ്യൂട്ടര്‍ സയന്‍സ് ആന്‍ഡ് എഞ്ചിനീയറിംഗ് ഡിപ്പാര്‍ട്ട്‌മെന്‍റ് ആരംഭിച്ചപ്പോള്‍ ഞാനതിന്‍റെ ഭാഗമായി.

നാച്ചുറല്‍ ലാംഗ്വേജ് പ്രോസസിംഗ് എന്ന വിഷയത്തില്‍ 1992-ലാണ്‌ ഞാന്‍ പി‍എച്ച്‌‌ഡി എടുത്തത്. നിലവില്‍ ഞാന്‍ പി‍എച്ച്‌‌ഡിക്ക് പഠിക്കുന്ന കുട്ടികള്‍ക്ക് മാര്‍ഗനിര്‍ദേശം നല്‍കിവരുന്നു. ഇപ്പോള്‍ പതിനൊന്ന് കുട്ടികള്‍ എന്‍റെ കീഴില്‍ പി‍എച്ച്‌‌ഡിക്കായി പഠിക്കുന്നുണ്ട്.

 

നിലവില്‍ ഞാന്‍ ശ്രദ്ധ കേന്ദ്രീകരിച്ചിരിക്കുന്നത് നാച്ചുറല്‍ ലാംഗ്വേജ് പ്രോസസിംഗ്, മ്യൂസിക്ക് പ്രോസസിംഗ്, ഇ-ലേണിംഗ്, ടെക്സ്റ്റ് മൈനിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള ഓണ്ടോളജി, സെമാന്‍റിക് പ്രോസസിംഗ്, സെര്‍ച്ച് എഞ്ചിന്‍ ആല്‍ഗൊരിതം എന്നീ വിഷയങ്ങളിലാണ്‌.

 

നാച്ചുറല്‍ ലാംഗ്വേജ് പ്രോസസിംഗില്‍ ഇഷ്ടമുള്ള വിഷയങ്ങള്‍ ഏതൊക്കെ?

 

എനിക്ക് ഏറ്റവും ഇഷ്ടമുള്ള വിഷയമാണ്‌ നാച്ചുറല്‍ ലാംഗ്വേജ് ലേണിംഗ്. അതിന്‍റെ ഇനി പറയുന്ന വിഭാഗങ്ങളില്‍ എനിക്ക് താല്‍പര്യമുണ്ട്:
• ഇന്‍ഫര്‍മേഷന്‍ വിഷ്വലൈസേഷന്‍
• ഇ-ലേണിംഗിനായുള്ള ഓട്ടോമാറ്റിക്ക് കണ്ടന്‍റ് ജനറേഷന്‍
• ഇ-ലേണിംഗിനായുള്ള ഓട്ടോമാറ്റിക്ക് ക്വസ്റ്റിന്‍ ജനറേഷന്‍
• ഇ-ലേണിംഗിനായുള്ള ഓട്ടോമാറ്റിക്ക് സ്ലൈഡ് ജനറേഷന്‍
• ഗവേഷണ വിഷയവുമായി ബന്ധപ്പെട്ട ഡാറ്റാ മൈനിംഗ്
• ടെക്സ്റ്റ് മൈനിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള ഒണ്ടോളജി


നാച്ചുറല്‍ ലംഗ്വേജ് പ്രോസസിംഗ് ബഹുദൂരം സഞ്ചരിച്ച് കഴിഞ്ഞു. എങ്കിലും ഇന്ത്യയില്‍ നിന്ന് വലിയ വാര്‍ത്തകളൊന്നും ഉണ്ടാകുന്നില്ല. നാച്ചുറല്‍ ലാംഗ്വേജ് പ്രോസസിംഗ് മേഖലയില്‍ ഇന്ത്യന്‍ ഭാഷകള്‍ എവിടെ എത്തി നില്‍ക്കുന്നു?

 

ഇംഗ്ലീഷ് അടക്കമുള്ള ഭാഷകള്‍ പോലെ ലളിതമായി സമീപിക്കാവുന്ന ഒന്നല്ല ഇന്ത്യന്‍ ഭാഷകള്‍, പ്രത്യേകിച്ചും ദക്ഷിണേന്ത്യന്‍ ഭാഷകള്‍. സമ്പന്നമായ മോര്‍ഫോളജിയും റിലേറ്റീവ് ഫ്രീ വേഡ് ഓര്‍ഡറും ലാംഗ്വേജ് പ്രോസസിംഗില്‍ വളരെയേറെ പ്രതിബന്ധം സൃഷ്ടിക്കും.. മോര്‍ഫോളജിക്കല്‍ അനാലിസിസിനും സെമാന്‍റിക്ക് റെപ്രസെന്‍റേഷനും നമ്മള്‍ ആശ്രയിക്കുന്നത് നിയമവും സ്റ്റാറ്റിയും അടിസ്ഥാനമാക്കിയുള്ള രീതികളാണ്‌. ഇതിനായി നമ്മള്‍ യു‍എന്‍എല്‍ (യൂണിവേഴ്സല്‍ നെറ്റ്‌വര്‍ക്കിംഗ് ലാംഗ്വേജ് – ഏത് ഭാഷയായാലും ഉപയോഗപ്പെടുത്താവുന്ന സെമാന്‍റിക്ക് പ്രതിനിധീകരണം), വേഡ് സെന്സ് ഡിസാംബിഗ്വേഷന്‍, അനഫോറ റെസല്യൂഷന്‍ എന്നിവ ഉപയോഗിക്കുന്നു.

 

അണ്ണ യൂണിവേഴ്സിറ്റിയില്‍ എന്തൊക്കെ ഭാഷാ കമ്പ്യൂട്ടിംഗ് പ്രൊജക്‌ടുകളാണ്‌ അല്ലെങ്കില്‍ പ്രവര്‍ത്തനങ്ങളാണ്‌ നിലവില്‍ നടന്നുവരുന്നത്?

 

കേന്ദ്ര വിവരവിനിമയ മന്ത്രാലയത്തിനായി ‘ക്രോസ് ലിംഗ്വല്‍ ഇന്‍ഫോര്‍മേഷന്‍ ആക്സസ്’ എന്നൊരു സം‍രംഭത്തില്‍ ഏര്‍പ്പെട്ടിരിക്കുകയാണ് ഞങ്ങള്‍. ഇന്ത്യയില്‍ അങ്ങോളമിങ്ങോളമുള്ള ഏഴ് സ്ഥാപനങ്ങള്‍ സഹകരിച്ച് ഒരു കണ്‍സോര്‍ഷ്യം രൂപീകരിച്ചാണ് ഇത് തുടങ്ങിയിരിക്കുന്നത്. ഒരു ഭാഷയിലെ ഉള്ളടക്കം മറ്റൊരു ഇന്ത്യന്‍ ഭാഷയിലേക്ക് മാറ്റുന്നതിനുള്ള പദ്ധതിയാണിത്. തമിഴിനായി ആശയം അടിസ്ഥാനമാക്കിയൊരു സെര്‍ച്ച് എഞ്ചിന്‍ ഞങ്ങള്‍ രൂപം കൊടുത്തുവരുന്നുണ്ട്. നോളിജ് എഞ്ചിനീയറിംഗ് ആന്‍ഡ് കമ്പ്യൂട്ടേഷണല്‍ ലിംഗ്വിസ്റ്റിക്സ് എന്ന വിഷയത്തില്‍ എം‍ഇ പ്രോഗ്രാം നല്‍കുന്നതിനായി അണ്ണാ യൂണിവേഴ്സിറ്റിക്ക് അനുമതി ലഭിച്ചിട്ടുണ്ട്. ഞങ്ങള്‍ ഒരു പാഠ്യപദ്ധതിക്ക് രൂപം കൊടുത്ത് വരികയാണ്.

 

അടിസ്ഥാനപരമായി ഭാഷാ കമ്പ്യൂട്ടിംഗ് വികസനത്തിന്‌ എന്തൊക്കെ ആവശ്യമുണ്ട്?

 

മോര്‍ഫോളജിക്കല്‍ അനലൈസര്‍, നികച്ചൊരു നിഘണ്ടു, ഭാഷാ ഇന്‍പുട്ടും ഔട്ട്‌പുട്ടും കൈകാര്യം ചെയ്യുന്നതിന്‌ ശേഷിയുള്ള ടൂളുകള്‍ എന്നിവയാണ്‌ അടിസ്ഥാന കാര്യങ്ങള്‍. പല സ്റ്റാറ്റിസ്റ്റിക്കല്‍ പ്രോസസിംഗ് പണികള്‍ക്കും ടാഗുചെയ്തിട്ടുള്ള ഡാറ്റ ആവശ്യമാണ്‌. നല്ലൊരു മാനക കോര്‍പ്പസ് (ഉദാഹരണത്തിന്‌ ഇംഗ്ലീഷില്‍ റോയിറ്റേഴ്സിന്‍റെ മുഴുവന്‍ ഉള്ളടക്കവും സം‍യോജിപ്പിച്ചിട്ടുള്ള ഉള്ളടക്കം എടുക്കുന്നത് പോലെ) നമുക്ക് ആവശ്യമുണ്ട്. മെഷീന്‍ ട്രാന്‍സ്‌ലേഷന്‍ യാഥാര്‍ത്ഥ്യമാകണമെങ്കില്‍ വലിയൊരു പാരലല്‍ കോര്‍പ്പസ് ഡാറ്റയും ആവശ്യമാണ്‌.

 

ഭാഷാ കമ്പ്യൂട്ടിംഗ് മേഖലയുടെ സാധ്യതകളെ പറ്റി വിദ്യാര്‍ത്ഥികളോട് എന്താണ്‌ പറയാനുള്ളത്?

 

ഭാഷാ കമ്പ്യൂട്ടിംഗ് മേഖലയില്‍ വിദ്യാര്‍ത്ഥികള്‍ കാട്ടുന്ന താല്‍പര്യം അത്ഭുതകരം തന്നെയാണ്‌. ഈ മേഖലയില്‍ യൂണിവേഴ്സിറ്റി സംഘടിപ്പിച്ച സമ്മര്‍ പ്രോജക്‌ടുകള്ഇല്‍ മുപ്പതോളം കുട്ടികള്‍ പങ്കെടുക്കുകയുണ്ടായി. എല്ലാ വര്‍ഷവ്മ് പതിനഞ്ചോളം പ്രോജക്‌ടുകള്‍ തമിഴ് ഭാഷാ കമ്പ്യൂട്ടിംഗുമായി ബന്ധപ്പെട്ട് തയ്യാറാക്കപ്പെടുന്നുണ്ട്. ഇക്കഴിഞ്ഞ വേനല്‍ക്കാലത്ത് ചില വിദ്യാര്‍ത്ഥികള്‍ തമിഴിനായി മൊബൈല്‍ ആപ്ലിക്കേഷനുകള്‍ എങ്ങിനെ തയ്യാറാക്കാം എന്ന വിഷയവുമായി ബന്ധപ്പെട്ട് പ്രോജക്‌ടുകള്‍ ചെയ്തിരുന്നു. ഭാഷാ കമ്പ്യൂട്ടിംഗില്‍ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന വിദ്യാര്‍ത്ഥികള്‍ക്ക് വന്‍ അവസരങ്ങളാണ്‌ ഉള്ളത്. ഇപ്പോള്‍ തന്നെ ഒരുപാട് കമ്പനികള്‍ക്ക് ഭാഷാ സാങ്കേതികവിദ്യ അറിയുന്നവരെ ആവശ്യമുണ്ട്. ഡാറ്റാ മൈനിംഗും മറ്റും ഉയര്‍ന്നുവരുന്ന മറ്റ് സാധ്യതകളാണ്‌.

Read More on....