ഭാഷാ കമ്പ്യൂട്ടിംഗും സാധ്യതകളും – അഭിമുഖം
വിദ്യാഭ്യാസപരമായ പശ്ചാത്തലത്തെയും നിലവിലെ പഠനങ്ങളെയും പറ്റി ഒന്ന് വിശദീകരിക്കാമോ?
ഗിണ്ടി എഞ്ചിനീയറിംഗ് കോളേജില് നിന്ന് ഇസിഇയില് ഞാന് ബിഇ എടുത്തു. പഠനം കഴിഞ്ഞപ്പോള് അവിടെ തന്നെ അധ്യാപികയായി ചേരുകയും ചെയ്തു. അധ്യാപികയായി ജോലി ചെയ്യുമ്പോള് തന്നെ ഞാന് കമ്പ്യൂട്ടര് സയന്സ് ആന്ഡ് എഞ്ചിനീയറിംഗ് എന്ന വിഷയത്തില് എംഇ കരസ്ഥമാക്കി. തുടര്ന്ന് ഗിണ്ടി എഞ്ചിനീയറിംഗ് കോളേജില് കമ്പ്യൂട്ടര് സയന്സ് ആന്ഡ് എഞ്ചിനീയറിംഗ് ഡിപ്പാര്ട്ട്മെന്റ് ആരംഭിച്ചപ്പോള് ഞാനതിന്റെ ഭാഗമായി.
നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗ് എന്ന വിഷയത്തില് 1992-ലാണ് ഞാന് പിഎച്ച്ഡി എടുത്തത്. നിലവില് ഞാന് പിഎച്ച്ഡിക്ക് പഠിക്കുന്ന കുട്ടികള്ക്ക് മാര്ഗനിര്ദേശം നല്കിവരുന്നു. ഇപ്പോള് പതിനൊന്ന് കുട്ടികള് എന്റെ കീഴില് പിഎച്ച്ഡിക്കായി പഠിക്കുന്നുണ്ട്.
നിലവില് ഞാന് ശ്രദ്ധ കേന്ദ്രീകരിച്ചിരിക്കുന്നത് നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗ്, മ്യൂസിക്ക് പ്രോസസിംഗ്, ഇ-ലേണിംഗ്, ടെക്സ്റ്റ് മൈനിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള ഓണ്ടോളജി, സെമാന്റിക് പ്രോസസിംഗ്, സെര്ച്ച് എഞ്ചിന് ആല്ഗൊരിതം എന്നീ വിഷയങ്ങളിലാണ്.
നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗില് ഇഷ്ടമുള്ള വിഷയങ്ങള് ഏതൊക്കെ?
എനിക്ക് ഏറ്റവും ഇഷ്ടമുള്ള വിഷയമാണ് നാച്ചുറല് ലാംഗ്വേജ് ലേണിംഗ്. അതിന്റെ ഇനി പറയുന്ന വിഭാഗങ്ങളില് എനിക്ക് താല്പര്യമുണ്ട്:
• ഇന്ഫര്മേഷന് വിഷ്വലൈസേഷന്
• ഇ-ലേണിംഗിനായുള്ള ഓട്ടോമാറ്റിക്ക് കണ്ടന്റ് ജനറേഷന്
• ഇ-ലേണിംഗിനായുള്ള ഓട്ടോമാറ്റിക്ക് ക്വസ്റ്റിന് ജനറേഷന്
• ഇ-ലേണിംഗിനായുള്ള ഓട്ടോമാറ്റിക്ക് സ്ലൈഡ് ജനറേഷന്
• ഗവേഷണ വിഷയവുമായി ബന്ധപ്പെട്ട ഡാറ്റാ മൈനിംഗ്
• ടെക്സ്റ്റ് മൈനിംഗിനെ അടിസ്ഥാനമാക്കിയുള്ള ഒണ്ടോളജി
നാച്ചുറല് ലംഗ്വേജ് പ്രോസസിംഗ് ബഹുദൂരം സഞ്ചരിച്ച് കഴിഞ്ഞു. എങ്കിലും ഇന്ത്യയില് നിന്ന് വലിയ വാര്ത്തകളൊന്നും ഉണ്ടാകുന്നില്ല. നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗ് മേഖലയില് ഇന്ത്യന് ഭാഷകള് എവിടെ എത്തി നില്ക്കുന്നു?
ഇംഗ്ലീഷ് അടക്കമുള്ള ഭാഷകള് പോലെ ലളിതമായി സമീപിക്കാവുന്ന ഒന്നല്ല ഇന്ത്യന് ഭാഷകള്, പ്രത്യേകിച്ചും ദക്ഷിണേന്ത്യന് ഭാഷകള്. സമ്പന്നമായ മോര്ഫോളജിയും റിലേറ്റീവ് ഫ്രീ വേഡ് ഓര്ഡറും ലാംഗ്വേജ് പ്രോസസിംഗില് വളരെയേറെ പ്രതിബന്ധം സൃഷ്ടിക്കും.. മോര്ഫോളജിക്കല് അനാലിസിസിനും സെമാന്റിക്ക് റെപ്രസെന്റേഷനും നമ്മള് ആശ്രയിക്കുന്നത് നിയമവും സ്റ്റാറ്റിയും അടിസ്ഥാനമാക്കിയുള്ള രീതികളാണ്. ഇതിനായി നമ്മള് യുഎന്എല് (യൂണിവേഴ്സല് നെറ്റ്വര്ക്കിംഗ് ലാംഗ്വേജ് – ഏത് ഭാഷയായാലും ഉപയോഗപ്പെടുത്താവുന്ന സെമാന്റിക്ക് പ്രതിനിധീകരണം), വേഡ് സെന്സ് ഡിസാംബിഗ്വേഷന്, അനഫോറ റെസല്യൂഷന് എന്നിവ ഉപയോഗിക്കുന്നു.
അണ്ണ യൂണിവേഴ്സിറ്റിയില് എന്തൊക്കെ ഭാഷാ കമ്പ്യൂട്ടിംഗ് പ്രൊജക്ടുകളാണ് അല്ലെങ്കില് പ്രവര്ത്തനങ്ങളാണ് നിലവില് നടന്നുവരുന്നത്?
കേന്ദ്ര വിവരവിനിമയ മന്ത്രാലയത്തിനായി ‘ക്രോസ് ലിംഗ്വല് ഇന്ഫോര്മേഷന് ആക്സസ്’ എന്നൊരു സംരംഭത്തില് ഏര്പ്പെട്ടിരിക്കുകയാണ് ഞങ്ങള്. ഇന്ത്യയില് അങ്ങോളമിങ്ങോളമുള്ള ഏഴ് സ്ഥാപനങ്ങള് സഹകരിച്ച് ഒരു കണ്സോര്ഷ്യം രൂപീകരിച്ചാണ് ഇത് തുടങ്ങിയിരിക്കുന്നത്. ഒരു ഭാഷയിലെ ഉള്ളടക്കം മറ്റൊരു ഇന്ത്യന് ഭാഷയിലേക്ക് മാറ്റുന്നതിനുള്ള പദ്ധതിയാണിത്. തമിഴിനായി ആശയം അടിസ്ഥാനമാക്കിയൊരു സെര്ച്ച് എഞ്ചിന് ഞങ്ങള് രൂപം കൊടുത്തുവരുന്നുണ്ട്. നോളിജ് എഞ്ചിനീയറിംഗ് ആന്ഡ് കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സ് എന്ന വിഷയത്തില് എംഇ പ്രോഗ്രാം നല്കുന്നതിനായി അണ്ണാ യൂണിവേഴ്സിറ്റിക്ക് അനുമതി ലഭിച്ചിട്ടുണ്ട്. ഞങ്ങള് ഒരു പാഠ്യപദ്ധതിക്ക് രൂപം കൊടുത്ത് വരികയാണ്.
അടിസ്ഥാനപരമായി ഭാഷാ കമ്പ്യൂട്ടിംഗ് വികസനത്തിന് എന്തൊക്കെ ആവശ്യമുണ്ട്?
മോര്ഫോളജിക്കല് അനലൈസര്, നികച്ചൊരു നിഘണ്ടു, ഭാഷാ ഇന്പുട്ടും ഔട്ട്പുട്ടും കൈകാര്യം ചെയ്യുന്നതിന് ശേഷിയുള്ള ടൂളുകള് എന്നിവയാണ് അടിസ്ഥാന കാര്യങ്ങള്. പല സ്റ്റാറ്റിസ്റ്റിക്കല് പ്രോസസിംഗ് പണികള്ക്കും ടാഗുചെയ്തിട്ടുള്ള ഡാറ്റ ആവശ്യമാണ്. നല്ലൊരു മാനക കോര്പ്പസ് (ഉദാഹരണത്തിന് ഇംഗ്ലീഷില് റോയിറ്റേഴ്സിന്റെ മുഴുവന് ഉള്ളടക്കവും സംയോജിപ്പിച്ചിട്ടുള്ള ഉള്ളടക്കം എടുക്കുന്നത് പോലെ) നമുക്ക് ആവശ്യമുണ്ട്. മെഷീന് ട്രാന്സ്ലേഷന് യാഥാര്ത്ഥ്യമാകണമെങ്കില് വലിയൊരു പാരലല് കോര്പ്പസ് ഡാറ്റയും ആവശ്യമാണ്.
ഭാഷാ കമ്പ്യൂട്ടിംഗ് മേഖലയുടെ സാധ്യതകളെ പറ്റി വിദ്യാര്ത്ഥികളോട് എന്താണ് പറയാനുള്ളത്?
ഭാഷാ കമ്പ്യൂട്ടിംഗ് മേഖലയില് വിദ്യാര്ത്ഥികള് കാട്ടുന്ന താല്പര്യം അത്ഭുതകരം തന്നെയാണ്. ഈ മേഖലയില് യൂണിവേഴ്സിറ്റി സംഘടിപ്പിച്ച സമ്മര് പ്രോജക്ടുകള്ഇല് മുപ്പതോളം കുട്ടികള് പങ്കെടുക്കുകയുണ്ടായി. എല്ലാ വര്ഷവ്മ് പതിനഞ്ചോളം പ്രോജക്ടുകള് തമിഴ് ഭാഷാ കമ്പ്യൂട്ടിംഗുമായി ബന്ധപ്പെട്ട് തയ്യാറാക്കപ്പെടുന്നുണ്ട്. ഇക്കഴിഞ്ഞ വേനല്ക്കാലത്ത് ചില വിദ്യാര്ത്ഥികള് തമിഴിനായി മൊബൈല് ആപ്ലിക്കേഷനുകള് എങ്ങിനെ തയ്യാറാക്കാം എന്ന വിഷയവുമായി ബന്ധപ്പെട്ട് പ്രോജക്ടുകള് ചെയ്തിരുന്നു. ഭാഷാ കമ്പ്യൂട്ടിംഗില് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന വിദ്യാര്ത്ഥികള്ക്ക് വന് അവസരങ്ങളാണ് ഉള്ളത്. ഇപ്പോള് തന്നെ ഒരുപാട് കമ്പനികള്ക്ക് ഭാഷാ സാങ്കേതികവിദ്യ അറിയുന്നവരെ ആവശ്യമുണ്ട്. ഡാറ്റാ മൈനിംഗും മറ്റും ഉയര്ന്നുവരുന്ന മറ്റ് സാധ്യതകളാണ്.