ഭാഷാശാസ്ത്രമില്ലെങ്കില് നീലാദ്രി മരിക്കും!
കൊല്ക്കൊത്തയിലുള്ള ഇന്ത്യന് സ്റ്റാറ്റിസ്റ്റിക്കല് ഇന്സ്റ്റിറ്റിയൂട്ടിന്റെ ലിംഗ്വിസ്റ്റിക് റിസര്ച്ച് യൂണിറ്റില് ജോലി നോക്കുന്ന നീലാദ്രി ശേഖര് ദാസിനെ നമുക്ക് ഇത്തവണ പരിചയപ്പെടാം. ഭാഷാ കമ്പ്യൂട്ടിംഗുമായി ബന്ധപ്പെട്ട് ഒരുപിടി പദ്ധതികള്ക്ക് ചുക്കാന് പിടിച്ചിട്ടുള്ള നീലാദ്രി ശേഖര് ദാസിപ്പോള് ബംഗാളി ഭാഷയ്ക്കായി ഒരു ലെക്സിക്കനും ഒരു ശബ്ദ ലൈബ്രറിയും വികസിപ്പിച്ചുകൊണ്ടിരിക്കുകയാണ്. എല്ലാ ഇന്ത്യന് ഭാഷകള്ക്കുമായും ഒരു വലിയ കോര്പ്പറ ഉണ്ടാക്കിയെടുക്കാനുള്ള സംരംഭത്തിന് (ഇന്ത്യന് ലാംഗ്വേജസ് കോര്പ്പറ ഇനീഷ്യേറ്റീവ്) ചുക്കാന് പിടിക്കുന്നതും നീലാദ്രി തന്നെ.
കോര്പസ് ലിംഗ്വിസ്റ്റിക്സ്, ഭാഷാ സാങ്കേതികവിദ്യ, നാച്ചുറല് ലാംഗ്വേജ് പ്രൊസസിംഗ്, മെഷീന് ട്രാന്സലേഷന് തുടങ്ങിയവയാണ് നീലാദ്രി വൈദഗ്ധ്യം പ്രകടിപ്പിക്കുന്ന മേഖലകള്. ഭാഷാ ശാസ്ത്രത്തില് കല്ക്കത്ത സര്വകലാശാലയില് നിന്ന് പിഎച്ച്ഡിയും ഐഐടി കാന്പൂരില് നിന്ന് അഡ്വാന്സ്ഡ് നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗില് സാങ്കേതിക വിദ്യാഭ്യാസവും നേടിയിട്ടുള്ള നീലാദ്രി നിരവധി പുസ്തകങ്ങള് രചിക്കുകയും ദേശീയ - അന്തര്ദേശീയ പ്രസിദ്ധീകരണങ്ങളില് ലേഖനങ്ങള് എഴുതിക്കൊണ്ടിരിക്കുകയും ചെയ്യുന്നു.
ഇന്ത്യന് ഭാഷകള്ക്കായി ഒരു ലേണര് കോര്പ്പറ, ലാംഗ്വേജ് ആന്ഡ് ടെക്സ്റ്റ് പ്രൊസസിംഗ് ടൂളുകള്, ഇംഗ്ലീഷിലും ഇന്ത്യന് ഭാഷകളിലുമായി ഒരു ദ്വിഭാഷാ ലെക്സിക്കല് ഡാറ്റാബേസ്, ഇംഗ്ലീഷില് നിന്ന് ബംഗാളിയിലേക്ക് മെഷീന് ട്രാന്സലേഷന് നടത്തുന്നതിനായി കോര്പസ് അടിസ്ഥാനമാക്കിയുള്ള ഒരു സംവിധാനം, ഇന്ത്യന് ഭാഷകളില്, ഉപയോഗത്തെ അടിസ്ഥാനമാക്കിക്കൊണ്ട് (യൂസേജ് ബേസ്ഡ്) ഒരു ഓണ്ലൈന് നിഘണ്ടു, ഇന്ത്യന് ഭാഷകളില് ഇലക്ട്രോണിക് ലാംഗ്വേജസ് റിസോഴ്സുകള് എന്നിവയൊക്കെ നീലാദ്രിയുടെ ഭാവി പദ്ധതികളാണ്. നീലാദ്രിയുമായി ഭാഷാഇന്ത്യ നടത്തിയ അഭിമുഖത്തിന്റെ പ്രസക്തഭാഗങ്ങള് ഇതാ -
ചോദ്യം: ഭാഷാശാസ്ത്രത്തെ പറ്റിയുള്ള നിങ്ങളുടെ സ്നേഹത്തെ പറ്റി കേള്ക്കുവാന് ഇടയായിട്ടുണ്ട്. എങ്ങിനെയാണ് നിങ്ങള് ഭാഷാശാസ്ത്രവുമായി ഇത്ര അടുപ്പത്തിലാകാന് കാരണം?
ഉത്തരം: ഭാഷാശാസ്ത്രത്തിന് വേണ്ടി ഉഴിഞ്ഞുവച്ച ജന്മമാണ് എന്റേതെന്ന് പറഞ്ഞാല് അതില് ഒട്ടും അതിശയോക്തിയില്ല. കുട്ടിക്കാലം തൊട്ടേ, കുറച്ചുകൂടി കൃത്യമായി പറഞ്ഞാല് എട്ടാം ക്ലാസില് വച്ചുതന്നെ തുടങ്ങിയ സ്നേഹമാണ് ഭാഷാശാസ്ത്രത്തിനോട്. എനിക്ക് താല്പര്യമുള്ള വിഷയത്തില് തന്നെ ഒരു ജോലി ലഭിച്ചപ്പോള് സാധ്യതകള് അനന്തമായി. കഴിഞ്ഞ 18 വര്ഷക്കാലമായി നിത്യവും പകുതിയിലേറെ സമയം ഞാന് ചെലവഴിക്കുന്ന ഭാഷാശാസ്ത്രത്തിനായി തന്നെ. എന്റെ രണ്ടാമത്തെ അമ്മയായിട്ടാണ് ഞാന് ഭാഷാശാസ്ത്രത്തെ കണക്കാക്കുന്നത്. എന്റെ ആവേശവും ജോലിയും വിനോദവുമാണ് ഭാഷാശാസ്ത്രം. എന്റെ സഹപ്രവര്ത്തകര് ചിലപ്പോള് ‘ഭാഷാശാസ്ത്രം ഇല്ലാതായാല് നീലാദ്രി അടുത്തക്ഷണം മരിക്കും’ എന്ന് എന്നെ കളിയാക്കാറുണ്ട്.
ചോദ്യം: ഭാഷ എന്നാല് ആശയവിനിമയത്തിനുള്ള ഒരു മാധ്യമം എന്നാണ് പരക്കെയുള്ള ധാരണ. എന്നാല് അതിനപ്പുറം പരപ്പിലും ആഴത്തിലുമാണ് ഭാഷയുടെ സ്ഥാനമെന്ന് തോന്നുന്നു. ഒരു ഭാഷാശാസ്ത്രകാരന് എന്ന രീതിയില് നിങ്ങള് എങ്ങിനെയാണ് ഭാഷയെ കാണുന്നത്, നിര്വചിക്കുന്നത്?
ഉത്തരം: “ഭാഷയാണ് നമ്മുടെ വ്യക്തിത്വം” എന്ന് ഞാന് പലപ്പോഴും പറയാറുണ്ട്. ഇതിന് കാരണം നാമൊരു വ്യക്തിയെ തിരിച്ചറിയുന്നത് അയാള് ഉപയോഗിക്കുന്ന ഭാഷയിലൂടെയാണ്. എന്ത് ഭാഷയാണ് അയാള് ഉപയോഗിക്കുന്നത്, എത്തരത്തിലുള്ള വ്യക്തിയാണയാള്, ഏതുതരം സൊസൈറ്റിയിലാണ് അയാള് ജീവിക്കുന്നത്, ഏതൊക്കെ തരത്തിലുള്ള ഗ്രൂപ്പുകളുമായാണ് അയാള് ഇടപഴകുന്നത്, ഏത് കാലഘട്ടത്തിലും രാജ്യത്തുമാണ് അയാള് ജീവിക്കുന്നത്, അയാളുടെ മനോഭാവമെന്ത്, എന്തൊക്കെ ലക്ഷ്യങ്ങളാണ് അയാള്ക്കുള്ളത് എന്നൊക്കെ അയാളുടെ ഭാഷയെ അടിസ്ഥാനമാക്കി നമുക്ക് കണ്ടെത്താം. ചരിത്രത്തിന്റെയും സംസ്കാരത്തിന്റെയും വളര്ച്ചയുടെയും സംസ്കൃതിയുടെയും ഗതകാല - സമീപകാല സ്രോതസായി നമുക്ക് ഭാഷയെ ഉപയോഗിക്കാവുന്നതാണ്.
ചോദ്യം: നീലാദ്രിയില് ഒരു ചരിത്രകാരനുമുണ്ടോ?
ഉത്തരം: തീര്ച്ചയായും. ഭാഷാശാസ്ത്രകാരന് എന്ന രീതിയില് ഞാന് സ്വയം കാണുന്നത് പര്യവേക്ഷകനോ (എക്സ്പ്ലോറര്) ഉത്ഘനനം ചെയ്യുന്നയാളോ (എക്സ്കവേറ്റര്) ആയിട്ടാണ്. സമയമാകുന്ന മണലില് നിന്ന് ജീവിതത്തിന്റെയും ജീവന്റെയും സമൂഹത്തിന്റെയും മറഞ്ഞുകിടക്കുന്ന സമ്പത്ത് കുഴിച്ചെടുക്കുന്ന ഒരാള്!
നിങ്ങള് ഇപ്പോള് ജോലി ചെയ്യുന്ന ഇന്ത്യന് സ്റ്റാറ്റിസ്റ്റിക്കല് ഇന്സ്റ്റിറ്റിയൂട്ടിന്റെ ലിംഗ്വിസ്റ്റിക് റിസര്ച്ച് യൂണിറ്റിനെ പറ്റി പറയാമോ?
ഉത്തരം: ഭുവനേശ്വറിലെ ഇന്ത്യന് ഇന്സ്റ്റിറ്റിയൂട്ട് ഓഫ് അപ്ലൈഡ് ലാംഗ്വേജസ് സയന്സസില് ഒരു ലിംഗ്വിസ്റ്റ് ആയിട്ടാണ് ഞാന് എന്റെ കരിയര് ആരംഭിക്കുന്നത്. 1992-ലാണത്. കൊല്ക്കൊത്തയിലുള്ള ഇന്ത്യന് സ്റ്റാസ്റ്റിറ്റിക്കല് ഇന്സ്റ്റിറ്റിയൂട്ടിന്റെ ലിംഗ്വിസ്റ്റിക് റിസര്ച്ച് യൂണീറ്റില് ഞാന് ചേര്ന്നത് 1995-ലാണ്. എന്റെ ഭാഷയെയും എന്റെ സമൂഹത്തെയും സേവിക്കണം എന്ന അദമ്യമായ ആഗ്രഹമായിരുന്നു അതിന് പിന്നില്. ഇവിടെ ഞാന് കോര്പസ് ലിംഗ്വിസ്റ്റിക്സ്, ഭാഷാ സാങ്കേതികവിദ്യ, നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസിംഗ്, അപ്ലൈഡ് ലിംഗ്വിസ്റ്റിക്സ് എന്നീ മേഖലകളില് പ്രവര്ത്തിക്കുന്നു.
ചോദ്യം: ഭാഷാശാസ്ത്രവുമായി ബന്ധപ്പെട്ടാകട്ടെ അടുത്ത ചോദ്യം. ഗണിതവും കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സും തമ്മിലുള്ള ബന്ധമെന്താണ്?
ഉത്തരം: കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സിന്റെ ഒഴിച്ചുകൂടാനാകാത്ത ഘടകമാണ് ഗണിതം. കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സുമായി ബന്ധപ്പെട്ട പല ഗവേഷണ - വികസന പ്രവര്ത്തനങ്ങളും ഗണിത മാതൃകകളെയും നിയമങ്ങളെയും ക്രിയകളെയും അടിസ്ഥാനമാക്കിയാണ് പ്രവര്ത്തിക്കുന്നത്. ഡിജിറ്റല് ലാംഗ്വേജ് കോര്പറ ശേഖരണം, കോര്പസ് പ്രോസസിംഗ്, ഓതര്ഷിപ്പ് ആട്രിബ്യൂഷന്, ഇന്ഫര്മേഷന് റിട്രീവല്, ഡാറ്റാ മൈനിംഗ്, മെഷീന് ട്രാന്സ്ലേഷന്, മെഷീന് ലേണിംഗ്, പാര്സിംഗ്, സ്പീച്ച് സിന്തസിസ്, ടെക്സ്റ്റ് ടു സ്പീച്ച് സംവിധാനം തുടങ്ങിയ മേഖലകളില് ലക്ഷ്യം കൈവരിക്കാനായി നാം ഗണിതശാസ്ത്രത്തെ ആശ്രയിച്ചേ മതിയാകൂ.
ചോദ്യം: ശാസ്ത്രവും ഭാഷാശാസ്ത്രവും തമ്മിലുള്ള ബന്ധം?
ഉത്തരം: കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സിന്റെ ഏതാണ്ടെല്ലാ ഉപവിഭാഗങ്ങളും ഡാറ്റാ ശേഖരണം, വര്ഗീകരണം, വിശകലനം, വ്യാഖ്യാനം തുടങ്ങിയ കാര്യങ്ങള്ക്കെല്ലാം ശാസ്ത്രത്തിന്റെ വഴി തന്നെയാണ് പിന്തുടരുന്നത്. ഡാറ്റയുടെ പ്രയോഗത്തിലും തിയറികള്, ടൂളുകള്, രീതികള്, സംവിധാനങ്ങള് എന്നിവയുടെ വികസനത്തിനുള്ള വിവരത്തിലും ശാസ്ത്രരീതി തന്നെയാണ് പിന്തുടരപ്പെടുന്നത്.
ചോദ്യം: അതായത് ഭാഷാശാസ്ത്രത്തില് വൈദഗ്ധ്യം നേടണമെങ്കില് ഭാഷയിലും ഗണിതത്തിലും ശാസ്ത്രത്തിലും വൈദഗ്ധ്യം വേണമെന്നാണോ?
ഉത്തരം: ഇപ്പറഞ്ഞ മൂന്നും ഒരു പ്രത്യേക അനുപാതത്തില് ഭാഷാശാസ്ത്രത്തില് ഉപയോഗപ്പെടുത്തുന്നുണ്ട്. സത്യത്തില്, സമീപകാല കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സില് പല സംവിധാനങ്ങളും ഉപാധികളും ടൂളുകളും രീതികളും വികസിപ്പിച്ചെടുക്കുന്നതിന് ഗണിതശാത്രം, സ്ഥിതിവിവരക്കണക്ക്,ഭൌതികശാസ്ത്രം, ജീവശാസ്ത്രം, അകൌസ്റ്റിക്സ്, സൈക്കോളജി, ന്യൂറോളജി, കോഗ്നിറ്റീവ് സയന്സ്, എത്ത്നോളജി, ജിയോഗ്രഫി,ആന്ത്രപ്പോളജി, സോഷ്യോളജി എന്നീ ശാസ്ത്രശാഖകളും ഉപയോഗപ്പെടുത്തുന്നുണ്ട്.
ചോദ്യം: സ്ഥിതിവിവരക്കണക്കിനും (സ്റ്റാറ്റിസ്റ്റിക്സിനും) കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സിനും തമ്മിലുള്ള ബന്ധമെന്ത്?
ഉത്തരം: കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സിനോട് നേരിട്ട് ബന്ധപ്പെടുന്ന ശാസ്ത്രശാഖയാണ് സ്റ്റാറ്റിസ്റ്റിക്സ്. ഭാഷാ ഡാറ്റാ കളക്ഷന്, കോര്പസ് കമ്പയിലേഷന്, ലാംഗ്വേജ് പ്രോസസിംഗ്, ഭാഷാ ഡാറ്റാ റിട്രീവലും വിശകലനവും തുടങ്ങിയ പ്രവര്ത്തനങ്ങളില് കമ്പ്യൂട്ടേഷണല് ലിംഗ്വിസ്റ്റിക്സ് ആശ്രയിക്കുന്നത്സ്റ്റാറ്റിസ്റ്റിക്സിലെ വിവിധ തിയറികളെയും രീതികളെയുമാണ്.
ചോദ്യം: ഒന്നുകൂടി വിശദീകരിക്കാമോ?
ഉത്തരം: ഇന്ത്യന് ഭാഷകള്ക്കായുള്ള ഒരു വലിയ കോര്പസ് ഉണ്ടാക്കുന്ന പദ്ധതിയുമായി ബന്ധപ്പെട്ട് ഞാന് പ്രവര്ത്തിക്കുന്ന കാര്യം പറഞ്ഞല്ലോ? ഇതിനായി ഞങ്ങള് ഒരു വലിയ ടെക്സ്റ്റ് ഡാറ്റാശേഖരം ഉണ്ടാക്കിയിട്ടുണ്ട്. ഇടക്കിടെ ഞങ്ങള്ക്കിത് വിശകലനം ചെയ്യേണ്ടി വരും. കാരക്ടറുകളുടെ ടയര് വിഭജനത്തിനായും വാക്കുകളിലെ അക്ഷരപ്പിശക് കണ്ടെത്തുന്നതിനും തെറ്റായ വാക്കുകള് കണ്ടെത്തുന്നതിനും വാക്കുകളുടെ ശരാശരി ദൈര്ഘ്യം കണക്കുകൂട്ടുന്നതിനും ഞങ്ങള് സ്റ്റാറ്റിസ്റ്റിക്സ് ഉപയോഗപ്പെടുത്തുന്നു. ചി-സ്ക്വയര് ടെക്സ്റ്റ്, ടി-ടെക്സ്റ്റ്, അനോവ ടെസ്റ്റ്, പിയേഴ്സണ് കോറിലേഷന്, മള്ട്ടിഡയമന്ഷണല് സ്കെയിലിംഗ്, ഫാക്ടര് അനാലിസിസ് എന്നിവയൊക്കെയാണ് ഞങ്ങള് ഉപയോഗപ്പെടുത്തുന്ന സ്റ്റാറ്റിസ്റ്റിക്കല് രീതികള്.
ചോദ്യം: ഭാഷകള്ക്ക് എത്രതരം ഭാഷാശാസ്ത്ര പ്രത്യേകതകള് (ഫീച്ചറുകള്) ഉണ്ടായിരിക്കും? ഇന്ത്യന് ഭാഷകളെ മുന്നിര്ത്തി ഈ പ്രത്യേകതകള് ഒന്ന് വിശദീകരിക്കാമോ?
ഉത്തരം: കൃത്യമായി എല്ലാ ഭാഷകള്ക്കും ഇത്ര സവിശേഷതകളോ പ്രത്യേകതകളോ ഉണ്ടെന്ന് പറയാനാകില്ല. ചിലതില് കുറവും ചിലതില് കൂടുതലും സവിശേഷതകള് കാണും. എന്റെ മാതൃഭാഷയായ ബംഗാളിയെ വിശകലനം ചെയ്ത് നമുക്ക് ഈ പ്രത്യേകതകളെ പറ്റി മനസിലാക്കാം.
ആദ്യത്തേത് ഭാഷയുടെ ചരിത്രം തന്നെ. ലോകത്തില് ഏറ്റവും കൂടുതല് സംസാരിക്കപ്പെടുന്ന അഞ്ചാമത്തെയോ ആറാമത്തെയോ ഭാഷയാണ് ബംഗാളി. മറ്റ് കിഴക്കേ ഇന്ത്യന് ആര്യന് ഭാഷകളെപ്പോലെ ബംഗാളിയും ഇന്ത്യന് ഉപഭൂഖണ്ഡത്തിലെ ഈസ്റ്റേണ് മിഡില് ഇന്ഡിക് ഭാഷകളില് നിന്ന് ഉത്ഭവിച്ചതാണ്. ബംഗാളി ഭാഷയിലെ വാക്കുകളില് സംസ്കൃതത്തിന്റെ സ്വാധീനം വളരെയുണ്ട്. മറാത്തിയും അതുപോലെയുള്ള ഭാഷയാണ്. എന്നാല് അറബിയും പേര്ഷ്യനുമാണ് ഹിന്ദി, പഞ്ചാബി, സിന്ധി, ഗുജറാത്തി എന്നീ ഭാഷകളെ സ്വാധീനിച്ചിട്ടുള്ളത്.
പശ്ചിമബംഗാള്, ത്രിപുര എന്നിവിടങ്ങളിലെ ഔദ്യോഗികഭാഷയായിട്ടാണ് ബംഗാളി അറിയപ്പെടുന്നതെങ്കിലും ആന്ഡമാന് നിക്കോബാര് ദ്വീപുകള്, ഝാര്ക്കണ്ട്, ബീഹാര് തുടങ്ങി മറ്റ് പലയിടങ്ങളിലും ബംഗാളി ഉപയോഗിക്കപ്പെടുന്നുണ്ട്. ഭാഷയെ ഏകീകരിക്കുന്നതിനുള്ള പ്രവര്ത്തനങ്ങള് നടന്നത് ഇരുപതാം നൂറ്റാണ്ടിന്റെ ആദ്യ കാലഘട്ടത്തിലാണ്. കല്ക്കത്തയിലും അതിനടുത്ത പരിസരത്തും ഉപയോഗിച്ചിരുന്ന ബംഗാളി ഭാഷ സാര്വത്രികമായി അംഗീകരിക്കപ്പെട്ടു.
സംസാരിക്കുന്നതും എഴുതുന്നതും രണ്ട് രീതിയില് ചെയ്യുന്ന (ഡിഗ്ലോസിക്) ഭാഷകളെ പോലെയല്ല ബംഗാളി. പക്ഷേ രണ്ട് തരത്തിലുള്ള ശൈലികള് ബംഗാളി ഭാഷയ്ക്കുണ്ട്. ഉപയോഗിക്കുന്ന വാക്കുകളും പദഘടനയും ഇവയില് വ്യത്യസ്തങ്ങളാണ്. ശാദു ഭാഷ എന്നും ചലിത് ഭാഷ എന്നുമാണ് ഇവ അറിയപ്പെടുന്നത്. “ജനഗണമന അധിനായക ജയ ഹേ” എഴുതിയിരിക്കുന്നത് ചലിത് ഭാഷയിലാണ്. എന്നാല് ‘വന്ദേ മാതരം’ എഴുതിയിരിക്കുന്നതാവട്ടെ ശാദു ഭാഷയിലും.
വര്ത്തമാനകാലത്തില് കോപ്പുല (കര്ത്താവിനെയും വിഷയത്തെയും ബന്ധിപ്പിക്കുന്ന വാക്ക്) ഇല്ലാത്ത ഭാഷയാണ് ബംഗാളി. ‘അവന് അധ്യാപകന് ആകുന്നു’ (ആകുന്നു എന്ന പദമാണ് കോപ്പുല) എന്ന വാചകം ബംഗാളിയില് ‘ശി ശിക്ഷക്’ എന്നേ പറയൂ. ഇക്കാര്യത്തില് റഷ്യന്, ഹംഗേറിയന് ഭാഷകളോടാണ് ബംഗാളിക്ക് അടുപ്പം.
ബംഗാളി ഭാഷയിലെ വാക്കുകളെ തത്ഭവങ്ങള്, തത്സമങ്ങള് (സംസ്കൃതത്തില് നിന്ന് കടം കൊണ്ടിട്ടുള്ളവ), ദേശി (ആസ്ത്രോഏഷ്യാറ്റിക് ഭാഷകളില് നിന്ന് കടം കൊണ്ടിട്ടുള്ളവ), വിദേശി (രാജ്യത്തിന് പുറത്തുനിന്നുള്ള ഭാഷകളില് നിന്ന് കടം കൊണ്ടിട്ടുള്ളവ) എന്നിങ്ങനെ തിരിക്കാം. ഒരു ലക്ഷം വാക്കുകളോളം ബംഗാളിയില് ഉണ്ട്.