Skip Ribbon Commands
Skip to main content
    

 

 

માઈક્રોસોફ્ટ રિસર્ચ ઈન્ડીયાના શ્રી એ.કુમારન સાથે મુલાકાત
યંત્ર થકી અનુવાદ અને ભારતીય ભાષાઓ
 

વર્ણન


આપણાંમાંનાં ઘણાંખરાં માઈક્રોસોફ્ટના ‘ટ્રાન્સલેટર’નો અથવા ‘ગુગલ ટ્રાન્સલેટ’નો ઉપયોગ કરે છે. તો વળી કેટલાંક યાહૂના ‘બેબલફિશ’નો ઉપયોગ કરે છે. આપણને કેટલીય વાર એમ થાય છે કે ભારતીય ભાષાઓ માટે પણ આવું સરળ સાધન હોય તો કેવું સારું. જ્યાં 22થી પણ વધારે ભાષાઓ હોય, તેવા દેશમાં જો આવી સહાય મળે, તો તે બેશક ઘણું ઉપયોગી રહે. કેટલાંક લોકો આના પર કામ કરી જ રહ્યાં છે અને ભારતીય ભાષાઓ માટે, યંત્ર દ્વારા અનુવાદ કરવા માટે, એક સફળ મશીન ટ્રાન્સલેશન (MT) મોડેલ બનાવવા માટે અથાગ પ્રયત્નો કરી રહ્યાં છે. ભારતીય MT ક્ષેત્રે કાબેલ વ્યક્તિનો પરિચય કરાવતાં ભાષાઈન્ડીયાને આનંદ થાય છે, જેઓ છે, માઈક્રોસોફ્ટ રિસર્ચ ઈન્ડીયાના શ્રી એ.કુમારન.

 

વિષય


આપણાંમાંનાં ઘણાંખરાં માઈક્રોસોફ્ટના ‘ટ્રાન્સલેટર’નો અથવા ‘ગુગલ ટ્રાન્સલેટ’નો ઉપયોગ કરે છે, કેટલાંક યાહૂના ‘બેબલફિશ’નો ઉપયોગ કરે છે. જ્યારે આપણને અજાણી ભાષાના વિષયનો અંગ્રેજીમાં અનુવાદ જોઈતો હોય, ત્યારે આપણાં માટે આ બધાં હાથવગાં હથિયાર જેવાં હોય છે. આપણને કેટલીય વાર એમ થાય છે કે ભારતીય ભાષાઓ માટે પણ આવું સરળ સાધન હોય તો કેવું સારું. જ્યાં 22થી પણ વધારે ભાષાઓ હોય, તેવા દેશમાં જો આવી સહાય મળે, તો તે બેશક ઘણું ઉપયોગી રહે. પરંતુ આ શક્ય ક્યારે બનશે?


નિરાશ ન થશો! કેટલાંક લોકો આના પર કામ કરી જ રહ્યાં છે અને ભારતીય ભાષાઓ માટે, યંત્ર થકી અનુવાદ કરવા માટે, એક સફળ મશીન ટ્રાન્સલેશન (MT) મોડેલ બનાવવા માટે અથાગ પ્રયત્નો કરી રહ્યાં છે. ભારતીય MT ક્ષેત્રે કાબેલ વ્યક્તિનો પરિચય કરાવતાં ભાષાઈન્ડીયાને આનંદ થાય છે, જેઓ છે, માઈક્રોસોફ્ટ રિસર્ચ ઈન્ડીયાના શ્રી એ.કુમારન.

 

શ્રી એ.કુમારન હાલ મલ્ટિલિન્ગ્વલ સિસ્ટમ્સ રિસર્ચ ગ્રુપનું નેતૃત્વ કરી રહ્યા છે. તેમણે બેંગલોર, ભારત ખાતે આવેલા ઈન્ડીયન ઈન્સ્ટીટ્યુટ ઓફ સાયન્સમાંથી પીએચડી ડીગ્રી પ્રાપ્ત કરી છે, ચેન્નાઈ, ભારત ખાતે આવેલી કોલેજ ઓફ એન્જિનીયરીંગમાંથી બેચલર્સ ડીગ્રી પ્રાપ્ત કરી છે અને ન્યુ જર્સી, યુએસએ ખાતે આવેલી રૂટગર્સ યુનિવર્સિટીમાંથી માસ્ટર્સ ડીગ્રી પ્રાપ્ત કરી છે. ભાષા કોમ્પ્યુટિંગ અને યંત્ર દ્વારા અનુવાદના ક્ષેત્રના તેમના અગાધ અનુભવ વિશે તેઓ આપણને અહીં જણાવે છે. ભાષાઈન્ડીયાની ટીમે શ્રી એ.કુમારન સાથે લીધેલી મુલાકાતના કેટલાંક અંશો આ રહ્યાં.

 

જ્યારે યંત્ર દ્વારા અનુવાદ (MT) ક્ષેત્રે સંશોધનકાર્ય હાથ ધરવામાં આવ્યું, ત્યારે લોકોને ઘણી શંકા હતી. આજે, અમને તેનાં ફળ મળે છે. અમે માઈક્રોસોફ્ટના ‘ટ્રાન્સલેટર’નો, ‘ગુગલ ટ્રાન્સલેટ’નો અથવા યાહૂના ‘બેબલફિશ’નો ઉપયોગ કરીએ છીએ. MT અને ભાષા કોમ્પ્યુટિંગ ક્ષેત્રે આપને બહોળો અનુભવ છે, શું આપ કૃપયા અમને યંત્ર થકી અનુવાદ-મશીન ટ્રાન્સલેશન-નો ઇતિહાસ ટૂંકમાં જણાવી શકશો? 

 

અનુવાદના ‘યાંત્રિકરણ’ની પ્રક્રિયા વિશેના વિચારની શોધખોળ કરીએ, તો 17મી સદી સુધી પગેરું મળી શકે, પણ વાસ્તવિક અને વ્યાવહારિક શક્યતાઓ 20મી સદીમાં જ ઊભી થઈ હતી. પહેલાંની પધ્ધતિઓમાં મોટાં, દ્વિભાષી શબ્દકોષો હતાં, જેમાં મૂળ ભાષા અને અન્ય ભાષાના તેના સમન્વય શબ્દોનાં એક અથવા વધારે અર્થો મોજૂદ હતાં. કોઈ એક સંદર્ભ માટે જે શબ્દ મળી આવે, તેનો સાચો અર્થ, શબ્દ કેવી રીતે લેવો, તે અંગે કેટલાંક નિયમો હતાં.

 

MT ના વિકાસ માટે સરકાર તેમજ અંગત આર્થિક સહાય કરનારાં ઘણાં હતાં કારણકે સૌને લાગ્યું કે આ એક મોટી માનવસેવા રહેશે. પરંતુ સંશોધનનો સમય ઘણો લાંબો હોવાથી તેઓ નિરાશ થઈ ગયા. 1960 ની શરૂઆતમાં, તેમને લાગ્યું કે “યંત્ર થકી ઉપયોગી અનુવાદની, તાત્કાલિક કે નજીકના ભવિષ્યમાં કોઈ આશા નથી જણાતી કારણકે માનવી દ્વારા કરવામાં આવેલા અનુવાદની સરખામણીએ, તે અત્યંત ધીમું જણાયું, તેમાં ઘણી ભૂલો દેખાઈ અને તે બેગણું ખર્ચાળ પણ લાગ્યું.” આથી MT નો વિકાસ ધીમો પડી ગયો.

 

તેમ છતાં, કેનેડા, ફ્રાન્સ અને જર્મની જેવાં દેશોમાં સંશોધન ચાલુ રહ્યું. 1970 માં, આધુનિક MT કહી શકાય તેવું પહેલું મોડેલ (સિસ્ટ્રાન સિસ્ટમ) અસ્તિત્વમાં આવ્યું. 1980 માં, અનેક વિવિધ MT પધ્ધતિના પ્રકારો અને તે પણ વિવિધ દેશોમાંથી બહાર પડવા માંડ્યા. કોમ્પ્યુટરો અને લખવા માટેનાં ટેક્સ્ટ-પ્રોસેસીંગ સોફ્ટવેર ઉપલબ્ધ થવા માંડ્યા અને તેથી પ્રમાણમાં સસ્તી MT સિસ્ટમ્સ માટેનું બજાર ઊભું થયું. અહીં આપણે એક મુદ્દો નોંધવો જોઈશે કે મોટાં ભાગનાં આ મોડેલો ‘નિયમ પ્રમાણે’ કામ કરતાં હતાં.

 

છેલ્લા દોઢ દાયકાથી, MT સંશોધનકાર્યમાં ઘણાં નવીન અભિગમો અપનાવવામાં આવ્યાં છે. આ અભિગમો એવાં છે કે જ્યારે યોગ્ય રીતનો તાલીમી ડેટા પૂરો પાડવામાં આવે ત્યારે વિશેષ કાર્યો વિશે આપમેળે જ શીખી શકાય. આ પધ્ધતિઓને સામાન્યપણે સ્ટેટિસ્ટિકલ લર્નીગ અથવા મશીન લર્નીંગ આલ્ગોરિધમ કહેવાય છે. 

નવા અભિગમોનું વિશિષ્ટ લક્ષણ એ હતું કે લખાણના પૃથક્કરણમાં શબ્દકોશમાંથી લીધેલા શબ્દોને લગતા કે શબ્દોના અર્થના કોઈ નિયમો લાગુ નહતા પડતા; આ નવા અભિગમો પહેલાં કરતાં જુદા હતા, કારણ કે જૂની પધ્ધતિઓમાં ઘણાં બધાં લખાણોના સંગ્રહોમાંથી લીધેલા શબ્દો માટે ‘નિયમ પ્રમાણે જ’ કામ કરવું પડતું હતું. 

MT ક્ષેત્રે થયેલા પ્રયોગોને આધારે કોમ્પ્યુટરની મદદ લઈને થતાં અનુવાદ, કોમ્પ્યુટર એઈડેડ ટ્રાન્સલેશન (CAT)ના સાધનો અસ્તિત્વમાં આવ્યાં. 1990ના અંત સુધી આ વલણ રહ્યું. તે પછી ઇતિહાસ સર્જાયો. હવે, ઓનલાઈન નેટવર્ક સેવાઓમાં MT ઉપલબ્ધ હોવાને કારણે ઓનલાઈન યુઝર્સ તેનો ઉપયોગ માણવા લાગ્યાં. માઈક્રોસોફ્ટ ટ્રાન્સલેટર આનું ઉદાહરણ છે. અનુવાદ જેમનો વ્યવસાય હતો, તે લોકો CAT સાધનો વાપરતા થયા કે જેથી તેમની કાર્યક્ષમતા અને ચોકસાઈમાં વધારો થાય.

 

મહેરબાની કરીને શું તમે અમને ‘નિયમ પ્રમાણે’ના અભિગમ વિશે અને ‘સ્ટેટિસ્ટિકલ લર્નીંગ’ વિશે થોડું વધુ જણાવી શકશો?

 

‘નિયમ પ્રમાણે’ કાર્ય કરવાના અભિગમમાં, જેમ તમે શાળામાં વાક્યોને વ્યાકરણ પ્રમાણે રચતા શીખો છો, તે જ રીતે દરેક વાક્ય માટે, સોફ્ટવેર, તેને અપાયેલા દસ્તાવેજના વ્યાકરણનો અર્થ બેસાડવાનો પ્રયત્ન કરે છે. પછી આપવામાં આવેલી ઈન્પુટ ભાષાના વ્યાકરણના મોડેલને, જેમાં અનુવાદ કરવાનો છે, તે આઉટપુટ ભાષા સાથે ‘મેપ’ કરીને વિગતવાર ગોઠવવામાં આવે છે.

 

‘સ્ટેટિસ્ટિકલ લર્નીંગ’ના અભિગમમાં, MT એન્જિનને તૈયાર કરવામાં આવ્યું હોય છે અને તેમાં મોજૂદ લખાણનો અને તેના અનુવાદનો મોટો સંગ્રહ હોય છે, જેને “દ્વિભાષી લખાણનો મોટો સંગ્રહ” કહેવાય છે. MT એન્જિન આ વિશાળ જત્થાના ડેટાને આધારે આંકડાશાસ્ત્ર થકી, તેને અનુરૂપ સ્ટેટિસ્ટિકલ કોઠા તૈયાર કરે છે. આ સ્ટેટિસ્ટિકલ માહિતી દ્વારા યોગ્ય પસંદગી નક્કી થાય છે, અને તે પસંદગી, એ આધારે નક્કી થાય છે કે એક ભાષાના કોઈ ચોક્કસ શબ્દ, શબ્દસમૂહ કે વાક્યની સંભાવના, બીજી ભાષામાં, કે જેમાં અનુવાદ થઈ રહ્યો છે, તેમાંના ચોક્કસ શબ્દ, શબ્દસમૂહ કે વાક્ય સાથે કેટલી સાચી ઠરે છે.   

 

મહેરબાની કરીને નોંધી લેજો કે આ પધ્ધતિ કોઈ એક ખાસ ભાષા માટે નથી હોતી. તે કોઈ પણ ભાષા માટે લાગુ પાડી શ

કાય છે. જોકે, MT એન્જિનમાંથી ગુણવત્તા ધરાવતું આઉટપુટ મળે, તે માટે જરૂરી છે કે તે ભાષાના લખાણનો પણ મોટો જથ્થો સંગ્રહ કરવામાં આવ્યો હોય.

 

અમે સાંભળ્યું કે વાંચ્યુ છે કે વિવિધ કંપનીઓ તેમજ સંસ્થાઓ દ્વારા ભારતીય ભાષાઓ માટે પણ MT માટેના ઉકેલો વિકસાવવામાં આવી રહ્યા છે. પણ, હજી સુધી અમે કોઈ સફળ મોડેલ જોયા નથી. તો આ ક્યારે શક્ય બનશે? અમારે કેટલી રાહ જોવી પડશે કે જેથી યુરોપીયન ભાષાઓ તેમજ અરેબિક ભાષામાં શક્ય છે, તેવા ‘થોડાં-ઘણાં-બરોબર’ એવા MT માટેના ઉકેલો અમને મળી શકે?

 

હું આ માટેનો સમય નક્કી ન કહી શકું. આ ક્ષેત્રે સંશોધન થઈ રહ્યું છે. તેમ છતાં, હંં એમ કહી શકું કે આજથી પાંચ વર્ષ પછી આપણને તેનું આઉટપુટ દેખાશે. અને તે પણ, જરૂરી એવો, લખાણનો કેટલો મોટો સંગ્રહ ઉપલબ્ધ છે, તેના પર આધારિત છે. સફળતાપૂર્વક સ્ટેટિસ્ટિકલ MT ઉકેલ માટે લખાણનો મોટો સંગ્રહ ઉપલબ્ધ હોવો જરૂરી છે, ભારતીય ભાષાઓમાં આપણી પાસે કોમ્પ્યુટરમાં ઉપલબ્ધ હોય એવું ઘણું વધારે લખાણ નથી. જો આપણે નેટ ઉપર ઉપલબ્ધ હોય તે બધું, તેમજ અન્ય ડિવાઈસો પર હોય, તે બધો જ ડિજીટલ ડેટા એકઠો કરીએ, તો પણ આપણી જરૂરીયાત માટે તે પૂરતો નહીં થાય. 

 

બીજો એક મુદ્દો એ છે કે આપણી કેટલીક ભારતીય ભાષાઓ, ખાસ કરીને દક્ષિણ ભારતીય ભાષાઓ એકબીજાથી ખૂબ જોડાયેલી છે. હવે આવા કિસ્સાઓમાં, અન્ય ભાષાઓ કરતાં તેમના લખાણનો સંગ્રહ ખૂબ વધારે જોઈએ. હકીકતમાં, લખાણનો યોગ્ય સંગ્રહ ન હોવો, ભારતીય ભાષાઓમાં કોમ્પુટિંગના પ્રયત્નોમાં, એ ઘણી ભાષાઓ માટે મોટામાં મોટો અવરોધ છે.

 

શું તમે અમને ભાષા કોમ્પ્યુટિંગમાં લખાણના સંગ્રહની, ખાસ કરીને યંત્ર થકી અનુવાદ ક્ષેત્રે શું ભૂમિકા છે, તે વિશે જણાવશો?

 

લખાણના, મુખ્યત્વે ત્રણ પ્રકારના સંગ્રહો હોય છે. પહેલાં આપણે મોનોલિન્ગ્વલ કોર્પોરા, એટલે કે એકભાષી સંગ્રહ વિશે વાત કરીએ. લખાણનો એકભાષી સંગ્રહ એટલે જેમકે સામાન્ય ભાષામાં કોઈ અમુક સ્ત્રોતમાંનું લખાણ, જે જાણીતા પ્રકારે, મીડીયામાંથી, છાપાં, ટેલીવીઝન વગેરેમાંથી ઉપલબ્ધ હોય છે. કોમ્પ્યુટેશનલ લિન્ગ્વિસ્ટીક કાર્યો માટે આવો, એકભાષી લખાણનો મોટો સંગ્રહ અત્યંત ઉપયોગી હોય છે. જેમકે જુદા જુદા નામનો થયેલો સંગ્રહ, જેમાં વ્યક્તિનાં નામ, સામાન્ય નામો, સ્થળો, તારીખો, સંસ્થાઓ વગેરેનો સમાવેશ હોય છે, તેવો સંગ્રહ ‘નેમ્ડ એન્ટિટી આઈડેન્ટીફીકેશન ટાસ્ક’ કે જેમાં તે નામ અસ્તિત્વ ધરાવે છે કે નહીં, તે કાર્ય માટે તેમજ ‘ઈન્ફોર્મેશન એક્સ્ટ્રેશન ટાસ્ક’ કે જેમાં માહિતીને કાઢવાના કાર્યમાં આ સંગ્રહ ખૂબ મહત્ત્વનો બની રહે છે.

પછી આવે છે, લખાણના બહુભાષી સંગ્રહો, ‘મલ્ટિલિન્ગ્વલ કોર્પોરા’, એટલે ઘણી બધી જાતના સંગ્રહો, સમાંતર, તુલનાત્મક, વગેરે. ‘પેરેલલ’ એટલે કે સમાંતર લખાણ સંગ્રહમાં મોટાભાગે જુદી જુદી ભાષામાં એકજ વાક્યનો સંગ્રહ થયેલો હોય. યંત્ર થકી અનુવાદ વિકસાવવા માટે આવા સંગ્રહો ઉપયોગ માટે તૈયાર હોય છે. તુલનાત્મક સંગ્રહો એટલે કે જેમકે કોઈ લેખનો વિશય એક હોય, પરંતુ તેમાંનું લખાણ જુદી જુદી ભાષાઓમાં જુદી જુદી રીતે અનુવાદિત થયેલું હોય. યંત્ર થકી અનુવાદની પધ્ધતિઓ – MT સિસ્ટમસ માટે, લખાણના તુલનાત્મક સંગ્રહો સફળતાપૂર્વક કામમાં આવી રહ્યાં છે.

હવે આપણે નોંધપૂર્વક થયેલાં લખાણના સંગ્રહો વિશે જોઈએ. ભાષાકીય કોમ્પ્યુટિંગ સંશોધનકાર્યમાં નોંધપૂર્વક થયેલાં લખાણના સંગ્રહોની, વિવેચનરૂપે બહુ જરૂર હોય છે. આ નોંધો, જે કાર્ય હાથ ધરવામાં આવ્યું હોય, તેના પર આધાર રાખે છે.  ઉદાહરણ તરીકે, પાર્ટ ઓફ સ્પીચ (POS), વાચા દ્વારા ઓળખવિધિ માટે ઘણી બધી નોંધો જોઈતી હોય છે કે જેથી લખાણના સંગ્રહમાંના દરેક શબ્દને ‘ટેગ’ કરી શકાય, પણ ‘નેમ્ડ એન્ટીટી રેકગ્નીશન’ (NER) માટે લખાણના સંગ્રહમાં વિશેષરૂપે નોંધાતી નોંધોની જરૂર પડે છે.

 

ભારતીય ભાષાઓમાં લખાણના વિશાળ જથ્થાને બનાવવાની દિશામાં કયા પ્રયત્નો થઈ રહ્યાં છે? એક સરસ પ્રકારના MT ના ઉકેલ માટે આપણને આવો વિશાળ જથ્થો ક્યારે મળશે?

 

ભારતમાં, સેન્ટ્રલ ઈન્સ્ટીટ્યુટ ઓફ ઈન્ડીયન લેન્ગ્વેજીસ (CIIL)એ ભેગો કરેલો મોટા ભાગની ભારતીય ભાષાઓ માટેનો લખાણનો સંગ્રહ મળી શકે છે. તેમ છતાં પણ આ સંગ્રહ હજી એક રીતે ઓછો છે (લગભગ ભાષાદીઠ 3 થી 8 મી. શબ્દો), જે મહદંશે એકભાષી સંગ્રહ છે, જે બહુભાષાઓમાં ઉપલબ્ધ છે, પણ તેમાં કોઈ પ્રકારની નોંધો નથી. આ સંગ્રહો ડેટા સર્જન માટે બીજ તો તૈયાર કરે છે, પણ આ સંગ્રહનું કદ અને ગુણવત્તા વધે, તે અત્યંત મહત્ત્વનું છે કે જેથી ભારતીય ભાષાઓમાં ભાષાકીય મોમ્પ્યુટિંગનું સંશોધનકાર્ય ચાલુ રહે. 

 

તાજેતરમાં, લિન્ગ્વિસ્ટીક ડેટા કોનસોરટીયમ ફોર ઈન્ડીયન લેન્ગ્વેજીસ (LDC-IL) ની ભારત સરકાર હેઠળ, હ્યુમન રિસોર્સ એન્ડ ડેવેલપમન્ટના પ્રધાનમંડળ દ્વારા શરૂઆત કરવામાં આવી છે. તેમને દરેક ભારતીય ભાષાઓમાં એક સર્વસામાન્ય પ્રકારના સંગ્રહની દેખરેખ રાખવાની હોય છે. કેટલાંક શૈક્ષણિક અને ઔદ્યોગિક ભાગીદારો એકસાથે કામ કરી રહ્યાં છે કે જેથી આ સંગ્રહો બનાવી શકાય. આપણે આશા રાખવી જોઈએ કે આપણને ભારતીય ભાષાઓમાં આવા સંગ્રહોના જથ્થાઓ મળી રહેશે.

 

જો અન્ય સાધનો પર અથવા નેટ ઉપર સચવાયેલ લખાણ વિશાળ જથ્થાને બનાવવા માટે પૂરતું ન હોય, તો આપણે આપણું લક્ષ્ય કેવી રીતે પ્રાપ્ત કરીશું?

અહીં, હું સામુદાયિક કાર્ય થકી ડેટા સર્જન ઉપર ભાર મૂકીશ. ભાષાકીય લખાણોના સર્જનની પધ્ધતિ તરીકે, વધારે લોકોના જનસમૂહનું મહત્ત્વ ઘણું વધારે છે કારણકે ઘણાં બધાં પ્રકારનાં લખાણો કંઈ ભાષાવિદ્વાનો  કે ભાષાના નિષ્ણાતો દ્વારા બનાવવામાં નથી આવતા, પરંતુ તે તે ભાષાને જન્મથી જ બોલનારા લોકો દ્વારા સરળતાથી બનાવવામાં આવે છે. 

 

ભારતીય સમાજને MT કેવી રીતે સમર્થ બનાવશે?

 

ઘણાં દાયકાઓથી, કોમ્પ્યુટરથી વાપરવાના સાધનો અંગ્રેજી જાણતા હોય, તે લોકો માટે બનાવવામાં આવ્યા છે. પરંતુ, કમનસીબ હકીકત એ છે કે દુનિયાના મોટા ભાગના લોકો અંગ્રેજી જાણતા હોતા નથી. તેથી તેઓ કોમ્પ્યુટરના ઉપયોગથી મળતા લાભોથી વંચિત છે. આ માટે નેટ ઉપર ઉપલબ્ધ વિષયો તમે જોઈ શકો છો. વેબ ઉપર ઉપલબ્ધ માહિતીમાંની મોટાભાગની અંગ્રેજી સિવાયની છે. વસ્તી વિષયક આધાર આ સામગ્રી પરથી જાણવા મળે છે કે પ્રાધાન્ય ધરાવતી આ બહુભાષી યુઝર લોકસંખ્યાને કારણે તેમને આધાર આપે તેવી ટેકનોલોજી વિકસાવવી જ જોઈએ. વિશાળ જનસમુદાયને ઝડપથી સહાય કરવા માટે, ભાષાકીય કોમ્પ્યુટિંગ સંશોધન પર તટસ્થપણે કાર્ય કરવાની તાતી જરૂર છે. ભારત જેવા દેશોમાં, જ્યાં મોટા ભાગના લોકો અંગ્રેજી જાણતાં નથી, ત્યાં આ વાત વિશેષ પડકારરૂપ બની જાય છે અને તેથી પ્રાદેશિક ભાષામાં સાધનો અને ટેકનોલોજી વધારે અગત્યના બની જાય છે કે જેથી આમ જનતા માટે આ ડિજીટલ વિભાજન, વિભાજન ન રહે. 

 

શું તમે અમને તમારો માઈક્રોસોફ્ટ રિસર્ચ ઈન્ડીયા સાથેનો અનુભવ જણાવી શકશો?

 

અહીં માઈક્રોસોફ્ટ ખાતે અમે એક સરસ ટીમ છીએ. હું જુલાઈ 2005માં માઈક્રોસોફ્ટ રિસર્ચ ઈન્ડીયા સાથે જોડાયો હતો. મને ભાષાઓ પ્રતિ, સવિશેષ રીતે ભારતીય ભાષાઓ પ્રતિ, પસંદગીની એક છૂપી લાગણી હતી. માઈક્રોસોફ્ટ રિસર્ચ ઈન્ડીયા સાથે જોડાવાથી, મને ભારતીય ભાષાઓની સેવા કરવાની જાણે કે એક અદભુત તક જ મળી ગઈ.

 

હાલમાં, હું સમાજ સાથે મળીને ડેટા સર્જનના પ્રોજેક્ટ પર કામ કરી રહ્યો છું – જેનું નામ વિકીબેબલ WikiBABEL છે. તે સાથેસાથે બહુભાષી લખાણ છે અને ભાષાકીય રીતે સમાંતર ડેટા છે. આ પ્રોજેક્ટનો હેતુ છે કે ભાષાના યુઝરને એક સાહજિક પ્લેટફોર્મ મળી રહે કે જેથી સમાંતર ડેટા બનાવી શકાય, જે સ્ટેટેસ્ટિકલ મશીન ટ્રસન્સલેશન સિસ્ટમ્સના સંશોધનના કાર્યમાં એક અતિ વિશિષ્ટ સામગ્રી છે.


મારા સંશોધનકાર્યમાં સમાવેશ થાય છે, વિવિધ ભાષી માહિતીને પ્રાપ્ત કરવી/જરૂર પડે કાઢવી, યંત્ર દ્વારા અનુવાદ, એક લિપિમાંથી બીજી લિપિમાં ટ્રાન્સલીટરેશન અને ભાષાકીય સંશોધન માટે ડેટા સર્જનની પધ્ધતિઓ બનાવવી, જે સમાચારનો સંગ્રહ પણ હોઈ શકે, સામુદાયિક સંગ્રહો પણ હોઈ શકે અને ભાષાકીય રમતો પણ હોઈ શકે.  

 

છેલ્લો પ્રશ્ન છે, તમને ભાષાઈન્ડીયાના ભારતીય ભાષા કોમ્પ્યુટિંગની શરૂઆત કરવાના પ્રયાસ કેવાં લાગ્યાં? 

 

ભાષાઈન્ડીયા એ ભાષા કોમ્પ્યુટિંગની ઉત્સાહી વ્યક્તિ માટે એક સંદર્ભ ધરાવતું પોર્ટલ છે. અમને, વાંચકોને ભાષાઈન્ડીયા પર અતિ સમૃધ્ધ વિષયો ધરાવતું લખાણ જોઈએ છે, તેમજ પ્રવૃત્તિમાન ચર્ચાની ફોરમ જોઈએ છે. ભારતીય ભાષા કોમ્પ્યુટિંગ માટે એક પ્લેટફોર્મ બનવાની શરૂઆત કરવા બદલ હું ભાષાઈન્ડીયા પોર્ટલને અને તેનાં પ્રયાસોને શુભેચ્છા પાઠવું છું.

 

 

 

This site uses Unicode and Open Type fonts for Indic Languages. Powered by Microsoft SharePoint 2013.
©2014 Microsoft Corporation. All rights reserved.