ಮೈಕ್ರೋಸಾಫ್ಟ್ ರೀಸರ್ಚ್ ಇಂಡಿಯಾದ ಎ. ಕುಮಾರನ್ರೊಂದಿಗಿನ ಸಂದರ್ಶನ
ಭಾರತೀಯ ಭಾಷೆಗಳು ಮತ್ತು ಯಾಂತ್ರಿಕ ಭಾಷಾಂತರ
ನಮ್ಮಲ್ಲಿ ಹೆಚ್ಚಿನವರು ಮೈಕ್ರೋಸಾಫ್ಟ್ ಟ್ರಾನ್ಸ್ಲೇಟರ್ ಅಥವಾ ಗೂಗಲ್ ಟ್ರಾನ್ಸ್ಲೇಟ್ ಬಳಸುತ್ತೇವೆ. ಇನ್ನೂ ಕೆಲವರು ಯಾಹೂವಿನ ಬೇಬಲ್ಫಿಶ್ ಬಳಸುತ್ತಾರೆ. ಒಂದು ಅಪರಿಚಿತ ಭಾಷೆಯನ್ನು ಆಂಗ್ಲ ಭಾಷೆಗೆ ತರ್ಜಮೆ ಮಾಡಬೇಕೆಂದಾಗ ಇವುಗಳು ನಮಗೆ ಅತ್ಯುಪಯುಕ್ತ ಪರಿಕರಗಳಾಗಿವೆ. ನಮ್ಮ ಭಾರತೀಯ ಭಾಷೆಗೂ ಇಂತಹುದೇ ಒಂದು ಪರಿಕರವಿದ್ದರೆ ಎಂಬುದಾಗಿ ನಾವು ಅನೇಕ ಬಾರಿ ಆಲೋಚಿಸಿದ್ದುಂಟು. 22ಕ್ಕಿಂತಲೂ ಹೆಚ್ಚಿನ ಭಾಷೆಗಳಿರುವಂತ ನಮ್ಮ ದೇಶಕ್ಕೆ ಇದು ಅತ್ಯುಪಯುಕ್ತವಾಗುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಎರಡು ಮಾತಿಲ್ಲ. ಆದರೆ ಈ ಕನಸು ಯಾವಾಗ ನನಸಾಗುತ್ತದೆ?
ಭ್ರಮನಿರಸನರಾಗಬೇಕಿಲ್ಲ! ಈ ಕುರಿತಂತೆ ತುರುಸಿನ ಕಾರ್ಯ ಆರಂಭಿಸಿರುವ ಮಂದಿ ಭಾರತೀಯ ಭಾಷೆಗಳಿಗಾಗಿ ಒಂದು ಯಶಸ್ವೀ ಯಾಂತ್ರಿಕ ಭಾಷಾಂತರದ ಮಾದರಿಯ ಆವಿಷ್ಕಾದಲ್ಲಿ ತೊಡಗಿದ್ದಾರೆ. ಇಂತಹ ಕಾರ್ಯದಲ್ಲಿ ತೊಡಗಿರುವ ವ್ಯಕ್ತಿಯೊಬ್ಬರನ್ನು ಪರಿಚಯಿಸಲು ಭಾಷಾ ಇಂಡಿಯಾ ಹರ್ಷಿಸುತ್ತದೆ. ಇವರು ಮೈಕ್ರೋಸಾಫ್ಟ್ ರೀಸರ್ಚ್ ಇಂಡಿಯಾದ ಎ. ಕುಮಾರನ್.
ಕುಮಾರನ್ ಅವರು ಪ್ರಸಕ್ತ ಬಹುಭಾಷಾ ಸಿಸ್ಟಂಗಳ ಸಂಶೋಧನಾ ತಂಡದ ನೇತೃತ್ವ ವಹಿಸಿದ್ದಾರೆ. ಅವರು ಬೆಂಗಳೂರಿನ ಇಂಡಿಯನ್ ಇನ್ಸ್ಸ್ಟಿಟ್ಯೂಟ್ ಆಫ್ ಸಾಯನ್ಸ್ನಿಂದ ಪಿಎಚ್ಡಿ ಪದವಿ, ಚೆನ್ನೈನ ಇಂಜಿನಿಯರಿಂಗ್ ಕಾಲೇಜಿನಿಂದ ಪದವಿ, ಅಮೆರಿಕಾ ನ್ಯೂಜೆರ್ಸಿಯ ರೂಟ್ಗೇರ್ಸ್ ವಿಶ್ವವಿದ್ಯಾನಿಲಯದಿಂದ ಸ್ನಾತಕೋತ್ತರ ಪದವಿ ಪಡೆದಿದ್ದಾರೆ. ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ ಮತ್ತು ಮೆಶಿನ್ ಟ್ರಾನ್ಸ್ಲೇಶನ್ ಕುರಿತ ತಮ್ಮ ಅಗಾಧ ಅನುಭವವನ್ನು ಭಾಷಾ ಇಂಡಿಯಾ ತಂಡದೊಂದಿಗೆ ಅವರು ಹಂಚಿಕೊಂಡಿದ್ದು, ಅದರ ಆಯ್ದ ಭಾಗ ಇಲ್ಲಿದೆ.
ಯಂತ್ರ ಭಾಷಾಂತರ(ಎಂಟಿ) ಡೊಮೇನ್ ಕುರಿತಂತೆ ಸಂಶೋಧನೆ ಆರಂಭಗೊಂಡಾಗ ಇದರ ಯಶಸ್ಸಿನ ಕುರಿತು ಜನತೆಯಲ್ಲಿ ಸಂಶಯವಿತ್ತು. ಆದರೆ, ಇಂದು ನಾವದರ ಫಲಗಳನ್ನು ಕಾಣುತ್ತಿದ್ದೇವೆ. ನಾವು ಮೈಕ್ರೋಸಾಫ್ಟ್ ಟ್ರಾನ್ಸ್ಲೇಟರ್, ಗೂಗಲ್ ಟ್ರಾನ್ಸ್ಲೇಟ್ ಅಥವಾ ಯಾಹೂವಿನ ಬೇಬ್ಲ್ಫಿಶ್ ಬಳಸುತ್ತೇವೆ. ಎಂಟಿ ಮತ್ತು ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ ಡೊಮೇನ್ನಲ್ಲಿ ಅನುಭವ ಹೊಂದಿರು ತಾವು, ಯಂತ್ರ ಭಾಷಾಂತರ(ಎಂಟಿ)ದ ಕುರಿತು ನಮಗೆ ಸಂಕ್ಷಿಪ್ತವಾಗಿ ತಿಳಿಸುವಿರಾ?
ನಾವು ಯಾಂತ್ರಿಕ ಭಾಷಾಂತರದ ಮೂಲವನ್ನು ಕೆದಕುತ್ತಾ ಹೋದರೆ ಈ ಒಂದು ಚಿಂತನೆಯ ಕುರಿತ ಬೇರು ನಮ್ಮನ್ನು 17ನೇ ಶತಮಾನಕ್ಕೆ ಕೊಂಡೊಯುತ್ತದೆ. ಆದರೆ ಈ ಕುರಿತ ವಾಸ್ತವಿಕ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಸಾಧ್ಯತೆಗಳು 20ನೇ ಶತಮಾನದಲ್ಲಿ ಕಂಡು ಬಂದವು. ಆರಂಭಿಕ ಕಾಲದ ಕಂಪ್ಯೂಟರ್ ಸಿಸ್ಟಂಗಳು ಬೃಹತ್ ದ್ವಿಭಾಷಾ ನಿಘಂಟುಗಳನ್ನು ಹೊಂದಿದ್ದವು. ಇಲ್ಲಿ ಮೂಲಭಾಷೆಯು ಉದ್ದೇಶಿತ ಶಬ್ದಗಳ ಪ್ರವೇಶಕ್ಕೆ ಒಂದು ಅಥವಾ ಹೆಚ್ಚಿನ ಸಮಾನ ಪದಗಳಿಗೆ ಅವಕಾಶ ನೀಡಿದ್ದು, ಸರಿಯಾದ ಪದಗಳ ಅನುಕ್ರಮದ ಪ್ರಸ್ತುತಿಗೆ ಕೆಲವು ನಿಯಮವನ್ನು ಹಾಕಿತ್ತು.
ಎಂಟಿ ಅಭಿವೃದ್ಧಿಗೆ ಸರಕಾರ ಹಾಗೂ ಖಾಸಗಿ ವಲಯಗಳಿಂದ ಹಲವಾರು ಪ್ರಾಯೋಜಕರು ಇದ್ದಾರೆ. ಇದು ಮನುಕುಲಕ್ಕೆ ಅತ್ಯಂತದೊಡ್ಡ ಸಹಾಯವಾಗಲಿರುವ ಕಾರಣ ಈ ಮಟ್ಟದ ಬೆಂಬಲಕ್ಕೆ ಕಾರಣ. ಆದರೆ ಸುದೀರ್ಘ ವರ್ಷಗಳ ಸಂಶೋಧನೆ ಅವರಿಗೆ ನಿರಾಸೆ ಉಂಟು ಮಾಡಿದೆ. 60ರ ದಶಕದ ಆರಂಭದಲ್ಲಿ "ಯಂತ್ರ ಭಾಷಾಂತರದ ಶೋಧನೆಯು ನಿಧಾನಗತಿಯ, ನಿಖರತೆಯ ಕೊರತೆ ಹಾಗೂ ಮಾನವ ಭಾಷಾಂತರದಿಂದ ದುಪ್ಪಟ್ಟು ದುಬಾರಿಯಾದ ಕಾರಣ ಅದಕ್ಕೆ ತಕ್ಷಣದ ಅಥವಾ ನಿರೀಕ್ಷಿತ ಅಭ್ಯುದಯವಿಲ್ಲ" ಎಂಬುದಾಗಿ ಕಂಡುಕೊಳ್ಳಲಾಯಿತು. ಇದು ಎಂಟಿಯ ಅಭಿವೃದ್ಧಿಯ ನಿಧಾನಗತಿಗೆ ಕಾರಣವಾಯಿತು.
ಅದಾಗ್ಯೂ, ಕೆನಡಾ, ಫ್ರಾನ್ಸ್, ಜರ್ಮನಿ ಸೇರಿದಂತೆ ಹಲವು ರಾಷ್ಟ್ರಗಳಲ್ಲಿ ಸಂಶೋಧನೆ ಮುಂದುವರಿದೇ ಇತ್ತು. 1970ರಲ್ಲಿ ಆಧುನಿಕ ಎಂಟಿಯ ಪ್ರಥಮ ಮಾದರಿ(ಸಿಸ್ಟ್ರಾನ್ ಸಿಸ್ಟಂ) ಅಸ್ತಿತ್ವಕ್ಕೆ ಬಂದಿತು. 1980ರ ದಶಕವು ವಿವಿಧ ರಾಷ್ಟ್ರಗಳಿಂದ ವಿವಿಧ ಎಂಟಿ ಸಿಸ್ಟಂ ಮಾದರಿಗಳ ಅಭ್ಯುದಯಕ್ಕೆ ಸಾಕ್ಷಿಯಾಯಿತು. ಕಂಪ್ಯೂಟರ್ಗಳ ಮತ್ತು ಪಠ್ಯ-ಪ್ರಕ್ರಿಯಾ
ಸಾಫ್ಟ್ವೇರ್ ಲಭ್ಯತೆಯು ಅಗ್ಗದ ಎಂಟಿ ಸಿಸ್ಟಂಗಳಿಗೆ ಮಾರುಕಟ್ಟೆ ಸೃಷ್ಟಿಸಿತು. ಇವುಗಳಲ್ಲಿ ಹೆಚ್ಚಿನವುಗಳು ನಿಯಮ ಆಧಾರಿತವಾದವುಗಳು ಎಂಬುದು ಗಮನೀಯ ಅಂಶ.
ಇತ್ತೀಚಿನ ಒಂದೂವರೆ ದಶಕಗಳಲ್ಲಿ ಎಂಟಿ ಸಂಶೋಧಕರು ಹೊಸ ರೀತಿಯನ್ನು ಪರಿಚಯಿಸಿದ್ದಾರೆ. ಇದರಂತೆ, ಸೂಕ್ತವಾದ ಹಸ್ತಚಿತ್ರಿತ ತರಬೇತಿ ಮಾಹಿತಿಯನ್ನು ಒದಗಿಸಿದಾಗ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳನ್ನು ಸ್ವಯಂ ಆಗಿ ಕಲಿಯಬಹುದಾಗಿದೆ. ಈ ವಿಧಾನಗಳನ್ನು ವಿಸ್ತೃತವಾಗಿ ಸಂಖ್ಯಾಗ್ರಹಣ ಕಲಿಕೆ ಅಥವಾ ಗಣಕಯಂತ್ರದ ಕ್ರಮಾವಳಿಗಳೆನ್ನಲಾಗಿದೆ. ಹೊಸ ಮಾದರಿಯಲ್ಲಿ ಪಠ್ಯಗಳು ಅಥವಾ ಪದಗಳ ಸಮಾನತೆಯ ವಿಶ್ಲೇಷಣೆಗೆ ಸಿಂಟಾಕ್ಟಿಕ್ ಅಥವಾ ಸೆಮಂಟಿಕ್ ನಿಯಮಗಳಿಲ್ಲದಿರುವ ವಿಭಿನ್ನ ಲಕ್ಷಣವಾಗಿದೆ. ಇದು ಈ ಹಿಂದಿನ ನಿಯಮಾಧಾರಿತ ವಿಧಾನಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿದೆ.
ಎಂಟಿ ಡೊಮೇನ್ನಲ್ಲಿ ಮಾಡಲಾಗಿರುವ ಪ್ರಯೋಗಗಳ ಆಧಾರದಲ್ಲಿಲೇ ಕಂಪ್ಯೂಟರ್ ಸಹಾಯದ ಭಾಷಾಂತರ(ಸಿಎಟಿ) ಪರಿಕರಗಳು ಜಾರಿಗೆ ಬಂದಿವೆ. ಈ ಪ್ರವೃತ್ತಿ 90ರ ದಶಕದ ಅಂತ್ಯದ ತನಕ ಮುಂದುವರಿಯಿತು. ಮಿಕ್ಕಿದ್ದು ಇತಿಹಾಸ. ಇದೀಗ ಆನ್ಲೈನ್ ಬಳಕೆದಾರರು ಆನ್ಲೈನ್ ಜಾಲ ಸೇವೆಗಳಿಂದ ಲಭ್ಯವಿರುವ ಎಂಟಿಯನ್ನು ಅನುಭವಿಸುತ್ತಿದ್ದಾರೆ. ಇದಕ್ಕೊಂದು ಉದಾಹರಣೆ ಮೈಕ್ರೋಸಾಫ್ಟ್ ಅನುವಾದಕ. ವೃತ್ತಿಪರ ಅನುವಾದಕರು ತಮ್ಮ ಉತ್ಪಾದಕೆ ಹಾಗೂ ನಿಖರತೆಯನ್ನು ಹೆಚ್ಚಿಸಿಕೊಳ್ಳಲು ಕ್ಯಾಟ್(ಸಿಎಟಿ) ಪರಿಕರಗಳನ್ನು ಬಳಸಲು ಆರಂಭಿಸಿದ್ದಾರೆ.
'ನಿಯಮಾಧಾರಿತ' ವಿಧಾನ’’ ಹಾಗೂ 'ಸಂಖ್ಯಾಗ್ರಹಣ' ವಿಧಾನದ ಕುರಿತಂತೆ ದಯವಿಟ್ಟು ಇನ್ನಷ್ಟು ವಿವರಿಸುತ್ತೀರಾ?
ನೀವು ಶಾಲೆಯಲ್ಲಿ ವ್ಯಾಕರಣ ಭರಿತವಾಗಿ ವಾಕ್ಯರಚನಾ ಚಿತ್ರಣವನ್ನು ಕಲಿತಿರಬಹುದು, ಇನ್ಪುಟ್ ದಾಖಲೆಯ ವ್ಯಾಕರಣದ ಅರ್ಥವಿವರಿಸಿ ಪ್ರತೀ ವಾಕ್ಯವನ್ನೂ ವ್ಯಾಕರಣ ಮಾದರಿಯಲ್ಲಿ ರಚಿಸಲು ನಿಯಮಾಧಾರಿತ ಮಾದರಿ ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ಇನ್ಪುಟ್ ಭಾಷೆಯ ವ್ಯಾಕರಣ ಮಾದರಿಯು ಬಳಿಕ ಔಟ್ಪುಟ್ ಭಾಷೆಯ ವ್ಯಾಕರಣ ಮಾದರಿಗೆ ಬಳಿಕ ಮ್ಯಾಪ್ ಮಾಡುತ್ತದೆ.
ಸಂಖ್ಯಾಗ್ರಹಣ ಮಾದರಿಯಲ್ಲಿ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವಿಷಯ ಮತ್ತು ದ್ವಿಭಾಷಾ ಪಠ್ಯ ಸಂಚಯ(ಬೈಲಿಂಗ್ವಲ್ ಟೆಕ್ಸ್ಟ್ ಕಾರ್ಪೋರಾ) ಎಂದು ಗುರುತಿಸಲಾಗಿರುವ ಅದರ ಭಾಷಾಂತರದ ಬೃಹತ್ ಗಾತ್ರದ ಮೇಲೆ ಆಧಾರಿತವಾಗಿರುವಂತೆ ಎಂಟಿ ಎಂಜಿನ್ ತರಬೇತುಗೊಂಡಿದೆ. ಸಂಖ್ಯಾಗ್ರಹಣ ಹೊಂದಿಕೆಯ ಕೋಷ್ಟಕಗಳನ್ನು ತಯಾರಿಸಲು ಎಂಟಿ ಇಂಜಿನ್ ದತ್ತಾಂಶಗಳ ಬೃಹತ್ ಗಾತ್ರವನ್ನು ಬಳಸುತ್ತದೆ. ಭಾಷೆಯೊಂದರ ಒಂದು ನಿರ್ದಿಷ್ಟ ಶಬ್ದ, ಪದಸಮುಚ್ಛಯ, ಅಥವಾ ವಾಕ್ಯವನ್ನು ಉದ್ದೇಶಿತ ಭಾಷೆಯ ಸೂಕ್ತವಾದ ಒಂದು ನಿರ್ದಿಷ್ಟ ಶಬ್ದ, ಪದಸಮುಚ್ಛಯ, ಅಥವಾ ವಾಕ್ಯವನ್ನು ಸಂಖ್ಯಾಗ್ರಹಣ ಮಾದರಿಯು ಸಂಭಾವ್ಯತೆಯ ಆಧಾರದಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ.
ಈ ಮಾದರಿಯು ಭಾಷಾ ನಿರ್ದಿಷ್ಟವಾದುದಲ್ಲ ಎಂಬುದನ್ನು ಗಮನಿಸಿ. ಇದನ್ನು ಯಾವುದೇ ಭಾಷೆಗೂ ಅನ್ವಯಿಸಬಹುದು. ಅದಾಗ್ಯೂ, ಎಂಟಿ ಇಂಜಿನ್ನಿಂದ ಶ್ರೇಷ್ಠಮಟ್ಟದ ಔಟ್ಪುಟ್ ಹೊಂದಲು ಅಂತಹುದೇ ವಿಷಯದ ಬೃಹತ್ ಗಾತ್ರದ ವಿದ್ಯುನ್ಮಾನ ಪಠ್ಯದ ಅವಶ್ಯಕತೆ ಇದೆ.
ವಿವಿಧ ಕಂಪೆನಿಗಳು ಹಾಗೂ ಸಂಸ್ಥೆಗಳಿಂದ ಭಾರತೀಯ ಭಾಷಾ ಎಂಟಿ ಸೊಲ್ಯೂಶನ್ಗಳು ಅಭಿವೃದ್ಧಿಯಾಗುತ್ತಿದೆ ಎಂಬುದಾಗಿ ನಾವು ಕೇಳಿದ್ದೇವೆ ಮತ್ತು ಓದಿದ್ದೇವೆ. ಆದರೆ, ಇದುವರೆಗೂ ಯಾವುದೇ ಯಶಸ್ವೀ ಮಾದರಿಯನ್ನು ನಾವು ಕಂಡಿಲ್ಲ. ಇದು ಯಾವಾಗ ಸಾಧ್ಯವಾಗಬಹುದು? ಯೂರೋಪ್ ಭಾಷೆಗಳು ಅಥವಾ ಅರೇಬಿಕ್ ಭಾಷೆಗಳಂತೆ ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ 'ಪರವಾಗಿಲ್ಲ' ಎಂಬಂತಹ ಫಲಿತಾಂಶವನ್ನು ಗಳಿಸಲು ನಾವು ಇನ್ನೂ ಎಷ್ಟುಕಾಲ ಕಾಯುವ ಅವಶ್ಯಕತೆ ಇದೆ?
ಇದಕ್ಕೆ ಸಮಯಮಿತಿಯನ್ನು ನಾನು ಊಹಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ. ಈ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಸಂಶೋಧನೆಗಳನ್ನು ನಡೆಸಲಾಗುತ್ತಿವೆ. ಆದರೂ, ಇನ್ನು ಐದುವರ್ಷಗಳಲ್ಲಿ ನಾವು ಫಲಿತಾಂಶವನ್ನು ಪಡೆಯುತ್ತೇವೆ ಎಂದು ಹೇಳಬಲ್ಲೆ. ಇದು ಅವಶ್ಯವಿರುವ ಸಂಚಯ(corpora)ದ ಲಭ್ಯತೆಯನ್ನು ಆಧರಿಸಿದೆ. ಒಂದು ಯಶಸ್ವೀ ಸಂಖ್ಯಾಗ್ರಹಣ ಎಂಟಿ ಸೊಲ್ಯೂಶನ್ ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಬೃಹತ್ ಕಾರ್ಪೋರಾವನ್ನು ನಾವು ಹೊಂದುವ ಅವಶ್ಯಕತೆ ಇದೆ. ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ನಾವು ಅಧಿಕ ಡಿಜಿಟಲ್ ಕಂಟೆಂಟ್ ಹೊಂದಿಲ್ಲ. ನೆಟ್ ಅಥವಾ ಡಿವೈಸ್ಗಳಲ್ಲಿ ಲಭ್ಯವಿರುವ ದತ್ತಾಂಶಗಳನ್ನು ನಾವು ಸಂಗ್ರಹಿಸಿದರೂ, ಅದು ಅವಶ್ಯಕತೆಯನ್ನು ಪೂರೈಸದು. ಇನ್ನೊಂದು ಅಂಶವೆಂದರೆ ನಮ್ಮ ಭಾರತೀಯ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಕೆಲವು, ಅದರಲ್ಲೂ ವಿಶೇಷವಾಗಿ ದಕ್ಷಿಣ ಭಾರತದ ಭಾಷೆಗಳು ಹೆಚ್ಚಾಗಿ ಒಂದಕ್ಕೊಂದು ಕೂಡಿರುವಂತದ್ದು.
ಇಂತಹ ಸಂದರ್ಭಗಳಲ್ಲಿ ಕಾರ್ಪೋರಾವು ಒಂದಕ್ಕೊಂದು ಕೂಡಿರದಂತಹ ಅಕ್ಷರಗಳ ಭಾಷೆಗಳಿಗಿಂತ ದೊಡ್ಡದಾಗಿರಬೇಕು. ಹೆಚ್ಚಿನ ಭಾಷೆಗಳಲ್ಲಿ ಸೂಕ್ತವಾದ ಮೂಲಾಂಶದ ಕೊರತೆಯು ಭಾರತೀಯ ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ಗೆ ಬಹುದೊಡ್ಡ ಅಡಚಣೆಯಾಗಿದೆ.
ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ನಲ್ಲಿ, ಅದರಲ್ಲೂ ವಿಶೇಷವಾಗಿ ಎಂಟಿ ಡೊಮೇನ್ನಲ್ಲಿ ಕಾರ್ಪೋರಾದ ಪಾತ್ರವನ್ನು ವಿವರಿಸುತ್ತೀರಾ?
ಪ್ರಮುಖವಾಗಿ ಮೂರು ನಮೂನೆಯ ಕಾರ್ಪೋರಾಗಳಿವೆ. ಮೊದಲಿಗೆ ಏಕಭಾಷಾ ಕಾರ್ಪೋರಾವನ್ನು ನೋಡೋಣ. ಸಹಜ ಭಾಷಾ ಪಠ್ಯದ ಮೂಟೆಯಾದ ಪ್ರಮಾಣಿತ ಮೂಲ, ಉದಾ ಸಮೂಹ ಮಾಧ್ಯಮ, ಪತ್ರಿಕೆಗಳು, ದೂರದರ್ಶನ ಇತ್ಯಾದಿ ಗಳಿಗೆ ಏಕಭಾಷಾ ಕಾರ್ಪೋರಾವನ್ನು ಅವಶ್ಯವಾಗಿ ಉಲ್ಲೇಖಿಸಲಾಗುತ್ತದೆ. ಭಾರೀ ಪ್ರಮಾಣದಲ್ಲಿ ಏಕಭಾಷಾ ಕಾರ್ಪೋರಾಗಳ ಸಂಗ್ರಹವು ಕಂಪ್ಯೂಟರ್ನ ಹಲವು ಭಾಷಾ ಕಾರ್ಯಗಳಿಗೆ ಅಪರಿಮಿತವಾಗಿ ಸಹಾಯವಾಗಬಲ್ಲವು. ಉದಾ, ಹೆಸರಿನೊಂದಿಗೆ (ವೈಯಕ್ತಿಕ ಹೆಸರು, ಸಾಮಾನ್ಯ ಹೆಸರು, ಸ್ಥಳಗಳು, ದಿನಾಂಕ, ಸಂಘಟನೆಗಳು ಇತ್ಯಾದಿ) ಟಿಪ್ಪಣಿಸಿರುವ ಕಾರ್ಪೋರಾವು ಹೆಸರಿಸಲಾಗಿರುವ ಘಟಕಗಳ ಗುರುತಿಸುವಿಕೆಯ ಕಾರ್ಯಕ್ಕೆ ಮತ್ತು ಮಾಹಿತಿ ಹೊರತೆಗೆಯುವ ಕಾರ್ಯಕ್ಕೆ ಬಳಸಬಹುದಾಗಿದೆ.
ನಂತರದ್ದು ಬಹುಭಾಷಾ ಕಾರ್ಪೋರಾ. ಇದನ್ನು ಕಾರ್ಪೋರಾ-ಸಮಾನಾಂತರ, ತುಲನೆ ಮಾಡುವಂತಹ ಇತ್ಯಾದಿ, ಹಲವು ವಿಧಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ. ಬಹು ಭಾಷೆಗಳಲ್ಲಿ ಸಮಾನಾಂತರ ಕಾರ್ಪೋರಾಗಳು ಅವಶ್ಯ ವಾಕ್ಯ ಹೊಂದಾಣಿಕಾ ಸಂಚಯವಾಗಿದ್ದು, ಇಲ್ಲಿ ಬಹುಭಾಷೆಗಳಲ್ಲಿ ಪ್ರತೀ ಹೊಂದಾಣಿತ ವಾಕ್ಯ ಜೋಡಿಯು ಅದೇ ರೀತಿಯ ಶಬ್ದಾರ್ಥವನ್ನು ಹೊಂದಿರುತ್ತವೆ. ಇಂತಹ ಕಾರ್ಪೋರಾವನ್ನು ಎಂಟಿ ಸಿಸ್ಟಂಗಳ ಅಭಿವೃದ್ಧಿಗೆ ತಕ್ಷಣವೇ ಬಳಸಬಹುದಾಗಿದೆ. ತುಲನಾತ್ಮಕ ಕಾರ್ಪೋರಾಗಳನ್ನು ಬಹುಭಾಷೆಯಲ್ಲಿ ಲೇಖನ ಹೊಂದಿರುವ ಮೂಲಾಂಶ ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ. ಇಲ್ಲಿ ಲೇಖನವು ಸಾಮಾನ್ಯವಾಗಿ ಒಂದೇ ವಿಷಯದ ಮೇಲಿರುತ್ತದೆ, ಆದರೆ ವಿವಿಧ ಶಬ್ದಾರ್ಥದ ವಿಷಯವನ್ನು ಹೊಂದಿರಬಹುದು. ಎಂಟಿ ಸಿಸ್ಟಂಗಳ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ ತುಲನಾತ್ಮಕ ಕಾರ್ಪೊರಾವನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಬಳಸಿಕೊಳ್ಳಲಾಗಿದೆ.
ಈಗ ಟಿಪ್ಪಣಿಸುವ ಕಾರ್ಪೋರಾವನ್ನು ನೋಡೋಣ. ಅಗಾಧವಾದ ಟಿಪ್ಪಣಿಸುವ ಕಾರ್ಪೋರವು ಯಾವುದೇ ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ ಸಂಶೋಧನೆಯಲ್ಲಿ ಅವಶ್ಯಕವಾಗಿ ಬೇಕಾಗಿದೆ. ಟಿಪ್ಪಣಿಸುವಿಕೆಯು ಕೈಯಲ್ಲಿರುವ ಕಾರ್ಯದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. ಉದಾ, ವ್ಯಾಕರಣಾಂಶದ ಗುರುತಿಸುವಿಕೆಗೆ ಬಹಳ ಉತ್ಕೃಷ್ಟವಾದ ಟಿಪ್ಪಣಿಯ ಅಗತ್ಯವಿದ್ದು, ಇಲ್ಲಿ ಪಠ್ಯ ಸಂಚಯದ ಪ್ರತೀ ಶಬ್ದವನ್ನು ಟ್ಯಾಗ್ ಮಾಡಲಾಗಿರುತ್ತದೆ, ಅದರೆ ಹೆಸರಿಸಲಾದ ಘಟಕದ ಗುರುತಿಸುವಿಕೆಗೆ ಸಂಚಯದಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಮೂಲಾಂಶಗಳಿಗೆ ಹಸ್ತಚಾಲಿತ ಟಿಪ್ಪಣಿಯ ಅವಶ್ಯಕತೆ ಇರುತ್ತದೆ.
ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಬೃಹತ್ತಾದ ಕಾರ್ಪೋರಾ ಸೃಷ್ಟಿಗೆ ಏನೆಲ್ಲಾ ಪ್ರಯತ್ನಗಳು ನಡೆಯುತ್ತಿವೆ. ಉತ್ತಮ ಎಂಟಿ ಸೊಲ್ಯೂಶನ್ ತಯಾರಿಕೆಗೆ ನಾವು ಯಾವಾಗ ಬೃಹತ್ ಕಾರ್ಪೋರಾವನ್ನು ಪಡೆಯಬಹುದು?
ಹೆಚ್ಚಿನ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಲಭ್ಯವಿರುವ ಮೂಲಾಂಶಗಳನ್ನು ಸೆಂಟ್ರಲ್ ಇನ್ಸ್ಟಿಟ್ಯೂಟ್ ಆಫ್ ಇಂಡಿಯನ್ ಲಾಂಗ್ವೇಜಸ್( ಸಿಐಐಎಲ್) ಸಂಗ್ರಹಿಸಿದೆ. ಅದಾಗ್ಯೂ, ಇದು ತಲನಾತ್ಮಕವಾಗಿ ಸಣ್ಣ ಮಟ್ಟದ್ದಾಗಿದೆ (ಭಾಷೆಯೊಂದರ ಸರಿಸುಮಾರು 3-8ಮಿ ಶಬ್ದಗಳು) ಪ್ರಾಥಮಿಕವಾಗಿ ಬಹು ಭಾಷೆಗಳಲ್ಲಿ ಟಿಪ್ಪಣಿ ರಹಿತವಾಗಿ ಒಂದು ಏಕಭಾಷಾ ಪಠ್ಯ. ಈ ಮೂಲಾಂಶವು ದತ್ತಾಂಶ ಸೃಷ್ಟಿಗೆ ಬೀಜ ಒದಗಿಸಬಹುದು. ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಕಂಪ್ಯೂಟಿಂಗ್ ಸಂಶೋಧನೆಗೆ ಸಹಾಯವಾಗಲು ಇಂತಹ ಮೂಲಾಂಶಗಳ ಗುಣಮಟ್ಟ ಮತ್ತು ಪ್ರಮಾಣವನ್ನು ಹೆಚ್ಚಿಸುವ ಅಗತ್ಯವಿದೆ.
ಇತ್ತೀಚೆಗೆ, ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಭಾಷಾ ದತ್ತಾಂಶ ಸಹಯೋಗ(ಎಲ್ಡಿಸಿ-ಐಎಲ್)ವನ್ನು ಭಾರತ ಸರ್ಕಾರದಡಿ ಮಾನವ ಸಂಪನ್ಮೂಲ ಹಾಗೂ ಅಭಿವೃದ್ಧಿ ಸಚಿವಾಲಯವು ಆರಂಭಿಸಿದೆ. ಎಲ್ಲಾ ಭಾಷೆಗಳಲ್ಲಿ ಭಾಷಾ ಕಾರ್ಪೋರಾಗಳ ಗುಣಮಟ್ಟದ ಸಂಗ್ರಹದ ಉಸ್ತುವಾರಿ ಇದರ ಉದ್ದೇಶವಾಗಿದೆ. ಈ ಸಂಗ್ರಹಕ್ಕಾಗಿ ಹಲವಾರು ಅಕಾಡೆಮಿಕ್ ಹಾಗೂ ಇಂಡಸ್ಟ್ರಿಯಲ್ ಭಾಗೀದಾರರು ಇದಕ್ಕಾಗಿ ಒಟ್ಟಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿದ್ದಾರೆ.
ಡಿಜಿಟಲ್ ಡಿವೈಸ್ಗಳಲ್ಲಿ ಸಂಗ್ರಹವಾಗಿರುವ ಮತ್ತು ನೆಟ್ನಲ್ಲಿರುವ ವಿಷಯಗಳು ಭಾರೀ ಕಾರ್ಪೋರಾ ಸೃಷ್ಟಿಗೆ ಸಾಕಷ್ಟಿಲ್ಲವೆಂದಾದರೆ, ನಾವು ಗುರಿ ಮುಟ್ಟುವುದು ಹೇಗೆ?
ಸಮುದಾಯದ ವಿಸ್ತೃತ ಭಾಗವಹಿಸುವಿಕೆಯೊಂದಿಗೆ ದತ್ತಾಂಶದ ಸಂಗ್ರಹಕ್ಕೆ ನಾನು ಒತ್ತು ನೀಡುತ್ತೇನೆ. ಭಾಷಾ ಕಾರ್ಪೋರಾದ ಸೃಷ್ಟಿಗೆ ಜನಸಮುದಾಯ ಮೂಲವನ್ನು ಒಂದು ಕ್ರಮಾನುಸರಣೆಯಾಗಿಸುವುದನ್ನು ಎದ್ದುಗಾಣಿಸುವುದು ಪ್ರಾಮುಖ್ಯವಾಗಿದೆ. ಹೆಚ್ಚಿನ ವಿಧದ ಕಾರ್ಪೋರಾಗಳನ್ನು ಭಾಷಾ ತಜ್ಞರು ಸೃಷ್ಟಿಸುವುದಕ್ಕಿಂತ ಸುಲಭವಾಗಿ ಭಾಷೆಯನ್ನು ಪ್ರಾದೇಶಿಕವಾಗಿ ಮಾತನಾಡುವವರು ಸೃಷ್ಟಿಸಬಹುದಾಗಿದೆ.
ಭಾರತೀಯ ಸಮುದಾಯಕ್ಕೆ ಎಂಟಿಯು ಹೇಗೆ ಶಕ್ತಿವರ್ಧನೆ ಮಾಡುತ್ತದೆ?
ಹಲವು ದಶಕಗಳಕಾಲ ಕಂಪ್ಯೂಟರ್ ಡಿವೈಸ್ಗಳನ್ನೆಲ್ಲ ಇಂಗ್ಲೀಷ್ ಬಳಕೆಯ ವ್ಯಕ್ತಿಗಳಿಗಾಗಿ ಮಾತ್ರ ಮಾಡಲಾಗುತ್ತಿತ್ತು. ಆದರೆ, ದುರದೃಷ್ಟಕರ ಸಂಗತಿ ಎಂದರೆ, ವಿಶ್ವದ ಬಹುತೇಕ ಮಂದಿ ಇಂಗ್ಲೀಷ್ ಬಳಸಲಾರರು. ಹಾಗಾಗಿ ಇಂತಹ ಮಂದಿ ಕಂಪ್ಯೂಟರ್ನ ಅನುಕೂಲಗಳಿಂದ ವಂಚಿತರಾಗಿದ್ದಾರೆ. ಅಂತರಜಾಲದಲ್ಲಿ ಲಭ್ಯವಿರುವ ವಿಷಯಗಳನ್ನು ನೋಡಿ, ವೆಬ್ನಲ್ಲಿ ಲಭ್ಯವಿರುವ ಹೆಚ್ಚಿನ ಮಾಹಿತಗಳು ಇಂಗ್ಲೀಷೇತರ ಭಾಷೆಗಳಲ್ಲಿರುತ್ತವೆ. ಹಾಗಾಗಿ ಕ್ಷಿಪ್ರವಾಗಿ ಮತ್ತು ವಿಸ್ತೃತವಾಗಿ ಭಾಷೆಯ ಅಡ್ಡಿಯಿಲ್ಲದಂತಹ ಕಂಪ್ಯೂಟಿಂಗ್ ತಂತ್ರಜ್ಞಾನದ ಅವಶ್ಯಕತೆಯು ತುರ್ತಾಗಿದೆ. ಭಾರತದಂತಹ ರಾಷ್ಟ್ರಗಳಲ್ಲಿ ಜನಸಂಖ್ಯೆಯ ಬಹುಪಾಲು ಮಂದಿ ಇಂಗ್ಲೀಷ್ ಭಾಷಾ ವಿಚಾರದಲ್ಲಿ ಅನಕ್ಷರಸ್ಥರಾಗಿರುವುದು ಹೆಚ್ಚುವರಿ ಸವಾಲು. ಜನಸಾಮಾನ್ಯರೂ ಸೇರಿದಂತೆ ಡಿಜಿಟಲ್ ವಿಭಜನೆಯನ್ನು ಸರಿದೂಗಿಸಲು ಸ್ಥಳೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಪರಿಕರಗಳು ಮತ್ತು ತಂತ್ರಜ್ಞಾನಗಳು ಅತ್ಯಗತ್ಯವಾಗಿದೆ.
ಮೈಕ್ರೋಸಾಫ್ಟ್ ರೀಸರ್ಚ್ ಇಂಡಿಯಾದಲ್ಲಿ ನಿಮ್ಮ ಅನುಭವವನ್ನು ಹಂಚಿಕೊಳ್ಳುವಿರಾ?
ಮೈಕ್ರೋಸಾಫ್ಟ್ನಲ್ಲಿ ನಮ್ಮದು ಉತ್ತಮ ತಂಡವಾಗಿದೆ. ನಾನು ಜುಲೈ 2005ರಲ್ಲಿ ಮೈಕ್ರೋಸಾಫ್ಟ್ ರೀಸರ್ಚ್ಗೆ ಸೇರ್ಪಡೆಗೊಂಡೆ. ನನಗೆ ಭಾಷೆಗಳೆಡೆಗೆ, ಅದರಲ್ಲೂ ವಿಷೇಶವಾಗಿ ಭಾರತೀಯ ಭಾಷೆಗಳೆಡೆಗೆ ರಹಸ್ಯವಾದ ಒಲವಿತ್ತು. ಮೈಕ್ರೋಸಾಫ್ಟ್ ರೀಸರ್ಚ್ ಇಂಡಿಯಾದಿಂದಾಗಿ ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಸೇವೆ ಸಲ್ಲಿಸುವ ಅಮೂಲ್ಯವಾದ ಅವಕಾಶ ನನಗೆ ಒದಗಿಬಂತು.
ಪ್ರಸಕ್ತ ನಾನು ಸಮುದಾಯ ಸಹವರ್ತನೆಯ ದತ್ತಾಂಶ ಸೃಷ್ಟಿಯಾಗಿರುವ ವಿಕಿಬೇಬ್ಲ್(WikiBABEL) ನಲ್ಲಿ ತೊಡಗಿಸಿಕೊಂಡಿದ್ದೇನೆ, ಇದು ಸೂಕ್ಷ್ಮವಾಗಿ ಬಹುಭಾಷಾ ವಿಷಯವನ್ನು ಮತ್ತು ಭಾಷಾ ಸಮಾನ ದತ್ತಾಂಶವನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. ಭಾಷಾ ಬಳಕೆಯ ಸಮುದಾಯಕ್ಕೆ ಒಂದು ಒಳಅರಿವಿನ ವೇದಿಯನ್ನು ಒದಗಿಸುವುದು ಮತ್ತು ಬಳಕೆಯ ಕುರಿತು ಆಸಕ್ತಿ ಹುಟ್ಟಿಸುವುದು ಇದರ ಉದ್ದೇಶವಾಗಿದೆ. ಯಾವುದೇ ನೀಡಲಾಗಿರುವ ವಿಕಿ-ಸೈಟ್ಗೆ ಬಹುಭಾಷಾ ವಿಷಯ ತಯಾರಿಸುವುದು, ಇದರಲ್ಲಿ ಸಮಾನಾಂತರ ದತ್ತಾಂಶವು ಹುದುಗಿರಬಹುದಾಗಿದ್ದು ಇದು ಸಂಖ್ಯಾಗ್ರಹಣ ಮೆಶಿನ್ ಟ್ರಾನ್ಸ್ಲೇಶನ್ ವಿಧಾನ ಸಂಶೋಧನೆಗೆ ಒಂದು ನಿರ್ಣಾಯಕ ಸಂಪನ್ಮೂಲವಾಗಬಹುದು.
ಮಿಶ್ರ ಭಾಷಾ ಮಾಹಿತಿ ಪಡೆಯುವಿಕೆ/ಹೊರತೆಗೆಯುವಿಕೆ, ಮೆಶಿನ್ ಟ್ರಾನ್ಸ್ಲೇಶನ್, ಟ್ರಾನ್ಸ್ಲಿಟರೇಶನ್ ಹಾಗೂ ಸುದ್ದಿ ಕಾರ್ಪೋರಾದಿಂದ
ಹಿಡಿದು ಸಮುದಾಯ ಸಹವರ್ತನದ ಚೌಕಟ್ಟುಗಳು ಮತ್ತು ಭಾಷಾ ಕ್ರೀಡೆಗಳಿಂದ ಭಾಷಾ ಸಂಶೋಧನೆಗಾಗಿ ದತ್ತಾಂಶ ಸೃಷ್ಟಿಗೆ ಕ್ರಮಾನುಸರಣೆಯು ನನ್ನ ಸಂಶೋಧನಾಸಕ್ತಿಗಳಲ್ಲಿ ಸೇರಿದೆ.
ಅಂತಿಮವಾಗಿ, ಭಾಷಾ ಇಂಡಿಯಾದ ಭಾರತೀಯ ಭಾಷೆಗಳ ಕಂಪ್ಯೂಟಿಂಗ್ ಉಪಕ್ರಮಗಳ ಕುರಿತು ನಿಮಗೇನನ್ನಿಸುತ್ತದೆ.
ಯಾವುದೇ ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ ಉತ್ಸಾಹಿಗೆ ಭಾಷಾ ಇಂಡಿಯೂವು ಒಂದು ಪರಾಮರ್ಷನ ಪೋರ್ಟಲ್ ಆಗಿದೆ. ಓದುಗರಾದ ನಾವು ಹೆಚ್ಚು ಪುಷ್ಟೀಕೃತ ವಿಷಯಗಳು ಮತ್ತು ಸ್ಪಂದನ ಶೀಲ ವೇದಿಕೆಯನ್ನು ನಿರೀಕ್ಷಿಸುತ್ತೇವೆ. ಭಾಷಾ ಇಂಡಿಯೂ ಪೋರ್ಟಲ್ಗೆ ಮತ್ತು ಭಾರತೀಯ ಭಾಷಾ ಕಂಪ್ಯೂಟಿಂಗ್ನಲ್ಲಿ ವೇದಿಯಾಗುವ ಅದರ ಉಪಕ್ರಮಗಳಿಗೆ ನಾನು ಶುಭಹಾರೈಸುತ್ತೇನೆ.