పుంజుకుంటున్న Text mining రంగం
డాక్టర్ టి.వి.గీత

భాషా ఇండియా: మీ విద్యాభ్యాసం మరియు ప్రస్తుత అధ్యయనం గురించి చెప్పండి
డాక్టర్ గీత: నేను గిండీలోని కాలేజ్ ఆఫ్ ఇంజనీరింగ్ నుంచి 1982లో ECEలో B.E పూర్తి చేశాను. తర్వాత ఇదే సంస్థలోని ECE విభాగంలో Teaching Research Fellowగా చేరాను. ఈలోగా Computer Science and Engineeringలో M.E పూర్తయింది. అనంతరం Department of Computer Science and Engineering మొదటిసారి నెలకొల్పినప్పుడు అందులో చేరాను. 1992లో Natural Language Processingలో Ph.D సాధించాను. ఈ క్రమంలో 10 మంది Ph.D విద్యార్థులకు విజయవంతంగా మార్గదర్శకత్వం వహించాను. ప్రస్తుతం పదకొండు మంది విద్యార్థులను గైడ్ చేస్తున్నాను.
ప్రస్తుతం నేను పనిచేస్తున్న అంశాలలో Natural Language Processing (NLP), Music Processing, E-learning, Ontology ఆధారిత text mining, Semantic processing మరియు Search engines ఉన్నాయి.
భాషా ఇండియా: NLPలో మీ ఆసక్తిని పెంపొందించిన అంశాలేమిటి?
డాక్టర్ గీత: Natural Language Processing నాకు ఎంతో ఇష్టమైన విభాగం. ఇందులో నాకు ఆసక్తికరమైన అంశాలు ఏమిటంటే..
• Information Visualization
• Automatic Content generation for E-learning
• Automatic Question generation for E-learning
• Automatic Slide Generation for E-learning
• Research Area Mining
• Ontology based Text Mining
భాషా ఇండియా: NLP, ఇండిక్ కంప్యూటింగ్ మధ్య వ్యత్యాసాలేమిటి ?
డాక్టర్ గీత: దక్షిణ భారత భాషల ప్రత్యేక లక్షణాల విషయానికి వస్తే - విస్తృత పదనిర్మాణం మరియు సాపేక్షంగా స్వతంత్ర పద క్రమానికి సంబంధించి లాంగ్వేజి ప్రాసెసింగ్లో పలు రకాల పద్ధతులను అనుసరించాల్సి ఉంటుంది. UNL (Universal networking Language – భాషా స్వతంత్ర శబ్దార్థ ప్రాతినిధ్య వ్యవస్థ) ఉపయోగించి పదస్వరూప విశ్లేషణ, శబ్దార్థ వివరణ, పద భావంలో స్పష్టత, అన్యాదేశ విభజన తదితరాల కోసం మేము సూత్రాధారితం (rule based) గాను, సంఖ్యానుగుణ వ్యవస్థ ఆధారంగాను (statistical based) యంత్రానుకూల అధ్యయన విధానాల్ని అనుసరిస్తాము.
భాషా ఇండియా: అన్నా యూనివర్సిటీలో ప్రస్తుతం కొనసాగుతున్న ఇండిక్ కంప్యూటింగ్ ప్రాజెక్ట్లు మరియు కార్యకలాపాల ఏమేంటి ?
డాక్టర్ గీత: భారత ప్రభుత్వ సమాచార మరియు కమ్యూనికేషన్ల మంత్రిత్వశాఖ తోడ్పాటుతో Cross-lingual Information Access అనే ప్రాజెక్ట్ మన దేశంలోని మరో 7 సభ్య సంస్థల సహవ్యవస్థ నేతృత్వంలో కొనసాగుతోంది. తమిళ భాష కోసం భావన ఆధారంగా సెర్చ్ ఇంజన్ పై పనిచేస్తున్నాం. ఈ విభాగం ద్వారా Knowledge Engineering and Computational Linguisticsలో M.E ప్రోగ్రాంను నిర్వహించేందుకు గుర్తింపు లభించింది. దీనికి పాఠ్య ప్రణాళిక, పాఠ్య విషయాలను ఇప్పటికే రూపొందించాం.
భాషా ఇండియా: మన భాషల్లో కంప్యూటింగ్ అభివృద్ధికి ఎలాంటి సాధనాలు అవసరమో వివరిస్తారా ?
డాక్టర్ గీత: మన భాషల్లో కంప్యూటింగ్ అభివృద్ధికి కావలసిన లాంగ్వేజి ప్రాసెసింగ్ సాధనాల గురించి చెప్పాలంటే ప్రాథమికంగా పద స్వరూప విశ్లేషణకు ఒక వ్యవస్థ కావాలి. మంచి నిఘంటువు ఉండాలి. మూల మరియు లక్ష్య భాష కార్యకలాపాల నిర్వహణకు తగిన సాధనాలుండాలి. పలు సంఖ్యానుగుణ ప్రాసెసింగ్ కార్యకలాపాల కోసం భాషాభాగాలతో గుర్తించిన డేటా కావాలి. చక్కని ప్రామాణిక పదసంచయం (Standard corpora) (ఇంగ్లీష్కు Reuters ఉన్నట్లుగా..) అందుబాటులో ఉండాలి. భారతీయ భాషల మధ్య యంత్రానువాదం కోసం మంచి సమాంతర పదసంచయం (parallel corpora) కూడా అవసరముంటుంది.
భాషా ఇండియా: భారతీయ భాషల్లో కంప్యూటింగ్కు గల అవకాశాలపై విద్యార్థులకు మీరు చెప్పదల్చుకున్నదేమిటి?
డాక్టర్ గీత: భారతీయ భాషల్లో కంప్యూటింగ్ పట్ల విద్యార్థులు అత్యంత ఆసక్తిని కనబరుస్తున్నారు. ఈ విభాగంలో చాలామంది విద్యార్థులు (సరాసరి 30 మంది) వేసవికాల ప్రాజెక్ట్లను చేపడుతున్నారు. తమిళ భాషలో కంప్యూటింగ్కు ఏటా కనీసం 15 ప్రాజెక్ట్లు ఉన్నాయి. ఈ వేసవిలో చాలామంది విద్యార్థులు తమిళ భాషలో కంప్యూటింగ్ కోసం మొబైల్ అప్లికేషన్ల అభివృద్ధిని ప్రాజెక్ట్గా ఎంచుకున్నారు. విద్యార్థులకు ఎన్నో అవకాశాలు ఇచ్చే విభాగం ఇది. ఈ విధంగా భాషల్లో కంప్యూటింగ్ కార్యకలాపాలలో అనుభవం పొందితే ఇప్పుడిప్పుడే పుంజుకుంటున్న "Text mining" రంగాల్లో ఉద్యోగాలకు మంచి అవకాశాలున్నాయి.
భాషా ఇండియా: MNCలకు మీరు ఏం చెప్పాలనుకుంటున్నారు?
డాక్టర్ గీత: స్థానిక భాషలు మాత్రమే తెలిసిన అత్యధిక శాతం ప్రజలకోసం అప్లికేషన్లను రూపొందించేందుకు ఈ ఛాలెంజింగ్ రంగంలో శిక్షణ పొందిన విద్యార్థులను కార్పోరేట్లు, MNCలు ఉపయోగించుకోవాలి. ఈ వర్గాల వారికోసం speech enabled అప్లికేషన్ల రూపకల్పన అనేది సవాళ్ళతో కూడిన వ్యవహారం.