ਇੰਟਰਵਿਊ: ਸ਼੍ਰੀ ਏ. ਕੁਮਾਰਨ, ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ, ਇੰਡੀਆ
ਮਸ਼ੀਨੀ ਅਨੁਵਾਦ ਅਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ
 

ਵੇਰਵਾ


ਸਾਡੇ ਵਿਚਕਾਰ ਬਹੁਤੇਰੀਆਂ ਲੋਕਾਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਜਾਂ ਗੂਗਲ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਸਾਨੂੰ ਵਿਚਕਾਰ ਬਹੁਤੇਰੇ ਯਾਹੂ ਬੇਬਲਫ਼ਿਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਟੂਲ ਬਾਰੇ ਕਈ ਬਾਰ ਸੋਜਦੇ ਹਨ। ਨਿਸੰਦੇਹ ਇਸ ਗੱਲ ਵਿਚ ਕੋਈ ਸ਼ੱਕ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕਿਸੇ ਦੇਸ਼ ਲਈ ਮਹੱਤਵਪੂਰਨ ਮਦਦ ਹੋਵੇਗੀ ਜਿਸ ਵਿਚ 22 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਵੀ ਕੁਝ ਲੋਕ ਹਨ ਜੋ ਭਾਰਤੀਏ ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਫਲ ਮਸ਼ੀਨ ਅਨੁਵਾਦ (MT) ਮਾਡਲ ਲਈ ਪਹਿਲਾਂ ਤੋ ਹੀ ਉਤਸਾਹਪੂਰਵਕ ਕੱਮ ਕਰ ਰਿਹੇ ਹਨ। ਭਾਸ਼ਾਇੰਡੀਆ ਨੂੰ ਭਾਰਤੀ ਐਮਟੀ ਡੋਮੇਨ ਵਿਚ ਸਾਧਨ ਸੰਪਨ ਵਿਅਕਤੀ ਦੀ ਜਾਣਕਾਰੀ ਦਿੰਦੇ ਹੋਏ ਖ਼ੁਸ਼ੀ ਹੋ ਰਹੀ ਹੈ। ਉਹ ਹਨ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਦੇ ਏ ਕੁਮਾਰਨ।

ਸਮੱਗਰੀ


ਸਾਨੂੰ ਵਿਚਕਾਰ ਬਹੁਤੇਰੀਆਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਜਾਂ ਗੂਗਲ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਸਾਨੂੰ ਵਿਚਕਾਰ ਬਹੁਤੇਰੇ ਯਾਹੂ ਬੇਬਲਫ਼ਿਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਗ਼ੈਰਮੁਲਕੀ ਭਾਸ਼ਾ ਨੂੰ ਅੰਗ੍ਰੇਜ਼ੀ ਵਿਚ ਅਨੁਵਾਦ ਕਰਨ ਦੇ ਬਹੁਤੇਰੇ ਟੂਲ ਉਪਲਬਧ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਟੂਲ ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਵੀ ਪ੍ਰਾਪਤ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ। ਨਿਸੰਦੇਹ ਇਹ ਵਿਚ ਕੋਈ ਸ਼ੱਕ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕਿਸੇ ਦੇਸ਼ ਲਈ ਮਹੱਤਵਪੂਰਨ

ਮਦਦ ਹੋਵੇਗੀ ਜਿਸ ਵਿਚ 22 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ਹਨ।  ਅਤੇ ਇਹ ਕਦੋਂ ਮੁਮਕਿਨ ਹੋਵੇਗਾ?

 

ਨਿਰਾਸ਼ ਨਾ ਹੋਵੋ! ਇਸ ਖੇਤਰ ਵਿਚ ਬਹੁਤੇਰੇ ਲੋਕ ਪਹੁਲਾਂ ਤੋਂ ਹੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਉਤਸਾਹਪੂਰਵਕ ਮਸ਼ੀਨ ਅਨੁਵਾਦ (MT) ਲਈ ਕੱਮ ਕਰ ਰਿਹੇ ਹਨ। ਭਾਸ਼ਾਇੰਡੀਆ ਨੂੰ ਭਾਰਤੀ ਐਮਟੀ ਡੋਮੇਨ ਵਿਚ ਸਾਧਨ ਸੰਪਨ ਵਿਅਕਤੀ ਦੀ ਜਾਣਕਾਰੀ ਦਿੰਦੇ ਹੋਏ ਖ਼ੁਸ਼ੀ ਹੋ ਰਹੀ ਹੈ। ਉਹ ਹਨ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਦੇ ਏ ਕੁਮਾਰਨ।

 

ਉਹ ਹੁਣ ਮਲਟੀਲਿੰਗੁਅਲ ਸਿਸਟਮਜ਼ ਰਿਸਰਚ ਗਰੁੱਪ ਦੇ ਆਗੂ ਹਨ। ਉਹ ਇੰਡੀਅਨ ਇੰਸਟੀਟਿਉਟ ਆਫ ਸਾਇੰਸੇਜ਼, ਬੰਗਲੌਰ, ਭਾਰਤ ਤੋਂ ਪੀਐਚਡੀ, ਕਾਲਜ ਆਫ ਇੰਜੀਨਿਅਰਿੰਗ ਚੇਨਈ, ਭਾਰਤ ਤੋਂ ਬੈਚਲਰ ਡਿਗ੍ਰੀ ਅਤੇ ਰਟਗਿਅਰਜ਼ ਯੂਨਿਵਰਸਿਟੀ, ਨਿਉ ਜ਼ਰਸੀ, ਅਮਰੀਕਾ ਤੋਂ ਮਾਸਟਰ ਡਿਗ੍ਰੀ ਕੀਤੀ ਹੈ। ਇੱਥੇ ਉਹ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਅਤੇ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਡੋਮੇਨ ਵਿਚ ਆਪਣੇ ਖ਼ਾਸ ਤਜ਼ਰਬੇ ਨੂੰ ਵੰਡ ਰਿਹੇ ਹਨ। ਇੱਥੇ ਭਾਸ਼ਾਇੰਡੀਆ ਟੀਮ ਦਾ ਏ ਕੁਮਾਰਨ ਨਾਲ ਇੰਟਰਵਿਉ ਦੇ ਮੁੱਖ ਅੰਸ਼ ਦਿੱਤਾ ਗਿਆ ਹੈ।

 

ਮਸ਼ੀਨ ਅਨੁਵਾਦ (MT) ਡੋਮੇਨ ਵਿਚ ਸੋਧ ਅਧਿਐਨਾਂ ਦੀ ਸ਼ੁਰੂਆਤ ਕਰਦੇ ਸਮਾਂ ਲੋਕ ਬਹੁਤ ਗ਼ੈਰ ਯਕੀਨੀ ਸੀ। ਅੱਜ, ਅਸੀਂ ਇਹ ਦੇ ਸਿੱਟੇ ਦੇਖ ਰਹੇ ਹਨ। ਅਸੀਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਦੇ ਅਨੁਵਾਦ, ਗੁਗਲ ਅਨੁਵਾਦ ਜਾਂ ਯਾਹੂ ਬੇਬਲਫ਼ਿਸ਼ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਐਮਟੀ ਅਤੇ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਡੋਮੇਨਾਂ ਵਿਚ ਤਜ਼ਰਬਾ ਹੋਣੇ ਦੇ ਬਾਵਜੂਦ ਕੀ ਤੁਸੀਂ ਮਸ਼ੀਨੀ ਅਨੁਵਾਦ ਦੇ ਸੰਖੇਪ ਇਤਿਹਾਸ ਬਾਰੇ ਦੱਸ ਸਕਦੇ ਹੋ?

 

ਸਤਾਰ੍ਹਵਾਂ ਸਦੀ ਤੋਂ ਪਹਿਲਾਂ ‘ਮਸ਼ੀਨੀ’ ਅਨੁਵਾਦ ਬਾਰੇ ਖ਼ਿਆਲਾਤ ਲੱਭਣਾ ਮੁਮਕਿਨ ਹੈ, ਐਪਰ ਅਸਲ ਅਤੇ ਵਿਹਾਰਕ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ 20ਵੀਂ ਸਦੀ ਵਿਚ ਹੀ ਆਈ ਸੀ। ਮੁਢਲੀਆਂ ਸਿਸਟਮਾਂ ਵੱਡੀਆਂ ਦੁਭਾਸ਼ੀਆ ਸ਼ਬਦ-ਕੋਸ਼ ਹਨ ਜਿੱਥੇ ਸਰੋਤ ਭਾਸ਼ਾ ਦੇ ਸ਼ਬਦਾਂ ਦੀ ਰਸਾਈ ਲਈ ਟੀਚਾ ਭਾਸ਼ਾ ਵਿਚ ਦੋ ਜਾਂ ਵੱਧ ਸਮਾਨ ਸ਼ਬਦ ਦਿੱਤੇ ਅਤੇ ਇਨਪੁਟ ਦੇ ਸਹੀ ਕ੍ਰਮ ਲਈ ਕੁਝ ਨਿਯਮ ਦਿੱਤੇ ਹਨ।

 

ਐਮਟੀ ਦੇ ਵਿਕਾਸ ਲਈ ਸਰਕਾਰ ਤੋਂ ਨਿਜੀ ਸੰਸਥਾਵਾਂ ਤਕ ਬਹੁਤੇਰੇ ਪ੍ਰਾਯੋਜਕ ਸਨ ਕਿਉਂਕਿ ਉਨ੍ਹਾਂ ਨੇ ਪਾਇਆ ਕਿ ਐਮਟੀ ਇਨਸਾਨੀਅਤ ਲਈ ਜ਼ਬਰਦਸਤ ਮਦਦ ਹੋਵੇਗੀ। ਮਗਰ ਵਰ੍ਹੇ ਦੀ ਸੋਧਾਂ ਨੇ ਉਨ੍ਹਾਂ ਨੂੰ ਨਿਰਾਸ਼ ਕੀਤਾ। 1960ਵੀਂ ਸਦੀ ਦੀ ਸ਼ੁਰੂਆਤ ਵਿਚ, ਉਨ੍ਹਾਂ ਨੇ ਦੇਖਾ ਕਿ "ਲਾਭਦਾਇਕ ਮਸ਼ੀਨੀ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਕੋਈ ਤਤਕਾਲੀਨ ਜਾਂ ਭਵਿੱਖ ਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਇਹ ਹੌਲੀ, ਘੱਟ ਦਰੁਸਤ ਅਤੇ ਇਨਸਾਨੀ ਅਨੁਵਾਦ ਦੇ ਮੁਕਾਬਲੇ ਦੋਗੁਨਾ ਖਰਚੀਲੀ ਸੀ।" ਇਸ ਨੇ ਐਮਟੀ ਤਰੱਕੀ ਨੂੰ ਧੀਮਾ ਕਰ ਦਿੱਤਾ।

 

ਅਲਬੱਤਾ, ਕਨਾਡਾ, ਫਰਾਂਸ਼ ਅਤੇ ਜ਼ਰਮਨੀ ਵਿਚ ਸ਼ੋਧ ਜ਼ਾਰੀ ਰਹੀ। 1970 ਦੇ ਦਸ਼ਕ ਵਿਚ ਆਧੁਨਿਕ ਐਮਟੀ ਦਾ ਪਹਿਲਾ ਮਾਡਲ (ਸਿਸਟ੍ਰਾਨਸ ਸਿਸਟਮ) ਵਜ਼ੂਦ ਵਿਚ ਆਇਆ। 1980ਵੀਂ ਸਦੀ ਐਮਟੀ ਸਿਸਟਮ ਕਿਸਮਆਂ ਅਤੇ ਵਿਭਿੰਨ ਦੇਸ਼ਾਂ ਦੇ ਵੱਖਰੀ ਪ੍ਰਕਾਰਾਂ ਦੇ ਵਿਕਾਸ ਦੀ ਗਵਾਹ ਹੈ। ਕੰਪਿਉਟਰਜ਼ ਦੀ ਉਪਲਬਧਤਾ ਅਤੇ ਪਾਠ ਪ੍ਰਕਿਰਿਆ ਸਾਫਟਵੇਅਰ ਨੇ ਸਸਤੇ ਐਮਟੀ ਸਿਸਟਮਾਂ ਲਈ ਇਕ ਬਾਜ਼ਾਰ ਬਣਾ ਦਿੱਤਾ। ਸਾਨੂੰ ਇਹ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿਚੋਂ ਬਹੁਤੇਰੀਆਂ 'ਨਿਯਮ ਆਧਾਰਿਤ' ਮਾਡਲ ਸਨ।

 

ਹਾਲੀਆ ਡੇਢ ਦਸ਼ਕ ਵਿਚ, ਐਮਟੀ ਸ਼ੋਧਾਂ ਵਿਚ ਨਵੀਆਂ ਢੁੱਕਣਾ ਲਾਗੂ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। ਇਨ੍ਹਾਂ ਢੁੱਕਣਾ ਵਿਚ ਖ਼ਾਸ ਕੰਮ ਸਵੈ-ਚਾਲਿਤ ਰੂਪ ਨਾਲ ਸਿੱਖੇ ਜਾ ਸਕਦੇ ਹਨ ਜਦੋਂ ਢੁਕਵਾਂ ਦਸਤਕਾਰੀ ਸਿੱਖਿਆ ਅੰਕਡ਼ੇ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਕਾਰਜ-ਪ੍ਰਣਾਲੀਆਂ ਸਾਂਖਿਅਕੀ ਸਿੱਖਿਆ ਜਾਂ ਮਸ਼ੀਨ ਸਿੱਖਿਆ ਐਲਗੋਰਿਥਮ ਦੇ ਰੂਪ ਨਾਲ ਖ਼ਾਸ ਤੌਰ ਤੇ ਜਾਣਕਾਰੀ ਦਿੱਤੀ ਗਈ ਹੈ।

 

ਨਵੀਆਂ ਢੁੱਕਣਾਂ ਵਿਚਕਾਰ ਵਿਲੱਖਣ ਸੁਵਿਧਾ ਇਹ ਸੀ ਕਿ ਇਨ੍ਹਾਂ ਦੇ ਵਿਚ ਕੋਈ ਵਾਕ ਰਚਨਾ ਜਾਂ ਅਰਥ ਵਿਗਿਆਨ ਸੰਬੰਧੀ ਨਿਯਮਾਂ ਦੀ ਵਰਤੋਂ ਪਾਠਾਂ ਦੀ ਵਸ਼ਲੇਸ਼ਣ ਜਾਂ ਸਮਾਨ ਕੋਸ਼ਾਂ ਵਿਚ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜੋ ਵੱਡੇ ਪਾਠ ਹਿੱਸੇ ਦੇ ਦੁਰਉਪਯੋਗ ਵਿਚ ਪਹਿਲਾਂ ‘ਨਿਯਮ-ਆਧਾਰਿਤ’ ਤਰੀਕੀਆਂ ਤੋਂ ਵੱਖਰੇ ਹਨ।

 

ਐਮਟੀ ਡੋਮੇਨ ਵਿਚ ਪ੍ਰਯੋਗ ਦੇ ਅਧਾਰ ਤੇ ਕੰਪਿਉਟਰ ਏਡਿਡ ਟ੍ਰਾਂਸਲੇਸ਼ਨ (CAT) ਟੂਲ ਵੀ ਅਸਤਿਤਵ ਵਿਚ ਆਏ ਸੀ। ਇਹ ਝੁਕਾਅ ਜਾਰੀ ਰਿਹੇ ਹਨ। ਬਾਕੀ ਇਤਿਹਾਸ ਹੈ। ਹੁਣ, ਆਨਲਾਈਨ ਇਸਤੇਮਾਲ ਕਰਤਾ ਆਨਲਾਈਨ ਨੈੱਟਵਰਕ ਵਾਲੀ ਸੇਵਾਵਾਂ ਤੋਂ ਐਮਟੀ ਦੀ ਉਪਲਬਧਤਾ ਦਾ ਮਜ਼ਾ ਲੈਣ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ। ਇਹ ਦਾ ਇਕ ਉਦਾਹਰਣ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਹੈ। ਪੇਸ਼ੇਵਰ ਅਨੁਵਾਦਕ ਆਪਣੀ ਉਤਪਾਦਕਤਾ ਅਤੇ ਦਰੁਸਤੀ ਨੂੰ ਵਧਾਉਣ ਲਈ CAT ਦੀ ਵਰਤੋਂ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਹੈ।

 

ਕੀ ਤੁਸੀਂ ‘ਨਿਯਮ ਆਧਾਰਿਤ’ ਢੁੱਕਣਾ ਅਤੇ ‘ਸਾਂਖਿਕੀ ਗਿਆਨ’ ਬਾਰੇ ਕੁਝ ਹੋਰ ਵਿਆਖਿਆ ਕਰ ਸਕਦੇ ਹੋ?

 

‘ਨਿਯਮ ਅਆਧਾਰਿਤ’ ਪਹੁੰਚ ਵਿਚ, ਤੁਸੀਂ ਸਕੂਲ ਵਿਚ ਵਾਕ ਦੀ ਵਿਆਕਰਨ ਸੰਰਚਨਾ ਖ਼ਾਕਾ ਬਣਾਉਣਾ ਸੀਖਾ ਹੋਵੇਗਾ, ਤਾਂ ਸਾਫਟਵੇਅਰ ਹਰੇਕ ਵਾਕ ਦੇ ਵਿਆਕਰਨ ਰੂਪ ਬਣਾਉਣ ਲਈ ਇਨਪੁਟ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ। ਇਨਪੁਟ ਭਾਸ਼ਾ ਦਾ ਵਿਆਕਰਨ ਸੰਬੰਧੀ ਰੂਪ ਦਾ ਤਦ ਆਉਟਪੁਟ ਭਾਸ਼ਾ ਲਈ ਮੈਪ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ।

 

‘ਸਾਂਖਿਕੀ ਗਿਆਨ’ ਪਹੁੰਚ ਵਿਚ, ਐਮਟੀ ਇੰਜਨ ਨੂੰ ਮੌਜੂਦਾ ਸਮੱਗਰੀ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਅਤੇ ਇਹ ਦੇ ਅਧਾਰ ਤੇ ਪ੍ਰਸਿੱਖਿਅਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਜਿਸ ਨੂੰ “ਦੁਭਾਸ਼ੀ ਪਾਠ ਸੰਗ੍ਰਹਿ” ਨਾਮ ਰਾਹੀਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਐਮਟੀ ਇੰਜ਼ਨ ਸਮੱਗਰੀ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਦੀ ਵਰਤੋਂ ਸਾਂਖਿਕੀ ਸੁਮੇਲ ਸਾਰਣੀ ਬਣਾਉਣ ਲਈ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਸਾਂਖਿਕੀ ਜਾਣਕਾਰੀ ਇਹ ਨਿਸ਼ਚਿਤ ਕਰਦੀ ਹੈ ਕਿ ਸੰਭਾਵਿਤ ਯੋਗਤਾ ਤੇ ਆਧਾਰਿਤ ਢੁੱਕਵਾਂ ਚੋਣ ਜੋ ਇਕ ਭਾਸ਼ਾ ਵਿਚ ਸ਼ਬਦ, ਵਾਕਾਂਸ਼ ਜਾਂ ਵਾਕ ਦਿੰਦਾ ਹੈ ਜੋ ਟੀਚਾ ਭਾਸ਼ਾ ਵਿਚ ਉਹ ਸ਼ਬਦ, ਵਾਕਾਂਸ਼ ਜਾਂ ਵਾਕ ਦਾ ਸਹੀ ਅਨੁਵਾਦ ਹੈ।

 

ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਉ ਕਿ ਇਹ ਤਰੀਕਾ ਭਾਸ਼ਾ ਵਿਸ਼ੇਸ਼ ਨਹੀਂ ਹੈ। ਹਾਲਾਂਕਿ, ਸਮਾਨ ਸਮੱਗਰੀ ਵਾਲੇ ਇਲੈਕਟ੍ਰਾਨਿਕ ਪਾਠ ਦੀ ਵੱਡੀ ਮਾਤਰਾ ਐਮਟੀ ਇੰਜ਼ਨ ਤੋਂ ਬਿਹਤਰੀਨ ਗੁਣਵੱਤਾ ਆਉਟਪੁਟ ਲਈ ਜ਼ਰੂਰੀ ਹੈ।

 

ਸਾਨੂੰ ਸੁਣਿਆ ਅਤੇ ਪਡ਼ਿਆ ਹੋਵੇਗਾ ਕਿ ਭਾਰਤੀ ਭਾਸ਼ਾ ਐਮਟੀ ਸਮਾਧਾਨ ਵੱਖਰੀਆਂ ਕੰਪਨੀਆਂ ਅਤੇ ਸੰਗਠਨਾਂ ਵਿਚ ਤਿਆਰ ਕੀਤੇ ਜਾ ਰਿਹੇ ਹਨ। ਐਪਰ, ਅਸੀਂ ਹੁਣੇ ਤਕ ਕੋਈ ਸਫਲ ਮਾਡਲ ਨਹੀਂ ਦੇਖਿਆ ਹੈ। ਇਹ ਕਦੋਂ ਹੋਵੇਗਾ? ‘ਕੁਝ ਠੀਕ’ ਐਮਟੀ ਸਮਾਧਾਨ ਜਿਵੇਂ ਯੂਰੋਪੀ ਭਾਸ਼ਾਵਾਂ ਜਾਂ ਅਰਬੀ ਭਾਸ਼ਾ ਪ੍ਰਾਪ੍ਤ ਕਰਨ ਲਈ ਕਿੰਨ੍ਹੀ ਦੇਰ ਉਡੀਕਨਾ ਹੈ?

 

ਮੈਂ ਇਹ ਦੀ ਕੋਈ ਸਮਾਂ ਸੀਮਾਂ ਬਾਰੇ ਨਹੀਂ ਦੱਸ ਸਕਦਾ ਹਾਂ। ਸ਼ੋਧਕਰਤਾ ਇਸ ਖੇਤਰ ਵਿਚ ਕੰਮ ਕਰ ਰਿਹੇ ਹਨ। ਹੁਣੇ ਤਕ, ਮੈਂ ਦੱਸ ਸਕਦਾ ਹਾਂ ਕਿ ਅੱਜ ਤੋਂ ਪੰਜ ਸਾਲ ਬਾਅਦ ਅਸੀਂ ਆਉਟਪੁਟ ਦੇਖ ਸਕਦੇ ਹਨ। ਫਿਰ ਵੀ ਇਹ ਜ਼ਰੂਰੀ ਸੰਗ੍ਰਹਿ ਦੀ ਉਪਲਬਧਦਾ ਤੇ ਆਧਾਰਿਤ ਹੈ। ਸਾਨੂੰ ਸਫਲ ਸਾਂਖਿਕੀ ਐਮਟੀ ਹਲ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਵੱਡੇ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋਡ਼ ਹੈ। ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ, ਸਾਡੇ ਕੋਲ ਵੱਧ ਡੀਜੀਟਲ ਸਮੱਗਰੀ ਨਹੀਂ ਹੈ। ਭਲੇ ਹੀ ਅਸੀਂ ਨੇਟ ਤੇ ਉਪਲਬਧ ਡਿਜੀਟਲ ਜਾਂ ਡਿਵਾਇਸ ਡਾਟਾ ਤੇ ਇਕੱਠ ਕਰਦੇ ਹਨ ਕਾਫੀ ਲੋਡ਼ ਨਹੀਂ ਹੋਵੇਗੀ।

 

ਇਹ ਵਿਚ ਇਕ ਬਿੰਦੂ ਇਹ ਹੈ ਕਿ ਸਾਡੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ, ਖ਼ਾਸ ਤੌਰ ਤੇ ਦੱਖਣੀ ਭਾਸ਼ਾਵਾਂ ਵੱਧੇਰੀ ਨਿਹਾਇਤ ਪਰਸਪਰ ਹਨ। ਇਹ ਦ੍ਰਿਸ਼ ਵਿਚ, ਸੰਗ੍ਰਹਿ ਨੂੰ ਭਾਸ਼ਾਵਾਂ ਤੋ ਵੱਡਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਪਰਸਪਰ ਨਹੀਂ ਹਨ। ਅਸਲ ਵਿਚ, ਢੁੱਕਵਾਂ ਸੰਗ੍ਰਹਿ ਦੀ ਕਮੀ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦੇ ਬਧੇਰੇ ਭਾਸ਼ਾ ਕੰਪਿਉਟੇਸ਼ਨਲ ਪ੍ਰਯਾਸ਼ਾਂ ਵਿਚ ਰੂਕਾਵਟ ਹੈ।

 

ਕੀ ਤੁਸੀਂ ਕੰਪਿਉਟਰ ਭਾਸ਼ਾ ਵਿਚ ਸੰਗ੍ਰਹਿ ਦੀ ਭੂਮਿਕਾ ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦੇ ਹੋ, ਖ਼ਾਸ ਤੌਰ ਤੇ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਡੋਮੇਨ ਵਿਚ?

 

ਸੰਗ੍ਰਹਿ ਤਿੰਨ ਪ੍ਰਕਾਰ ਦੇ ਹਨ। ਪਹਿਲਾਂ ਅਸੀ ਮੋਨੋਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਬਾਰੇ ਗੱਲਬਾਤ ਕਰਨਗੇ। ਮੋਨੋਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਲਾਜ਼ਮੀ ਤੌਰ ਤੇ ਕਿਸੇ ਮਾਨ ਸਰੋਤ ਤੋਂ ਸਧਾਰਨ ਪਾਠ ਫੈਲਾਉ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ ਜਿਵੇਂ ਲੋਕਪ੍ਰਿਯ ਮਾਸ ਮੀਡੀਆ, ਅਖ਼ਬਾਰ, ਟੇਲੀਵਿਜਨ ਆਦਿ। ਮੋਨੋਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਦਾ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਬਥੇਰੇ ਕੰਪਿਉਟੇਸ਼ਨਲ ਲਿੰਗੁਇਸਟਕ ਕੰਮਾਂ ਵਿਚ ਨਿਹਾਇਤ ਲਾਭਦਾਇਕ ਹੋਵੇਗਾ। ਉਦਾਹਰਣ ਲਈ, ਇਨ੍ਹਾਂ ਨਾਮ ਨਾਲ ਵਿਆਖਿਆ ਕਰਨ ਵਾਲਾ ਸੰਗ੍ਰਹਿ (ਜਾਤੀ ਨਾਮ, ਆਮ ਨਾਮ, ਸਥਾਨ, ਮਿਤੀ, ਸੰਗਠਨ ਆਦਿ), ਨੂੰ ਕਈ ਨਾਮਿਤ ਸੰਸਥਾ ਪਛਾਣ ਕੰਮ ਅਤੇ ਜਾਣਕਾਰੀ ਸਿੱਟਾ ਕੰਮਾ ਲਈ ਵਰਤਾ ਜਾ ਸਕਦਾ ਹੈ।

 

ਇਹ ਦੇ ਬਾਅਦ ਆਂਦਾ ਹੈ ਮਲਟੀਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ। ਮਲਟੀਲਿੰਗੁਅਲ ਸੰਗ੍ਰਹਿ ਬਥੇਰੇ ਸੰਗ੍ਰਹਿ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ ਜਿਵੇਂ ਸਦ੍ਰਿਸ਼, ਤੁਲਨਾਤਮਕ ਆਦਿ। ਸਦ੍ਰਿਸ਼ ਸੰਗ੍ਰਹਿ ਖ਼ਾਸਤੌਰ ਤੇ ਵਿਭਿੰਨ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਵਾਕ ਬੰਨ੍ਹਣ ਦਾ ਸੰਗ੍ਰਹਿ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਹਰੇਕ ਬਨ੍ਹਣ ਵਾਲਾ ਵਾਕ ਦਾ ਜੋਡ਼ਾ ਬਹੁ ਭਾਸ਼ਾਵਾ ਵਿਚ ਸਮਾਨ ਅਰਥ ਸੰਬੰਧੀ ਜਾਣਕਾਰੀ ਰੱਖਦਾ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਦੀ ਵਰਤੋਂ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਸਿਸਟਮ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਛੇਤੀ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਤੁਲਨਾਤਮਕ ਸੰਗ੍ਰਹਿ ਨੂੰ ਵਿਭਿੰਨ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਲੇਖ ਬੰਨ੍ਹਣ ਦੇ ਰੂਪ ਵਿਚ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜਿੱਥੇ ਲੇਖ ਸਮਾਨ ਵਿਸ਼ਾ ਤੇ ਹੁੰਦਾ ਹੈ ਐਪਰ ਵੱਖਰੇ ਅਰਥ ਸੰਬੰਧੀ ਸਮੱਗਰੀ ਹੋ ਸਕਦੀ ਹੈ। ਤੁਲਨਾਤਮਕ ਸੰਗ੍ਰਹਿ ਨੂੰ ਐਮਟੀ ਸਿਸਟਮਾਂ ਦੇ ਵਿਕਾਸ ਵਿਚ ਸਫਲਤਾਪੂਰਵਕ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਸੀ।

 

ਹੁਣ ਅਸੀਂ ਵਿਆਖਿਆ ਸੰਗ੍ਰਹਿ ਨੂੰ ਦੇਖਣਾ ਹੈ। ਵੱਡੇ ਵਿਆਖਿਆ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋਡ਼ ਕੰਪਿਉਟੇਸ਼ਨਲ ਭਾਸ਼ਾਈ ਸ਼ੋਧ ਵਿਚ ਹੁੰਦੀ ਹੈ। ਵਿਆਖਿਆ ਲਿਖਤ ਵਿਚ ਕੰਮ ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ; ਉਦਾਹਰਣ ਲਈ ਸ਼ਬਦ ਸ਼੍ਰੇਣੀ (POS) ਪਛਾਣ ਲਈ ਚੋਖੀ ਵਿਆਖਿਆ ਦੀ ਲੋਡ਼ ਹੁੰਦੀ ਹੈ ਜਿੱਥੇ ਪਾਠ ਸੰਗ੍ਰਹਿ ਵਿਚ ਹਰ ਸ਼ਬਦ ਨੂੰ ਟੈਗ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਦਕਿ ਨਾਮਿਤ ਸੰਸਥਾ ਪਛਾਣ (NER) ਸੰਗ੍ਰਹਿ ਵਿਚ ਵਿਸ਼ੇਸ਼ ਸੰਸਥਾਵਾਂ ਦੀ ਲਿਖਤ ਵਿਆਖਿਆ ਦੀ ਲੋਡ਼ ਹੁੰਦੀ ਹੈ।

 

ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦੇ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਬਨਾਉਣ ਦੀ ਦਿਸ਼ਾ ਵਿਚ ਕੀ ਕੋਸ਼ਿਸ਼ਾਂ ਕੀਤੀ ਜਾ ਰਹੀਆਂ ਹਨ? ਚੰਗਾ ਐਮਟੀ ਸਮਾਧਾਨ ਬਨਾਉਣ ਲਈ ਸਾਨੂੰ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਕਦੋਂ ਪ੍ਰਾਪਤ ਹੋਵੇਗਾ?

 

ਭਾਰਤ ਵਿਚ, ਸੇਂਟਰਲ ਇੰਸਟੀਟਿਉਟ ਆਫ ਇੰਡੀਅਨ ਲੈਂਗਵੇਜ (CIIL) ਵੱਲੋਂ ਇਕੱਠ ਸੰਗ੍ਰਹਿ ਵਧੀਕ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਉਪਲਬਧ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ ਸੰਗ੍ਰਹਿ ਮੁਕਾਬਲਤਨ ਛੋਟਾ ਸੰਗ੍ਰਹਿ (ਲਗਭਗ 3-8M ਸ਼ਬਦ ਪ੍ਰਤੀ ਭਾਸ਼ਾ) ਹੈ ਜੋ ਬਿਨਾ ਵਿਆਖਿਆ ਵਾਲਾ ਵਿਭਿੰਨ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਇਕ ਮੂਲ ਮੋਨੋਲਿੰਗੁਅਲ ਪਾਠ ਸੰਗ੍ਰਹਿ ਹੈ। ਜਦਕਿ ਇਹ ਸੰਗ੍ਰਹਿ ਡਾਟਾ ਬਣਾਉਣ ਲਈ ਅੰਸ਼ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਦਾ ਹਿੱਸਾ ਅਤੇ ਉਹ ਦੀ ਗੁਣਵੱਤਾ ਖ਼ਾਸ ਤੌਰ ਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਕੰਪਿਉਟੇਸ਼ਨਲ ਸ਼ੋਧ ਦੀ ਮਦਦ ਲਈ ਵਧਾਈ ਜਾਣੀ ਚਾਹੀਦੀ ਹੈ।

 

ਹੁਣੇ ਲਿੰਗੁਇਸਟਿਕ ਡਾਟਾ ਕੰਸੋਰਟੀਅਮ ਫਾਰ ਇੰਡੀਅਨ ਲੈਂਗਵੇਜ (LDC-IL) ਨੂੰ ਭਾਰਤ ਸਰਕਾਰ ਹੇਠਲੇ ਮਾਨਵ ਸੰਸਾਧਨ ਅਤੇ ਵਿਕਾਸ ਮੰਤ੍ਰਾਲਾ ਵੱਲੋਂ, ਸਾਰੀਆਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਭਾਸ਼ਾਈ ਸੰਗ੍ਰਹਿ ਦੇ ਮਾਨਕ ਸੰਕਲਨ ਦੀ ਨਿਗਰਾਨੀ ਦੀ ਸ਼ੁਰੂਆਤ ਕੀਤੀ ਹੈ। ਵੱਖਰੇ ਅਕਾਦਮਿਕ ਅਤੇ ਉਦਯੋਗਿਕ ਪਾਰਟਨਰ ਇਹ ਸੰਕਲਨ ਬਣਾਉਣ ਲਈ ਕੰਮ ਕਰ ਰਹੇ ਹਨ। ਸਾਨੂੰ ਉੱਮੀਦ ਹੈ ਕਿ ਅਸੀਂ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਸੰਗ੍ਰਹਿ ਦੀ ਲੋਡ਼ੀਦੀ ਪੁਸਤਕਾਂ ਛੇਤੀ ਪ੍ਰਾਪਤ ਕਰਨਗੇ।

 

ਜੇਕਰ ਡਿਜ਼ਿਟਲ ਡਿਵਾਇਸਾਂ ਜਾਂ ਨੈੱਟ ਤੇ ਸਟੋਰ ਕੀਤੀ ਸਮੱਗਰੀ ਵਿਸ਼ਾਲ ਸੰਗ੍ਰਹਿ ਬਣਾਉਣ ਲਈ ਕਾਫ਼ੀ ਨਹੀਂ ਹੋਵੇਗੀ ਤਾਂ ਅਸੀਂ ਇਹ ਉਦੇਸ਼ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ?

 

ਐਥੇ, ਮੈਂ ਡਾਟਾ ਬਣਾਉਣ ਲਈ ਸਮੁਦਾਏ ਆਧਾਰਿਤ ਸਾਂਝੀਦਾਰੀ ਤੇ ਜ਼ੋਰ ਦੇਵਾਂਗਾ। ਭਾਸ਼ਾਈ ਸੰਗ੍ਰਹਿ ਨੂੰ ਬਣਾਉਣ ਲਈ ਕੰਮ ਪ੍ਰਣਾਲੀ ਦੇ ਰੂਪ ਵਿਚ ਜਨਤਕ ਸਰੋਤ ਦੀ ਅਹਿਮੀਅਤ ਨੂੰ ਹਾਈਲਾਇਟ ਕਰਨਾ ਮਹੱਤਵਪਰਨ ਹੈ ਕਿਉਂਕਿ ਵਥੇਰੀਆਂ ਤਰ੍ਹਾਂ ਦੇ ਸੰਗ੍ਰਹਿ ਨੂੰ ਭਾਸ਼ਾਈ ਗਿਆਨੀ ਜਾਂ ਭਾਸ਼ਾ ਮਾਹਰਾਂ ਵੱਲੋਂ ਬਣਾਏ ਜਾਣ ਦੀ ਲੋਡ਼ ਨਹੀਂ ਹੈ ਐਪਰ ਕਿਸੇ ਭਾਸ਼ਾ ਦੇ ਮਾਤਰ ਭਾਸ਼ਾਈ ਲੋਕਾਂ ਨੂੰ ਸਮਝਣਾ ਚਾਹੀਦਾ ਹੈ।

 

ਐਮਟੀ ਭਾਰਤੀ ਸਮੁਦਾਏ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਤੇ ਮਜ਼ਬੂਤੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ?

 

ਕਈ ਦਸ਼ਕਾਂ ਤੋਂ ਕੰਪਿਉਟੇਸ਼ਨਲ ਡਿਵਾਇਸਾਂ ਲੋਕਾਂ ਦੀ ਵਰਤੋਂ ਅੰਗ੍ਰੇਜ਼ੀ ਵਿਚ ਬਣਾਈ ਗਈਆਂ ਸਨ। ਐਪਰ, ਇਹ ਵੀ ਸੱਚਾਈ ਹੈ ਕਿ ਦੁਨਿਆ ਦੇ ਵਧੀਕ ਲੋਕ ਅੰਗ੍ਰੇਜ਼ੀ ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ। ਇਸ ਤਰ੍ਹਾਂ ਤੇ ਉਹ ਕੰਪਿਉਟਰ ਦਾ ਫ਼ਇਦਾ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ। ਕਿਰਪਾ ਕਰਕੇ ਨੈੱਟ ਤੇ ਉਪਲਬਧ ਜਾਣਕਾਰੀ ਨੂੰ ਦੇਖੋ। ਵੈਵ ਤੇ ਉਪਲਬਧ ਵਧੀਕ ਜਾਣਕਾਰੀ ਅੰਗ੍ਰੇਜ਼ੀ ਦੇ ਇਲਾਵਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਉਪਲਬਧ ਹੈ। ਜਨਤਕ ਅੰਕਡ਼ ਵਿਚ ਇਸ ਤਰ੍ਹਾਂ ਤੇ ਬਦਲਾਅ ਇਹ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ ਤਕਨੀਕੀ ਨੂੰ ਖ਼ਾਸ ਤੌਰ ਤੇ ਬਹੁਭਾਸ਼ੀ ਵਰਤੋਂ ਜਨਤਕ ਦੀ ਮਦਦ ਲਈ, ਵਧੀਕ ਸਰੋਤਾ ਨੂੰ ਛੇਤੀ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਸਤੇ ਉਦਾਸੀਨ ਕੰਪਿਉਟੇਸ਼ਨਲ ਲਿਗੁਇਸਟਿਕਸ ਸ਼ੋਧ ਲਈ ਮਹੱਤਵਪੂਰਨ ਲੋਡ਼ ਨੂੰ ਧਿਆਨ ਵਿਚ ਰੱਖਦੇ ਹੋਏ ਵਿਕਸਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਭਾਰਤ ਜਿਵੇਂ ਦੇਸ਼ਾਂ ਵਿਚੋਂ ਅਸੀਂ ਇਹ ਚੁਣੌਤੀ ਦਾ ਸਾਮ੍ਹਣਾ ਕਰਦੇ ਹਨ ਕਿ ਇਥੇ ਦੀ ਵਧੀਕ ਆਵਾਮ ਨੂੰ ਅੰਗ੍ਰੇਜ਼ੀ ਦੀ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੈ। ਇੱਥੇ ਸਥਾਨਿਕ ਭਾਸ਼ਾਵਾਂ ਵਿਚ ਆਮ ਲੋਕਾਂ ਨੂੰ ਸ਼ਾਮਿਲ ਕਰਨ ਵਾਸਤੇ ਡਿਜ਼ਿਟਲ ਭਾਗ ਤੋਂ ਬਾਹਰ ਆਉਣ ਲਈ ਟੂਲ ਅਤੇ ਤਕਨੀਕੀ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੈ।

 

ਕੀ ਤੁਸੀਂ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਨਾਲ ਆਪਣੇ ਤਜ਼ਰਬੇ ਸਾਂਝਾ ਕਰ ਸਕਦੇ ਹੋ?

 

ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਵਿਚ ਇਕ ਵੱਡੀ ਟੀਮ ਹੈ। ਮੈਂਨੇ ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਤੋਂ ਜੁਲਾਈ 2005 ਵਿਚ ਜੁਡ਼ੀਆ ਸੀ। ਮੈਂਨੂੰ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਵੱਡਾ ਪਿਆਰ ਹੈ ਅਤੇ ਖ਼ਾਸ ਤੌਰ ਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ। ਮਾਈਕ੍ਰੋਸਾਫ਼ਟ ਰਿਸਰਚ ਇੰਡੀਆ ਨਾਲ ਮੈਂਨੂੰ ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਦੀ ਸੇਵਾ ਕਾ ਵਿਸ਼ੇਸ਼ ਮੌਕਾ ਮਿਲਿਆ।

 

ਹਾਲ ਵਿਚ, ਸਮੁਦਾਏ ਆਧਾਰਿਤ ਡਾਟਾ ਨਿਰਮਾਣ ਪ੍ਰੋਜੇਕਟ - WikiBABEL ਤੇ ਕੰਮ ਕਰ ਰਿਹਾ ਹਾਂ – ਜੋ ਸਜੀਵ ਬਹੁਭਾਸ਼ੀ ਸਮੱਗਰੀ ਅਤੇ ਭਾਸ਼ਾਈ ਸਮਾਨ ਡਾਟਾ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਇਸ ਪ੍ਰੋਜੇਕਟ ਦਾ ਉਦੇਸ਼ ਭਾਸ਼ਾਈ ਵਰਤੋਂ ਸਮੁਦਾਏ ਨੂੰ ਆਸਾਨ ਪਲੇਟਫਾਰਮ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ ਅਤੇ ਕਿਸੇ ਵੀ ਵਿਕ-ਸਾਈਟ ਲਈ ਬਹੁਭਾਸ਼ੀ ਸਮੱਗਰੀ ਬਣਾਉਣ ਲਈ ਉਪਭੋਗ ਦ੍ਰਿਸ਼ ਨੂੰ ਮਜ਼ਬੂਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਸਮਾਨ ਡਾਟਾ ਅਤੇ ਸਾਂਖਿਕੀ ਅਨੁਵਾਦ ਸਿਸਟਮ ਸ਼ੋਧ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤ ਨੂੰ ਆਮ ਤੌਰ ਤੇ ਇਸਤੇਮਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

 

ਮੇਰੀ ਸ਼ੋਧ ਰੂਚੀਆਂ ਵਿਚ ਅੰਤਰ ਭਾਸ਼ੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨਾ /ਸਾਰ, ਮਸ਼ੀਨ ਅਨੁਵਾਦ, ਵਰਣਾਂਤਰ ਅਤੇ ਭਾਸ਼ਾਈ ਸ਼ੋਧ ਲਈ ਡਾਟਾ ਬਣਾਉਣ ਲਈ ਵਿਧੀਆਂ ਸ਼ਾਮਿਲ ਹਨ ਜਿਵੇਂ ਸੰਗ੍ਰਹਿ, ਸਮੁਦਾਏ ਸਹਿਕਾਰੀ ਖੇਡਾਂ।

 

ਅਖ਼ੀਰ ਵਿਚ, ਭਾਸ਼ਾਇੰਡੀਆ ਦੀ ਭਾਰਤੀ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਪਹਿਲ–ਕਦਮੀਆਂ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇਖਨਗੇ?

 

ਭਾਸ਼ਾਇੰਡੀਆ ਕਿਸੇ ਵੀ ਭਾਰਤੀ ਭਾਸ਼ਾ ਸ਼ੌਕੀਨ ਲਈ ਇਕ ਜਾਣਕਾਰੀ ਪੋਰਟਲ ਹੈ। ਅਸੀਂ, ਪਾਠਕ ਗਣ ਭਾਸ਼ਾਇੰਡੀਆ ਵਿਚ ਭਰਪੂਰ ਸਮੱਗਰੀ ਅਤੇ ਕਿਰਿਆਸ਼ੀਲ ਫ਼ੋਰਮਾਂ ਚਾਹੁੰਦੇ ਹਨ। ਮੈਂ ਭਾਸ਼ਾਇੰਡੀਆ ਪੋਰਟਲ ਅਤੇ ਭਾਰਤੀ ਭਾਸ਼ਾ ਕੰਪਿਉਟਿੰਗ ਲਈ ਉਨ੍ਹਾਂ ਦੀ ਪਹਿਲਾਂ ਵਾਸਤੇ ਮੁਬਾਰਕਬਾਦ ਦਿੰਦਾ ਹਾਂ।