ਭਾਰਤ ਦਾ AI ਸੈਕਟਰ ਇੱਕ ਵੱਡੀ ਰੁਕਾਵਟ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਿਹਾ ਹੈ: ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਲਈ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਡਿਜੀਟਲ ਡਾਟਾ ਦੀ ਘਾਟ। ਜਿਵੇਂ-ਜਿਵੇਂ AI ਲੀਡਰਸ਼ਿਪ ਦੀ ਦੌੜ ਤੇਜ਼ ਹੋ ਰਹੀ ਹੈ, ਧਿਆਨ ਸਿਰਫ਼ AI ਮਾਡਲ ਬਣਾਉਣ ਤੋਂ ਹੱਟ ਕੇ ਸਥਾਨਕ ਭਾਸ਼ਾਈ ਡਾਟਾ ਨੂੰ ਡਿਜੀਟਾਈਜ਼ ਕਰਨ ਅਤੇ ਸਾਫ਼ ਕਰਨ ਦੇ ਔਖੇ ਕੰਮ ਵੱਲ ਜਾ ਰਿਹਾ ਹੈ। ਇਸ ਬਦਲਾਅ ਨੇ ਡਾਟਾ ਇਨਫ్రాਸਟਰਕਚਰ ਅਤੇ ਆਪਟੀਕਲ ਕੈਰੈਕਟਰ ਰੈਕੋਗਨੀਸ਼ਨ (OCR) ਟੈਕਨਾਲੋਜੀ ਵਿੱਚ ਮਾਹਿਰ ਕੰਪਨੀਆਂ ਲਈ ਇੱਕ ਨਵਾਂ ਮੌਕਾ ਪੈਦਾ ਕੀਤਾ ਹੈ।
ਕੀ ਹੋਇਆ?
ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਵਿੱਚ ਅਗਵਾਈ ਕਰਨ ਦੀ ਭਾਰਤ ਦੀ ਇੱਛਾ ਇੱਕ ਅਸਲੀ ਰੁਕਾਵਟ 'ਤੇ ਆ ਕੇ ਖੜ੍ਹ ਗਈ ਹੈ: ਦੇਸੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਡਿਜੀਟਲ ਰਿਕਾਰਡਾਂ ਦੀ ਘਾਟ। ਜਿੱਥੇ ਦੁਨੀਆ ਭਰ ਦੀਆਂ ਟੈਕ ਦਿੱਗਜ ਕੰਪਨੀਆਂ ਅਤੇ ਸਥਾਨਕ ਸਟਾਰਟਅੱਪ AI ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਪੈਸਾ ਲਗਾ ਰਹੇ ਹਨ, ਉੱਥੇ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਲਈ ਅਸਲ 'ਈਂਧਨ' - ਭਾਰਤੀ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਡਿਜੀਟਲ ਟੈਕਸਟ ਅਤੇ ਦਸਤਾਵੇਜ਼ - ਅਜੇ ਵੀ ਘੱਟ ਹੈ। ਮਾਹਰ ਅਤੇ ਸਰਕਾਰੀ ਪਹਿਲਕਦਮੀਆਂ ਹੁਣ ਇਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਇੱਕ ਵਿਆਪਕ "ਨੈਸ਼ਨਲ ਨੌਲੇਜ ਇਨਫਰਾਸਟਰਕਚਰ" ਦੀ ਲੋੜ 'ਤੇ ਜ਼ੋਰ ਦੇ ਰਹੇ ਹਨ। ਮੁੱਖ ਰੁਕਾਵਟ ਆਪਟੀਕਲ ਕੈਰੈਕਟਰ ਰੈਕੋਗਨੀਸ਼ਨ (OCR) ਹੈ - ਇਹ ਤਕਨੀਕ ਜੋ ਭੌਤਿਕ ਦਸਤਾਵੇਜ਼ਾਂ (ਜਿਵੇਂ ਕਿ ਪੁਰਾਣੀਆਂ ਸਰਕਾਰੀ ਫਾਈਲਾਂ, ਅਖਬਾਰਾਂ, ਅਤੇ ਹੱਥ ਲਿਖਤ ਰਿਕਾਰਡ) ਨੂੰ ਮਸ਼ੀਨ ਦੁਆਰਾ ਪੜ੍ਹਨ ਯੋਗ ਡਿਜੀਟਲ ਡਾਟਾ ਵਿੱਚ ਬਦਲਦੀ ਹੈ। ਵਰਤਮਾਨ ਵਿੱਚ, ਫੌਂਟਾਂ ਵਿੱਚ ਭਿੰਨਤਾ, ਲਿਪੀ ਦੀ ਜਟਿਲਤਾ, ਅਤੇ ਰਿਕਾਰਡਾਂ ਦੇ ਭੌਤਿਕ ਖਰਾਬ ਹੋਣ ਕਾਰਨ ਇਨ੍ਹਾਂ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਡਿਜੀਟਾਈਜ਼ ਕਰਨਾ ਇੱਕ ਵੱਡੀ ਚੁਣੌਤੀ ਬਣੀ ਹੋਈ ਹੈ।
ਨਿਵੇਸ਼ਕਾਂ ਲਈ ਇਸਦਾ ਕੀ ਮਾਇਨਾ ਹੈ?
AI ਉਦਯੋਗ ਇੱਕ ਢਾਂਚਾਗਤ ਬਦਲਾਅ ਵਿੱਚੋਂ ਲੰਘ ਰਿਹਾ ਹੈ। ਸ਼ੁਰੂ ਵਿੱਚ, ਸਭ ਤੋਂ ਵੱਡੇ, ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਮਾਡਲ ਕੌਣ ਬਣਾ ਸਕਦਾ ਹੈ, ਇਸ ਬਾਰੇ ਹਾਈਪ ਸੀ। ਹੁਣ, ਲੜਾਈ ਦਾ ਮੈਦਾਨ ਇਸ ਗੱਲ 'ਤੇ ਆ ਗਿਆ ਹੈ ਕਿ ਕਿਸ ਕੋਲ ਸਭ ਤੋਂ ਵਧੀਆ ਡਾਟਾ ਹੈ। ਭਾਰਤ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਹੱਤਵ ਭੌਤਿਕ, ਕਾਗਜ਼-ਆਧਾਰਿਤ ਵਿਰਾਸਤ ਅਤੇ ਆਧੁਨਿਕ AI ਦੀਆਂ ਡਿਜੀਟਲ-ਪਹਿਲੀ ਲੋੜਾਂ ਵਿਚਕਾਰ ਪਾੜੇ ਨੂੰ ਸਫਲਤਾਪੂਰਵਕ ਪੂਰਾ ਕਰਨ ਵਾਲੀਆਂ ਕੰਪਨੀਆਂ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। ਨਿਵੇਸ਼ਕ ਇਹ ਪਛਾਣਨ ਲੱਗੇ ਹਨ ਕਿ ਉੱਚ-ਗੁਣਵੱਤਾ, ਐਨੋਟੇਟਿਡ, ਅਤੇ ਡਿਜੀਟਾਈਜ਼ਡ ਸਥਾਨਕ-ਭਾਸ਼ਾਈ ਡਾਟਾਸੈੱਟ ਪ੍ਰਦਾਨ ਕਰਨ ਦੇ ਸਮਰੱਥ ਕੰਪਨੀਆਂ - ਅਸਲ ਵਿੱਚ AI ਗੋਲਡ ਰਸ਼ ਦੇ "ਖਾਣ ਅਤੇ ਸ਼ਾਵਲ" - ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਤੀਯੋਗੀ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਜਿਵੇਂ-ਜਿਵੇਂ IT ਸੇਵਾਵਾਂ ਕੰਪਨੀਆਂ ਅਤੇ ਸਟਾਰਟਅੱਪ ਰਵਾਇਤੀ ਹੈੱਡਕਾਊਂਟ-ਆਧਾਰਿਤ ਵਿਕਾਸ ਤੋਂ ਦੂਰ ਹੋ ਰਹੇ ਹਨ, ਪ੍ਰੋਪਰਾਈਟਰੀ AI-ਤਿਆਰ ਡਾਟਾ ਬੁਨਿਆਦੀ ਢਾਂਚਾ ਬਣਾਉਣ ਅਤੇ ਉਸ ਦੇ ਮਾਲਕ ਬਣਨ ਦੀ ਸਮਰੱਥਾ ਲੰਬੇ ਸਮੇਂ ਦੇ ਕਾਰੋਬਾਰੀ ਜੀਵਨ-ਵਿਆਪਕਤਾ ਦਾ ਮੁੱਖ ਸੂਚਕ ਬਣ ਰਹੀ ਹੈ।
ਵੱਡਾ ਵਪਾਰਕ ਸੰਦਰਭ
ਸਰਕਾਰੀ ਪਹਿਲਕਦਮੀਆਂ, ਜਿਵੇਂ ਕਿ ਡਿਜੀਟਲ ਇੰਡੀਆ ਭਾਸ਼ਿਨੀ ਡਿਵੀਜ਼ਨ, ਇੱਕ ਪ੍ਰਭੂਸੱਤਾ ਵਾਲਾ ਈਕੋਸਿਸਟਮ ਬਣਾਉਣ ਲਈ ਸਰਗਰਮੀ ਨਾਲ ਕੰਮ ਕਰ ਰਹੀਆਂ ਹਨ, ਜੋ ਡਾਟਾ ਗੁਣਵੱਤਾ ਨੂੰ ਮਿਆਰੀ ਬਣਾਉਣ ਅਤੇ ਦੇਸੀ AI ਟੂਲ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਅਕਾਦਮਿਕ ਸੰਸਥਾਵਾਂ ਅਤੇ ਪ੍ਰਾਈਵੇਟ ਨਵੀਨਤਾਕਾਰਾਂ ਨਾਲ ਸਾਂਝੇਦਾਰੀ ਕਰ ਰਹੀਆਂ ਹਨ। ਉਸੇ ਸਮੇਂ, ਵਿਸ਼ੇਸ਼ ਸਟਾਰਟਅੱਪ ਅਤੇ ਸਥਾਪਿਤ ਟੈਕ ਫਰਮਾਂ ਭਾਰਤੀ ਲਿਪੀਆਂ ਦੀ ਸਹੀ ਢੰਗ ਨਾਲ ਵਿਆਖਿਆ ਕਰਨ ਵਾਲੇ ਮਾਡਲ ਵਿਕਸਿਤ ਕਰਨ ਲਈ ਮੁਕਾਬਲਾ ਕਰ ਰਹੇ ਹਨ। ਇਸ ਨੇ ਡਾਟਾ ਡਿਜੀਟਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਇੱਕ ਉੱਚ-ਪ੍ਰਾਥਮਿਕਤਾ ਵਾਲਾ ਸੇਵਾ ਖੇਤਰ ਬਣਾ ਦਿੱਤਾ ਹੈ। ਵਿਆਪਕ ਸੌਫਟਵੇਅਰ ਬਾਜ਼ਾਰ ਦੇ ਉਲਟ, ਜਿੱਥੇ ਮੁਕਾਬਲਾ ਜ਼ਬਰਦਸਤ ਹੈ, "ਭਾਰਤੀ-ਭਾਸ਼ਾਈ ਡਾਟਾ ਕਿਊਰੇਸ਼ਨ" ਦਾ ਬਾਜ਼ਾਰ ਅਜੇ ਨਵਾਂ ਹੈ। ਉਹ ਕੰਪਨੀਆਂ ਜੋ ਜਟਿਲ ਭਾਰਤੀ ਲਿਪੀਆਂ ਲਈ OCR ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੀਆਂ ਹਨ - ਅਤੇ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਭਾਰਤ ਦੇ ਅੰਦਰ ਰੱਖ ਕੇ ਡਾਟਾ ਪ੍ਰਭੂਸੱਤਾ ਯਕੀਨੀ ਬਣਾਉਂਦੀਆਂ ਹਨ - ਉਹ ਸਰਕਾਰੀ ਪ੍ਰੋਜੈਕਟਾਂ ਅਤੇ ਵਿਭਿੰਨ ਜਨਸੰਖਿਆ ਵਿੱਚ AI ਤਾਇਨਾਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਵਾਲੇ ਪ੍ਰਾਈਵੇਟ ਉੱਦਮਾਂ ਦੋਵਾਂ ਲਈ ਜ਼ਰੂਰੀ ਭਾਈਵਾਲ ਵਜੋਂ ਆਪਣੀ ਸਥਿਤੀ ਬਣਾ ਰਹੀਆਂ ਹਨ।
ਕੀ ਗਲਤ ਹੋ ਸਕਦਾ ਹੈ?
ਜਦੋਂ ਕਿ ਸੰਭਾਵਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਸਪੱਸ਼ਟ ਕਾਰਜਕਾਰੀ ਜੋਖਮ ਹਨ। ਵਿਸ਼ਾਲ, ਖੰਡਿਤ ਇਤਿਹਾਸਕ ਆਰਕਾਈਵਜ਼ ਨੂੰ ਡਿਜੀਟਾਈਜ਼ ਕਰਨਾ ਮਹਿੰਗਾ ਅਤੇ ਤਕਨੀਕੀ ਤੌਰ 'ਤੇ ਮੁਸ਼ਕਲ ਹੈ। ਜਨਤਕ ਜਾਂ ਨਿੱਜੀ ਰਿਕਾਰਡਾਂ ਨੂੰ ਡਿਜੀਟਾਈਜ਼ ਕਰਦੇ ਸਮੇਂ ਬੌਧਿਕ ਸੰਪਤੀ ਅਤੇ ਡਾਟਾ ਗੋਪਨੀਯਤਾ ਦੇ ਸਬੰਧ ਵਿੱਚ ਕਾਨੂੰਨੀ ਅਤੇ ਰੈਗੂਲੇਟਰੀ ਰੁਕਾਵਟਾਂ ਵੀ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਖੇਤਰ ਵਰਤਮਾਨ ਵਿੱਚ ਖੰਡਿਤ ਕੋਸ਼ਿਸ਼ਾਂ ਨਾਲ ਭਰਿਆ ਹੋਇਆ ਹੈ। ਜੇ ਉਦਯੋਗ ਮੈਟਾਡੇਟਾ ਅਤੇ ਡਾਟਾ ਗੁਣਵੱਤਾ ਨੂੰ ਮਿਆਰੀ ਬਣਾਉਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ, ਤਾਂ ਕੰਪਨੀਆਂ "ਗੰਦੇ ਡਾਟਾ" ਨਾਲ ਆਪਣੇ ਆਪ ਨੂੰ ਪਾ ਸਕਦੀਆਂ ਹਨ ਜੋ ਪ੍ਰਾਪਤ ਕਰਨਾ ਮਹਿੰਗਾ ਹੈ ਪਰ ਸਹੀ AI ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਲਈ ਬੇਕਾਰ ਹੈ। ਨਿਵੇਸ਼ਕਾਂ ਨੂੰ "ਹਾਈਪ" ਕੀਤੇ ਪ੍ਰੋਜੈਕਟਾਂ ਤੋਂ ਵੀ ਸਾਵਧਾਨ ਰਹਿਣਾ ਚਾਹੀਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਜਟਿਲ, ਅਸਲ-ਦੁਨੀਆ ਦੀਆਂ ਲਿਪੀਆਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਤਕਨੀਕੀ ਕਠੋਰਤਾ ਦੀ ਘਾਟ ਹੈ, ਕਿਉਂਕਿ ਅਣ-ਸਹੀ OCR ਆਉਟਪੁੱਟ ਨੂੰ ਸਾਫ਼ ਕਰਨ ਦੀ ਲਾਗਤ ਡਾਟਾ-ਕੇਂਦਰਿਤ ਕਾਰੋਬਾਰਾਂ ਲਈ ਲਾਭ ਹਾਸ਼ੀਏ ਨੂੰ ਖਾ ਸਕਦੀ ਹੈ।
ਨਿਵੇਸ਼ਕਾਂ ਨੂੰ ਕੀ ਟਰੈਕ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ?
ਅੱਗੇ ਵਧਦੇ ਹੋਏ, ਮੁੱਖ ਨਿਗਰਾਨੀ ਵੱਡੇ ਪੱਧਰ ਦੇ ਡਿਜੀਟਾਈਜ਼ੇਸ਼ਨ ਬੈਂਚਮਾਰਕ ਦੀ ਸਫਲਤਾ ਅਤੇ ਸਰਕਾਰ ਅਤੇ ਵੱਡੇ ਉੱਦਮਾਂ ਦੁਆਰਾ ਇਹਨਾਂ ਸਾਧਨਾਂ ਦੀ ਅਪਣਾਉਣ ਦੀ ਦਰ ਹੋਵੇਗੀ। ਨਿਵੇਸ਼ਕ ਇਹ ਟਰੈਕ ਕਰ ਸਕਦੇ ਹਨ ਕਿ IT ਸੇਵਾਵਾਂ ਕੰਪਨੀਆਂ AI-ਅਗਵਾਈ ਵਾਲੀਆਂ ਡਾਟਾ ਸੇਵਾਵਾਂ ਵੱਲ ਆਪਣੇ ਮਾਲੀਏ ਦੇ ਮਿਸ਼ਰਣ ਨੂੰ ਕਿਵੇਂ ਬਦਲ ਰਹੀਆਂ ਹਨ, ਅਤੇ ਕੀ ਛੋਟੇ, ਵਿਸ਼ੇਸ਼ AI ਸਟਾਰਟਅੱਪ ਆਪਣੇ OCR ਅਤੇ ਭਾਸ਼ਾ-ਪ੍ਰੋਸੈਸਿੰਗ ਹੱਲਾਂ ਨੂੰ ਲਾਭਕਾਰੀ ਢੰਗ ਨਾਲ ਸਕੇਲ ਕਰ ਸਕਦੇ ਹਨ। ਨੈਸ਼ਨਲ ਲੈਂਗੂਏਜ ਟ੍ਰਾਂਸਲੇਸ਼ਨ ਮਿਸ਼ਨ 'ਤੇ ਸਰਕਾਰੀ ਅਪਡੇਟਸ ਅਤੇ ਡਾਟਾਸੈੱਟ ਬਣਾਉਣ ਲਈ ਫੰਡਿੰਗ ਅਲਾਟਮੈਂਟ ਇਸ ਡਿਜੀਟਲ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੇ ਬਿਲਡ-ਆਊਟ ਦੀ ਗਤੀ ਅਤੇ ਪੈਮਾਨੇ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸੰਕੇਤ ਵਜੋਂ ਕੰਮ ਕਰਨਗੇ।
