இந்தியாவின் AI வளர்ச்சி: இந்திய மொழி டேட்டா தான் அடுத்த முக்கிய களம்!

இந்தியாவின் செயற்கை நுண்ணறிவு (AI) துறையில் ஒரு பெரிய சிக்கல் - இந்திய மொழிகளுக்கான தரமான டிஜிட்டல் டேட்டா பற்றாக்குறை. AI போட்டியில், வெறும் மாடல்களை உருவாக்குவதை விட, உள்ளூர் மொழி டேட்டாவை டிஜிட்டல் மயமாக்கி, சுத்தப்படுத்துவது முக்கியமாகியுள்ளது. இது டேட்டா உள்கட்டமைப்பு மற்றும் OCR தொழில்நுட்ப நிறுவனங்களுக்கு புதிய வாய்ப்புகளை உருவாக்குகிறது.

என்ன நடந்தது?

இந்தியாவின் செயற்கை நுண்ணறிவு (AI) துறையில், உள்ளூர் மொழிகளுக்கான டிஜிட்டல் பதிவுகள் இல்லாதது ஒரு பெரிய தடையாக உள்ளது. உலகளாவிய தொழில்நுட்ப நிறுவனங்களும், உள்நாட்டு ஸ்டார்ட்அப்களும் AI மாடல்களை உருவாக்க முதலீடு செய்தாலும், இந்த மாடல்களுக்குத் தேவையான தரமான டிஜிட்டல் உரை மற்றும் ஆவணங்கள் இந்திய மொழிகளில் போதுமானதாக இல்லை. நிபுணர்கள் மற்றும் அரசாங்க முயற்சிகள் இப்போது இதைச் சரிசெய்ய ஒரு விரிவான "தேசிய அறிவு உள்கட்டமைப்பின்" (National Knowledge Infrastructure) அவசியத்தை வலியுறுத்துகின்றன. இதில் முக்கியப் பிரச்சினை ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) தொழில்நுட்பம்தான். பழைய அரசாங்கக் கோப்புகள், செய்தித்தாள்கள், கையெழுத்துப் பிரதிகள் போன்ற பௌதிக ஆவணங்களை இயந்திரம் படிக்கக்கூடிய டிஜிட்டல் டேட்டாவாக மாற்றுவது இதுதான். தற்போது, எழுத்துரு வேறுபாடுகள், மொழி வடிவங்களின் சிக்கல்கள் மற்றும் ஆவணங்களின் சிதைவு காரணமாக, இந்த ஆவணங்களை பெரிய அளவில் டிஜிட்டல் மயமாக்குவது சவாலாக உள்ளது.

முதலீட்டாளர்களுக்கு ஏன் முக்கியம்?

AI துறை ஒரு பெரிய மாற்றத்தைச் சந்தித்து வருகிறது. ஆரம்பத்தில், யார் பெரிய AI மாடல்களை உருவாக்குகிறார்கள் என்ற ஆர்வம் இருந்தது. இப்போது, யாரிடம் சிறந்த டேட்டா இருக்கிறதோ அவர்களே வெற்றியாளர்கள். இந்தியாவைப் பொறுத்தவரை, பௌதிக, காகித அடிப்படையிலான பாரம்பரிய தகவல்களுக்கும், நவீன AI-க்குத் தேவையான டிஜிட்டல் தேவைகளுக்கும் இடையிலான இடைவெளியை வெற்றிகரமாக நிரப்பும் நிறுவனங்களுக்கு முக்கியத்துவம் அதிகரிக்கிறது. தரமான, குறிக்கப்பட்ட (annotated), டிஜிட்டல் மயமாக்கப்பட்ட உள்ளூர் மொழி டேட்டா தொகுப்புகளை வழங்கும் நிறுவனங்கள் - அதாவது AI 'தங்க வேட்டையின்' (AI gold rush) "சுரங்கத் தொழிலாளிகள்" (picks and shovels) - குறிப்பிடத்தக்க போட்டி நன்மைகளைப் பெறலாம் என முதலீட்டாளர்கள் உணர்ந்துள்ளனர். IT சேவை நிறுவனங்கள் மற்றும் ஸ்டார்ட்அப்கள் பாரம்பரிய ஆள்சேர்ப்பு வளர்ச்சியைத் தாண்டிச் செல்லும்போது, தனியுரிம AI-க்குத் தயாரான டேட்டா உள்கட்டமைப்பை உருவாக்குவதும் சொந்தமாக்குவதும் நீண்டகால வணிக நம்பகத்தன்மைக்கான முக்கிய குறிகாட்டிகளாக மாறி வருகின்றன.

பெரிய வணிக சூழல்

டிஜிட்டல் இந்தியா பஹஷினி பிரிவு (Digital India BHASHINI Division) போன்ற அரசாங்க முயற்சிகள், ஒரு இறையாண்மையுள்ள சூழலை உருவாக்க தீவிரமாக செயல்பட்டு வருகின்றன. தரத்தின் தரநிலைகளை உருவாக்கவும், உள்நாட்டு AI கருவிகளை மேம்படுத்தவும் கல்வி நிறுவனங்கள் மற்றும் தனியார் கண்டுபிடிப்பாளர்களுடன் இணைந்து செயல்படுகின்றன. அதே நேரத்தில், இந்திய எழுத்துக்களைத் துல்லியமாகப் புரிந்துகொள்ளும் மாதிரிகளை உருவாக்க சிறப்பு ஸ்டார்ட்அப்கள் மற்றும் நிறுவப்பட்ட தொழில்நுட்ப நிறுவனங்கள் போட்டியிடுகின்றன. இது டேட்டா டிஜிட்டல் மயமாக்கலை ஒரு உயர் முன்னுரிமை சேவைப் பகுதியாக மாற்றியுள்ளது. மென்பொருள் சந்தையில் போட்டி அதிகமாக இருக்கும்போது, "இந்திய மொழி டேட்டா க்யூரேஷன்" (Indian-language data curation) சந்தை ஒப்பீட்டளவில் புதியது. சிக்கலான இந்திய எழுத்துருக்களுக்கான OCR சிக்கலைத் தீர்க்கக்கூடிய மற்றும் இந்த தகவலை இந்தியாவிற்குள்ளேயே வைத்திருப்பதன் மூலம் டேட்டா இறையாண்மையை உறுதிசெய்யும் நிறுவனங்கள், அரசாங்க திட்டங்கள் மற்றும் பல்வேறு பிரிவுகளில் AI-யைப் பயன்படுத்த விரும்பும் தனியார் நிறுவனங்களுக்கு அத்தியாவசிய பங்காளிகளாக தங்களை நிலைநிறுத்துகின்றன.

என்ன தவறாகப் போகலாம்?

சாத்தியக்கூறுகள் அதிகமாக இருந்தாலும், செயல்படுத்தலில் தெளிவான அபாயங்கள் உள்ளன. பெரிய, துண்டு துண்டான வரலாற்று ஆவணங்களை டிஜிட்டல் மயமாக்குவது விலை உயர்ந்தது மற்றும் தொழில்நுட்ப ரீதியாக கடினமானது. பொது அல்லது தனியார் பதிவுகளை டிஜிட்டல் மயமாக்கும்போது அறிவுசார் சொத்துரிமை மற்றும் தரவு தனியுரிமை தொடர்பான சட்ட மற்றும் ஒழுங்குமுறை தடைகளும் உள்ளன. மேலும், இத்துறையில் தற்போது பல சிறிய, சிதறிய முயற்சிகள் உள்ளன. தொழில்துறை மெட்டாடேட்டா மற்றும் தரத்தின் தரத்தை தரப்படுத்தத் தவறினால், நிறுவனங்கள் பெரும் செலவில் பெறும் டேட்டா பயனற்றதாக மாறக்கூடும். துல்லியமான AI மாடல்களுக்குப் பயிற்சி அளிக்க பயனற்றதாக மாறக்கூடும். முதலீட்டாளர்கள், சிக்கலான, நிஜ உலக எழுத்துருக்களை கையாள தொழில்நுட்பத் துல்லியம் இல்லாத "வெறும் கவர்ச்சியான" திட்டங்கள் குறித்து எச்சரிக்கையாக இருக்க வேண்டும், ஏனெனில் தவறான OCR வெளியீட்டைச் சரிசெய்வதற்கான செலவு டேட்டா-மையப்படுத்தப்பட்ட வணிகங்களின் லாப வரம்புகளைக் குறைக்கக்கூடும்.

முதலீட்டாளர்கள் எதைக் கண்காணிக்க வேண்டும்?

முன்னோக்கிச் செல்லும்போது, முக்கியமாகக் கண்காணிக்க வேண்டியவை பெரிய அளவிலான டிஜிட்டல் மயமாக்கல் சோதனைகளின் வெற்றி மற்றும் அரசாங்கம் மற்றும் பெரிய நிறுவனங்களால் இந்தக் கருவிகளின் பயன்பாட்டு விகிதங்கள் ஆகும். IT சேவை நிறுவனங்கள் தங்கள் வருவாய் கலவையை AI-சார்ந்த டேட்டா சேவைகளை நோக்கி எவ்வாறு மாற்றுகின்றன என்பதையும், சிறிய, சிறப்பு AI ஸ்டார்ட்அப்கள் தங்கள் OCR மற்றும் மொழி செயலாக்க தீர்வுகளை லாபகரமாக அளவிட முடியுமா என்பதையும் முதலீட்டாளர்கள் கண்காணிக்கலாம். தேசிய மொழி மொழிபெயர்ப்பு இயக்கம் (National Language Translation Mission) மற்றும் தரவுத்தொகுப்பு உருவாக்கத்திற்கான நிதி ஒதுக்கீடுகள் பற்றிய அரசாங்க அறிவிப்புகள், இந்த டிஜிட்டல் உள்கட்டமைப்பு உருவாக்கத்தின் வேகம் மற்றும் அளவிற்கான முக்கியமான சமிக்ஞைகளாக செயல்படும்.

இந்தியாவின் AI வளர்ச்சி: இந்திய மொழி டேட்டா தான் அடுத்த முக்கிய களம்!

என்ன நடந்தது?

முதலீட்டாளர்களுக்கு ஏன் முக்கியம்?

பெரிய வணிக சூழல்

என்ன தவறாகப் போகலாம்?

முதலீட்டாளர்கள் எதைக் கண்காணிக்க வேண்டும்?

Get stock alerts instantly on WhatsApp

Instant Stock Alerts on WhatsApp

Add Stocks

Get Alerts on WhatsApp