இந்தியாவின் செயற்கை நுண்ணறிவு (AI) துறையில் ஒரு பெரிய சிக்கல் - இந்திய மொழிகளுக்கான தரமான டிஜிட்டல் டேட்டா பற்றாக்குறை. AI போட்டியில், வெறும் மாடல்களை உருவாக்குவதை விட, உள்ளூர் மொழி டேட்டாவை டிஜிட்டல் மயமாக்கி, சுத்தப்படுத்துவது முக்கியமாகியுள்ளது. இது டேட்டா உள்கட்டமைப்பு மற்றும் OCR தொழில்நுட்ப நிறுவனங்களுக்கு புதிய வாய்ப்புகளை உருவாக்குகிறது.
என்ன நடந்தது?
இந்தியாவின் செயற்கை நுண்ணறிவு (AI) துறையில், உள்ளூர் மொழிகளுக்கான டிஜிட்டல் பதிவுகள் இல்லாதது ஒரு பெரிய தடையாக உள்ளது. உலகளாவிய தொழில்நுட்ப நிறுவனங்களும், உள்நாட்டு ஸ்டார்ட்அப்களும் AI மாடல்களை உருவாக்க முதலீடு செய்தாலும், இந்த மாடல்களுக்குத் தேவையான தரமான டிஜிட்டல் உரை மற்றும் ஆவணங்கள் இந்திய மொழிகளில் போதுமானதாக இல்லை. நிபுணர்கள் மற்றும் அரசாங்க முயற்சிகள் இப்போது இதைச் சரிசெய்ய ஒரு விரிவான "தேசிய அறிவு உள்கட்டமைப்பின்" (National Knowledge Infrastructure) அவசியத்தை வலியுறுத்துகின்றன. இதில் முக்கியப் பிரச்சினை ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) தொழில்நுட்பம்தான். பழைய அரசாங்கக் கோப்புகள், செய்தித்தாள்கள், கையெழுத்துப் பிரதிகள் போன்ற பௌதிக ஆவணங்களை இயந்திரம் படிக்கக்கூடிய டிஜிட்டல் டேட்டாவாக மாற்றுவது இதுதான். தற்போது, எழுத்துரு வேறுபாடுகள், மொழி வடிவங்களின் சிக்கல்கள் மற்றும் ஆவணங்களின் சிதைவு காரணமாக, இந்த ஆவணங்களை பெரிய அளவில் டிஜிட்டல் மயமாக்குவது சவாலாக உள்ளது.
முதலீட்டாளர்களுக்கு ஏன் முக்கியம்?
AI துறை ஒரு பெரிய மாற்றத்தைச் சந்தித்து வருகிறது. ஆரம்பத்தில், யார் பெரிய AI மாடல்களை உருவாக்குகிறார்கள் என்ற ஆர்வம் இருந்தது. இப்போது, யாரிடம் சிறந்த டேட்டா இருக்கிறதோ அவர்களே வெற்றியாளர்கள். இந்தியாவைப் பொறுத்தவரை, பௌதிக, காகித அடிப்படையிலான பாரம்பரிய தகவல்களுக்கும், நவீன AI-க்குத் தேவையான டிஜிட்டல் தேவைகளுக்கும் இடையிலான இடைவெளியை வெற்றிகரமாக நிரப்பும் நிறுவனங்களுக்கு முக்கியத்துவம் அதிகரிக்கிறது. தரமான, குறிக்கப்பட்ட (annotated), டிஜிட்டல் மயமாக்கப்பட்ட உள்ளூர் மொழி டேட்டா தொகுப்புகளை வழங்கும் நிறுவனங்கள் - அதாவது AI 'தங்க வேட்டையின்' (AI gold rush) "சுரங்கத் தொழிலாளிகள்" (picks and shovels) - குறிப்பிடத்தக்க போட்டி நன்மைகளைப் பெறலாம் என முதலீட்டாளர்கள் உணர்ந்துள்ளனர். IT சேவை நிறுவனங்கள் மற்றும் ஸ்டார்ட்அப்கள் பாரம்பரிய ஆள்சேர்ப்பு வளர்ச்சியைத் தாண்டிச் செல்லும்போது, தனியுரிம AI-க்குத் தயாரான டேட்டா உள்கட்டமைப்பை உருவாக்குவதும் சொந்தமாக்குவதும் நீண்டகால வணிக நம்பகத்தன்மைக்கான முக்கிய குறிகாட்டிகளாக மாறி வருகின்றன.
பெரிய வணிக சூழல்
டிஜிட்டல் இந்தியா பஹஷினி பிரிவு (Digital India BHASHINI Division) போன்ற அரசாங்க முயற்சிகள், ஒரு இறையாண்மையுள்ள சூழலை உருவாக்க தீவிரமாக செயல்பட்டு வருகின்றன. தரத்தின் தரநிலைகளை உருவாக்கவும், உள்நாட்டு AI கருவிகளை மேம்படுத்தவும் கல்வி நிறுவனங்கள் மற்றும் தனியார் கண்டுபிடிப்பாளர்களுடன் இணைந்து செயல்படுகின்றன. அதே நேரத்தில், இந்திய எழுத்துக்களைத் துல்லியமாகப் புரிந்துகொள்ளும் மாதிரிகளை உருவாக்க சிறப்பு ஸ்டார்ட்அப்கள் மற்றும் நிறுவப்பட்ட தொழில்நுட்ப நிறுவனங்கள் போட்டியிடுகின்றன. இது டேட்டா டிஜிட்டல் மயமாக்கலை ஒரு உயர் முன்னுரிமை சேவைப் பகுதியாக மாற்றியுள்ளது. மென்பொருள் சந்தையில் போட்டி அதிகமாக இருக்கும்போது, "இந்திய மொழி டேட்டா க்யூரேஷன்" (Indian-language data curation) சந்தை ஒப்பீட்டளவில் புதியது. சிக்கலான இந்திய எழுத்துருக்களுக்கான OCR சிக்கலைத் தீர்க்கக்கூடிய மற்றும் இந்த தகவலை இந்தியாவிற்குள்ளேயே வைத்திருப்பதன் மூலம் டேட்டா இறையாண்மையை உறுதிசெய்யும் நிறுவனங்கள், அரசாங்க திட்டங்கள் மற்றும் பல்வேறு பிரிவுகளில் AI-யைப் பயன்படுத்த விரும்பும் தனியார் நிறுவனங்களுக்கு அத்தியாவசிய பங்காளிகளாக தங்களை நிலைநிறுத்துகின்றன.
என்ன தவறாகப் போகலாம்?
சாத்தியக்கூறுகள் அதிகமாக இருந்தாலும், செயல்படுத்தலில் தெளிவான அபாயங்கள் உள்ளன. பெரிய, துண்டு துண்டான வரலாற்று ஆவணங்களை டிஜிட்டல் மயமாக்குவது விலை உயர்ந்தது மற்றும் தொழில்நுட்ப ரீதியாக கடினமானது. பொது அல்லது தனியார் பதிவுகளை டிஜிட்டல் மயமாக்கும்போது அறிவுசார் சொத்துரிமை மற்றும் தரவு தனியுரிமை தொடர்பான சட்ட மற்றும் ஒழுங்குமுறை தடைகளும் உள்ளன. மேலும், இத்துறையில் தற்போது பல சிறிய, சிதறிய முயற்சிகள் உள்ளன. தொழில்துறை மெட்டாடேட்டா மற்றும் தரத்தின் தரத்தை தரப்படுத்தத் தவறினால், நிறுவனங்கள் பெரும் செலவில் பெறும் டேட்டா பயனற்றதாக மாறக்கூடும். துல்லியமான AI மாடல்களுக்குப் பயிற்சி அளிக்க பயனற்றதாக மாறக்கூடும். முதலீட்டாளர்கள், சிக்கலான, நிஜ உலக எழுத்துருக்களை கையாள தொழில்நுட்பத் துல்லியம் இல்லாத "வெறும் கவர்ச்சியான" திட்டங்கள் குறித்து எச்சரிக்கையாக இருக்க வேண்டும், ஏனெனில் தவறான OCR வெளியீட்டைச் சரிசெய்வதற்கான செலவு டேட்டா-மையப்படுத்தப்பட்ட வணிகங்களின் லாப வரம்புகளைக் குறைக்கக்கூடும்.
முதலீட்டாளர்கள் எதைக் கண்காணிக்க வேண்டும்?
முன்னோக்கிச் செல்லும்போது, முக்கியமாகக் கண்காணிக்க வேண்டியவை பெரிய அளவிலான டிஜிட்டல் மயமாக்கல் சோதனைகளின் வெற்றி மற்றும் அரசாங்கம் மற்றும் பெரிய நிறுவனங்களால் இந்தக் கருவிகளின் பயன்பாட்டு விகிதங்கள் ஆகும். IT சேவை நிறுவனங்கள் தங்கள் வருவாய் கலவையை AI-சார்ந்த டேட்டா சேவைகளை நோக்கி எவ்வாறு மாற்றுகின்றன என்பதையும், சிறிய, சிறப்பு AI ஸ்டார்ட்அப்கள் தங்கள் OCR மற்றும் மொழி செயலாக்க தீர்வுகளை லாபகரமாக அளவிட முடியுமா என்பதையும் முதலீட்டாளர்கள் கண்காணிக்கலாம். தேசிய மொழி மொழிபெயர்ப்பு இயக்கம் (National Language Translation Mission) மற்றும் தரவுத்தொகுப்பு உருவாக்கத்திற்கான நிதி ஒதுக்கீடுகள் பற்றிய அரசாங்க அறிவிப்புகள், இந்த டிஜிட்டல் உள்கட்டமைப்பு உருவாக்கத்தின் வேகம் மற்றும் அளவிற்கான முக்கியமான சமிக்ஞைகளாக செயல்படும்.
