இந்தியாவின் AI வளர்ச்சி: இந்திய மொழி டேட்டா தான் அடுத்த முக்கிய களம்!

TECHNOLOGY
Whalesbook Logo
AuthorHarsh Vora|Published at:
இந்தியாவின் AI வளர்ச்சி: இந்திய மொழி டேட்டா தான் அடுத்த முக்கிய களம்!

இந்தியாவின் செயற்கை நுண்ணறிவு (AI) துறையில் ஒரு பெரிய சிக்கல் - இந்திய மொழிகளுக்கான தரமான டிஜிட்டல் டேட்டா பற்றாக்குறை. AI போட்டியில், வெறும் மாடல்களை உருவாக்குவதை விட, உள்ளூர் மொழி டேட்டாவை டிஜிட்டல் மயமாக்கி, சுத்தப்படுத்துவது முக்கியமாகியுள்ளது. இது டேட்டா உள்கட்டமைப்பு மற்றும் OCR தொழில்நுட்ப நிறுவனங்களுக்கு புதிய வாய்ப்புகளை உருவாக்குகிறது.

என்ன நடந்தது?

இந்தியாவின் செயற்கை நுண்ணறிவு (AI) துறையில், உள்ளூர் மொழிகளுக்கான டிஜிட்டல் பதிவுகள் இல்லாதது ஒரு பெரிய தடையாக உள்ளது. உலகளாவிய தொழில்நுட்ப நிறுவனங்களும், உள்நாட்டு ஸ்டார்ட்அப்களும் AI மாடல்களை உருவாக்க முதலீடு செய்தாலும், இந்த மாடல்களுக்குத் தேவையான தரமான டிஜிட்டல் உரை மற்றும் ஆவணங்கள் இந்திய மொழிகளில் போதுமானதாக இல்லை. நிபுணர்கள் மற்றும் அரசாங்க முயற்சிகள் இப்போது இதைச் சரிசெய்ய ஒரு விரிவான "தேசிய அறிவு உள்கட்டமைப்பின்" (National Knowledge Infrastructure) அவசியத்தை வலியுறுத்துகின்றன. இதில் முக்கியப் பிரச்சினை ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) தொழில்நுட்பம்தான். பழைய அரசாங்கக் கோப்புகள், செய்தித்தாள்கள், கையெழுத்துப் பிரதிகள் போன்ற பௌதிக ஆவணங்களை இயந்திரம் படிக்கக்கூடிய டிஜிட்டல் டேட்டாவாக மாற்றுவது இதுதான். தற்போது, எழுத்துரு வேறுபாடுகள், மொழி வடிவங்களின் சிக்கல்கள் மற்றும் ஆவணங்களின் சிதைவு காரணமாக, இந்த ஆவணங்களை பெரிய அளவில் டிஜிட்டல் மயமாக்குவது சவாலாக உள்ளது.

முதலீட்டாளர்களுக்கு ஏன் முக்கியம்?

AI துறை ஒரு பெரிய மாற்றத்தைச் சந்தித்து வருகிறது. ஆரம்பத்தில், யார் பெரிய AI மாடல்களை உருவாக்குகிறார்கள் என்ற ஆர்வம் இருந்தது. இப்போது, யாரிடம் சிறந்த டேட்டா இருக்கிறதோ அவர்களே வெற்றியாளர்கள். இந்தியாவைப் பொறுத்தவரை, பௌதிக, காகித அடிப்படையிலான பாரம்பரிய தகவல்களுக்கும், நவீன AI-க்குத் தேவையான டிஜிட்டல் தேவைகளுக்கும் இடையிலான இடைவெளியை வெற்றிகரமாக நிரப்பும் நிறுவனங்களுக்கு முக்கியத்துவம் அதிகரிக்கிறது. தரமான, குறிக்கப்பட்ட (annotated), டிஜிட்டல் மயமாக்கப்பட்ட உள்ளூர் மொழி டேட்டா தொகுப்புகளை வழங்கும் நிறுவனங்கள் - அதாவது AI 'தங்க வேட்டையின்' (AI gold rush) "சுரங்கத் தொழிலாளிகள்" (picks and shovels) - குறிப்பிடத்தக்க போட்டி நன்மைகளைப் பெறலாம் என முதலீட்டாளர்கள் உணர்ந்துள்ளனர். IT சேவை நிறுவனங்கள் மற்றும் ஸ்டார்ட்அப்கள் பாரம்பரிய ஆள்சேர்ப்பு வளர்ச்சியைத் தாண்டிச் செல்லும்போது, தனியுரிம AI-க்குத் தயாரான டேட்டா உள்கட்டமைப்பை உருவாக்குவதும் சொந்தமாக்குவதும் நீண்டகால வணிக நம்பகத்தன்மைக்கான முக்கிய குறிகாட்டிகளாக மாறி வருகின்றன.

பெரிய வணிக சூழல்

டிஜிட்டல் இந்தியா பஹஷினி பிரிவு (Digital India BHASHINI Division) போன்ற அரசாங்க முயற்சிகள், ஒரு இறையாண்மையுள்ள சூழலை உருவாக்க தீவிரமாக செயல்பட்டு வருகின்றன. தரத்தின் தரநிலைகளை உருவாக்கவும், உள்நாட்டு AI கருவிகளை மேம்படுத்தவும் கல்வி நிறுவனங்கள் மற்றும் தனியார் கண்டுபிடிப்பாளர்களுடன் இணைந்து செயல்படுகின்றன. அதே நேரத்தில், இந்திய எழுத்துக்களைத் துல்லியமாகப் புரிந்துகொள்ளும் மாதிரிகளை உருவாக்க சிறப்பு ஸ்டார்ட்அப்கள் மற்றும் நிறுவப்பட்ட தொழில்நுட்ப நிறுவனங்கள் போட்டியிடுகின்றன. இது டேட்டா டிஜிட்டல் மயமாக்கலை ஒரு உயர் முன்னுரிமை சேவைப் பகுதியாக மாற்றியுள்ளது. மென்பொருள் சந்தையில் போட்டி அதிகமாக இருக்கும்போது, "இந்திய மொழி டேட்டா க்யூரேஷன்" (Indian-language data curation) சந்தை ஒப்பீட்டளவில் புதியது. சிக்கலான இந்திய எழுத்துருக்களுக்கான OCR சிக்கலைத் தீர்க்கக்கூடிய மற்றும் இந்த தகவலை இந்தியாவிற்குள்ளேயே வைத்திருப்பதன் மூலம் டேட்டா இறையாண்மையை உறுதிசெய்யும் நிறுவனங்கள், அரசாங்க திட்டங்கள் மற்றும் பல்வேறு பிரிவுகளில் AI-யைப் பயன்படுத்த விரும்பும் தனியார் நிறுவனங்களுக்கு அத்தியாவசிய பங்காளிகளாக தங்களை நிலைநிறுத்துகின்றன.

என்ன தவறாகப் போகலாம்?

சாத்தியக்கூறுகள் அதிகமாக இருந்தாலும், செயல்படுத்தலில் தெளிவான அபாயங்கள் உள்ளன. பெரிய, துண்டு துண்டான வரலாற்று ஆவணங்களை டிஜிட்டல் மயமாக்குவது விலை உயர்ந்தது மற்றும் தொழில்நுட்ப ரீதியாக கடினமானது. பொது அல்லது தனியார் பதிவுகளை டிஜிட்டல் மயமாக்கும்போது அறிவுசார் சொத்துரிமை மற்றும் தரவு தனியுரிமை தொடர்பான சட்ட மற்றும் ஒழுங்குமுறை தடைகளும் உள்ளன. மேலும், இத்துறையில் தற்போது பல சிறிய, சிதறிய முயற்சிகள் உள்ளன. தொழில்துறை மெட்டாடேட்டா மற்றும் தரத்தின் தரத்தை தரப்படுத்தத் தவறினால், நிறுவனங்கள் பெரும் செலவில் பெறும் டேட்டா பயனற்றதாக மாறக்கூடும். துல்லியமான AI மாடல்களுக்குப் பயிற்சி அளிக்க பயனற்றதாக மாறக்கூடும். முதலீட்டாளர்கள், சிக்கலான, நிஜ உலக எழுத்துருக்களை கையாள தொழில்நுட்பத் துல்லியம் இல்லாத "வெறும் கவர்ச்சியான" திட்டங்கள் குறித்து எச்சரிக்கையாக இருக்க வேண்டும், ஏனெனில் தவறான OCR வெளியீட்டைச் சரிசெய்வதற்கான செலவு டேட்டா-மையப்படுத்தப்பட்ட வணிகங்களின் லாப வரம்புகளைக் குறைக்கக்கூடும்.

முதலீட்டாளர்கள் எதைக் கண்காணிக்க வேண்டும்?

முன்னோக்கிச் செல்லும்போது, முக்கியமாகக் கண்காணிக்க வேண்டியவை பெரிய அளவிலான டிஜிட்டல் மயமாக்கல் சோதனைகளின் வெற்றி மற்றும் அரசாங்கம் மற்றும் பெரிய நிறுவனங்களால் இந்தக் கருவிகளின் பயன்பாட்டு விகிதங்கள் ஆகும். IT சேவை நிறுவனங்கள் தங்கள் வருவாய் கலவையை AI-சார்ந்த டேட்டா சேவைகளை நோக்கி எவ்வாறு மாற்றுகின்றன என்பதையும், சிறிய, சிறப்பு AI ஸ்டார்ட்அப்கள் தங்கள் OCR மற்றும் மொழி செயலாக்க தீர்வுகளை லாபகரமாக அளவிட முடியுமா என்பதையும் முதலீட்டாளர்கள் கண்காணிக்கலாம். தேசிய மொழி மொழிபெயர்ப்பு இயக்கம் (National Language Translation Mission) மற்றும் தரவுத்தொகுப்பு உருவாக்கத்திற்கான நிதி ஒதுக்கீடுகள் பற்றிய அரசாங்க அறிவிப்புகள், இந்த டிஜிட்டல் உள்கட்டமைப்பு உருவாக்கத்தின் வேகம் மற்றும் அளவிற்கான முக்கியமான சமிக்ஞைகளாக செயல்படும்.

Get stock alerts instantly on WhatsApp

Quarterly results, bulk deals, concall updates and major announcements delivered in real time.

Disclaimer:This article is published for informational purposes only. While reasonable efforts are made to ensure accuracy, completeness, and timeliness, readers are encouraged to independently verify information before making any decisions based on the content. The views and information presented are subject to editorial review and may be updated without notice.

Instant Stock Alerts on WhatsApp

Used by 10,000+ active investors

1

Add Stocks

Select the stocks you want to track in real time.

2

Get Alerts on WhatsApp

Receive instant updates directly to WhatsApp.

  • Quarterly Results
  • Concall Announcements
  • New Orders & Big Deals
  • Capex Announcements
  • Bulk Deals
  • And much more