ஒரு PDF-ஐ வாசிக்க எத்தனை ஏஐ தேவை? இயந்திரங்களுக்குப் புரியாத ‘டிஜிட்டல்’ புதிர்!
கணினி உலகில் நாம் அன்றாடம் பயன்படுத்தும் கோப்புகளில் மிகவும் பிரபலமானது PDF (Portable Document Format). ஆனால், மனிதர்களாகிய நமக்கு எளிதாகத் தெரியும் இந்த PDF, செயற்கை நுண்ணறிவு (AI) இயந்திரங்களுக்கு ஒரு சிம்மசொப்பனமாகவே இருந்து வருகிறது. “ஏன் ஒரு ஏஐ-ஆல் ஒரு சாதாரண PDF-ஐச் சரியாகப் புரிந்துகொள்ள முடியவில்லை?” என்ற கேள்விக்குப் பின்னால் ஒரு சுவாரசியமான தொழில்நுட்ப வரலாறு இருக்கிறது.
இயந்திரங்களுக்காகப் பிறக்காத பிடிஎஃப்!
1990-களின் தொடக்கத்தில் அடோப் (Adobe) நிறுவனம் PDF-ஐ உருவாக்கியபோது, அதன் நோக்கம் இயந்திரங்கள் வாசிக்க வேண்டும் என்பதாக இருக்கவில்லை. ஒரு கோப்பை எந்தக் கணினியில் திறந்தாலும் அல்லது பிரிண்ட் எடுத்தாலும், அதன் வடிவம் (Layout) மாறாமல் அப்படியே இருக்க வேண்டும் என்பதுதான் அதன் ஒரே நோக்கம்.

எளிமையாகச் சொன்னால், HTML போன்ற மற்ற வடிவங்கள் ஒரு செய்தியை “வரிசைப்படி” சேமிக்கும். ஆனால், PDF என்பது ஒரு செய்தியைச் சேமிக்காமல், அந்தப் பக்கத்தில் எழுத்துக்கள் எங்கே அமர வேண்டும் என்பதற்கான “வரைபடத்தை” (Coordinates) மட்டுமே வைத்திருக்கிறது. இது ஒரு காகிதத்தில் அச்சிடப்பட்ட படத்தை இயந்திரத்திடம் கொடுத்து “இதில் என்ன இருக்கிறது?” என்று கேட்பது போன்றது.
ஏஐ சந்திக்கும் சவால்கள்
ஒரு PDF-ல் இருக்கும் தகவல்களை ஏஐ பிரித்தெடுக்கும் போது பல சிக்கல்களைச் சந்திக்கிறது:
-
தாறுமாறான எழுத்துக்கள்: நாம் படிக்கும்போது வரிகள் வரிசையாகத் தெரியும். ஆனால் இயந்திரத்திற்கு அது அங்கே ஒரு எழுத்து, இங்கே ஒரு குறியீடு எனச் சிதறிக் கிடக்கும் புள்ளிகளாகவே தெரியும்.
-
அட்டவணைகள் (Tables): PDF-ல் உள்ள அட்டவணைகளைச் சரியாகப் புரிந்துகொள்வது ஏஐ-க்கு இமயமலை ஏறுவது போன்றது. எந்தத் தரவு எந்தத் தலைப்பின் கீழ் வருகிறது என்பதைக் கண்டுபிடிப்பதில் ஏஐ அடிக்கடி குழம்பிப்போகிறது.
-
படங்களுக்குள் இருக்கும் எழுத்துக்கள்: ஸ்கேன் செய்யப்பட்ட பிடிஎஃப் கோப்புகளை ஏஐ வாசிக்க வேண்டுமானால், முதலில் அது படமா அல்லது எழுத்தா என்பதைக் கண்டறியும் மற்றுமொரு தொழில்நுட்பம் (OCR) தேவைப்படுகிறது.
எத்தனை ஏஐ தேவை?
இன்று ஒரு மேம்பட்ட ஏஐ (LLM) கூட ஒரு பிடிஎஃப் கோப்பை முழுமையாகப் புரிந்துகொள்ளப் பல “உதவி ஏஐ”-களை நாடுகிறது.
-
முதலில், பக்கத்தின் அமைப்பைப் பிரிக்க ஒரு ஏஐ (Layout Analysis).
-
பின்பு, படங்களை எழுத்துக்களாக மாற்ற மற்றொன்று (OCR).
-
இறுதியாக, அந்தத் தகவல்களைத் தொகுத்து நமக்கு விளக்க ஒரு நவீன ஏஐ (Chatbot/LLM).
ஆக, ஒரு சிக்கலான PDF கோப்பை மனிதர்களுக்குப் புரியும்படி விளக்கப் பின்னணியில் ஒரு பட்டாளமே வேலை செய்ய வேண்டியிருக்கிறது. பிடிஎஃப் என்பது பார்ப்பதற்குப் பக்காவாக இருந்தாலும், அது ஏஐ உலகிற்கு இன்னும் ஒரு புரியாத புதிராகவே நீடிக்கிறது.
ஈஸ்வர் பிரசாத்


