98% match विएतओसीआर टेसेरक्ट ओसीआर इंजन ke liye जावा में बना ek जीयूआई फ्रंटएण्ड है , जो सामान्य फॉर्मेट की छवियों और कई-पेज वाली छवियों के अक्षर पहचानने में मदद करता है . इस प्रोग्राम में पोस्टप्रोसेसिंग है जिससे ओसीआर प्रक्रिया से होने वाले कई सामान्य गलतियाँ सुधारी जा सकती है, जिससे सफलता की दर बढ़ जाती है . प्रोग्राम को कॉन्सोल एप्लीकेशन के रूप में कमांड लाइन से भी चलाया जा सकता है .
अब बैच प्रोसेसिंग भी सपोर्टेड है . प्रोग्राम एक वाच फोल्डर को नयी छवि फाइलों के लिए चेक करता है औए उन्हें स्वतः ओसीआर करके रिकग्निशन की आउटपुट को आउटपुट फोल्डर में सहेजता है .
जावा रनटाइम एनवायरनमेंट 8 या उसके बादका. On Windows, Microsoft Visual C++ 2022 Redistributable Package is also required.
टेसेरक्ट विंडोज एक्सीक्यूटेबल इस प्रोग्राम के साथ दिया गया है . टेसेरक्ट के अन्य लैंग्वेज डेटा पैक जिनके नाम ISO639-3 कोड से शुरू होते हैं, tessdata
सबडिरेक्टरी में रखे जाने चाहिए .
लिनक्स के लिए, टेसेरक्ट और इसके लैंग्वेज डेटा पैकेज Graphics (universe) रिपोसिटरी में हैं. इनको सेनेप्टिक या निम्न कमांड से इनस्टॉल किया जा सकता है .
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie
The files will be placed in /usr/bin
and /usr/share/tesseract-ocr/tessdata
,
respectively. On the other hand, if Tesseract is built and installed from the source,
they will be placed in /usr/local/bin
and /usr/local/share/tessdata
.
You can also let VietOCR know the location
of tessdata
via the environment variable TESSDATA_PREFIX
:
export TESSDATA_PREFIX=/usr/local/share/
अन्य प्लेटफार्म के लिए, कृपया टेसेरक्ट विकी पेज देखें ..
विएतओसीआर चुने हुए लैंग्वेज पैक को डाउनलोड और इनस्टॉल करने की सुविधा Download Language Data मेनू आइटम द्वारा प्रदान करता है . tessdata
फोल्डर की लोकेशन के अनुसार, अगर डाउनलोड किया हुआ डेटा सिस्टम फोल्डर जैसे कि, लिनक्स में /usr
या विंडोज में C:\Program Files
में है, तो डाउनलोड किये डेटा को इंस्टाल करने के लिए आप को रूट या एडमिन के रूप में प्रोग्राम चलाना पडेगा .
विंडोज पर स्कैनिंग समर्थन विंडोज इमेज एक्वीजीशन लाइब्रेरी v2.0 के माध्यम से प्रदान किया गया है।
लिनक्स में, स्कैनिंग के लिए SANE पैकेज इंस्टाल करना आवश्यक है .
sudo apt-get install libsane sane sane-utils libsane-extras xsane
पीडीऍफ़ सपोर्ट PDFBox द्वारा उपलब्ध है.
स्पेलचेक सुविधा हन्स्पेल्ल द्वारा उपलब्ध है , जिसके
शब्दकोश की (.aff
, .dic
) फाइलें विएतओसीआर के dict
फोल्डर में डालनी चाहियें. user.dic
एक UTF-8-एन्कोडिंग वाली फाइल है जिसमे कस्टम शब्दों की सूची डाली जा सकती है, हर लाइन में एक शब्द .
लिनक्स में, हनस्पेल और इसके शब्दकोशों को सिनेप्टिक या apt
द्वारा निम्न तरीके से इंस्टाल किया जा सकता है :
sudo apt-get install hunspell hunspell-hi-in
प्रोग्राम चलाने के लिए :
java -jar VietOCR.jar
नोट: अगर आपको आउट-ऑफ़-मेमोरी एक्सेप्शन मिले तो जार के बजाय ocr
स्क्रिप्ट फाइल चलायें ..
वियतनामी लैंग्वेज डेटा टाइम्स न्यू रोमन, एरियल, वेर्दाना और कुरियर न्यू फ़ॉन्ट्स से बनाया गया है . जिन छवियों के फॉन्ट ग्लिफ इनसे मिलते जुलते हैं उनके रिकग्निशन का अच्छा चांस रहेगा . उन छवियों को ओसीआर करने के लिए जिनके फॉन्ट ग्लिफ इनसे अलग हैं, टेसेरक्ट को उन टाइपफेसेस का लैंग्वेज डेटा बनाने के लिए ट्रेनिंग की ज़रूरत पड़ेगी. लेटेस्ट वर्शन के साथ कुछ VNI और TCVN3 (ABC) फ़ॉन्ट्स का लैंग्वेज डेटा भी दिया गया है .
ओसीआर की जाने वाली छवियों को कम से कम 200 डीपीआई (डॉट पर इंच) से 400 डीपीआई रिसोल्यूशन तक मोनोक्रोम (ब्लैक एंड वाइट) या ग्रेस्केल में स्कैन करना चाहिए . ज्यादा ऊंचे रिसोल्यूशन पर स्कैन करने से पहचान में बेहतर सफलता मिलेगी ऐसा ज़रूरी नही है . अभी वियतनामी के लिए एक्यूरेसी 97% तक हो सकती है और हो सकता है की टेसेरक्ट की अगली रिलीस में ये और बढ़ जाए . फिर भी वास्तविक दर स्कैन् की हुई छवि की गुणवत्ता पर काफी निर्भर करती है . स्कैनिंग के लिए टिपिकल सेटिंग है 300 डीपीआई और ब्लैकएंडवाइट के लिए 1 बीपीपी (बिट पर पिक्स़ल) या ग्रेस्केल के लिए 8 बीपीपी अनकंप्रेस्ड टिफ या पीएनजी फॉर्मेट .
स्क्रीनशॉट मोड कम रिसोल्युशन की छवियो, जैसे कि स्क्रीन प्रिंट, को 300 डीपीआई तक रिस्केल करके ज्यादा बेहतर रिकग्निशन देता है .
बिल्ट-इन टेक्स्ट पोस्टप्रोसेसिंग अल्गोरिथम के साथ साथ आप UTF-8 एन्कोडिंग की टैब डिलिमिटेड टेक्स्ट फाइल x.DangAmbigs.txt
द्वारा अपनी कस्टम टेक्स्ट रिप्लेसमेंट स्कीम भी बना सकते हैं, जिसमें x का अर्थ ISO639-3 भाषा कोड है . प्लेन और रेगऍक्स टेक्स्ट दोनों तरह के बदलाव किये जा सकते हैं .
आप टेसेरक्ट का व्यवहार बदलने के लिए, इनिट-ओन्ली और नॉन-इनिट कंट्रोल पैरामीटर्स को क्रमशः tessdata/configs/tess_configs
और tess_configvars
फाइलों में डाल सकते हैं.
कुछ बिल्ट-इन औजार भी उपलब्ध हैं जिनसे सुविधाजनक ओसीआर करने के लिए अलग छवियों या पीडीऍफ़ फाइलों को जोड़ कर एक बनाया जा सकता है या बहुत से पेजों वाली छवियों या पीडीऍफ़ फाइलों को, जिनसे आउट-ऑफ़-मेमोरी एक्सेप्शन हो सकता है, विभाजित कर छोटा बनाया जा सकता है .
पहचानने में गलतियों को तीन श्रेणियों में विभाजित किया जा सकता है . कई गलतियाँ लैटर केस से सम्बंधित हैं, उदाहरण के लिए hOa, nhắC — इनको पॉपुलर यूनिकोड टेक्स्ट एडिटरों द्वारा आसानी से ठीक किया जा सकता है . अन्य कई गलतियाँ ओसीआर प्रक्रिया के फलस्वरूप हैं जैसे कि गलत मात्राएँ, या मिलतेजुलते रूप वाला दूसरा कोई लैटर — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. ये सब भी स्पेल चेकर प्रोग्रामों द्वारा आसानी से ठीक किये जा सकते हैं . बिल्ट-इन पोस्टप्रोसेसिंग फंक्शन से उपरलिखित कई गलतियाँ ठीक की जा सकती हैं .
आखिरी तरह की गलतियाँ पहचानने में सबसे मुश्किल है क्योंकि ये सेमांटिक हैं, मतलब की ये शब्द शब्दकोष में पाए जायेंगे पर इस कॉन्टेक्स्ट में उनका प्रयोग गलत है जैसे कि tinh – tình, vân – vấn.ऎसी गलतियों को एडिटर द्वारा पढ़ कर ओरिजिनल छवि के अनुरूप सही करने की आवश्यकता होगी .
निम्न तरीका बताता है कि बिल्ट-इन फंक्शनलिटी से पहेल दो तरह की ओसीआर त्रुटियों को किस तरह सुधारा जाय .
ऊपर लिखी प्रक्रिया से अधिकतर सामान्य त्रुटियाँ हटाई जा सकती हैं, बाकी सेमंटिक त्रुटियाँ थोड़ी हैं, पर उन्हें दूर कर डॉक्यूमेंट को ओरिजिनल स्कैन्ड डॉक्यूमेंट जैसा बनाने के लिए, ह्यूमन एडिटर को पढ़ कर गलतियाँ सुधारनी होंगी, अगर चाहिए तो.
अगर कोई प्रश्न हैं तो विएतओसीआर फोरम. में पोस्ट करें .