विएतओसीआर

विवरण

98% match विएतओसीआर टेसेरक्ट ओसीआर इंजन ke liye जावा में बना ek जीयूआई फ्रंटएण्ड है , जो सामान्य फॉर्मेट की छवियों और कई-पेज वाली छवियों के अक्षर पहचानने में मदद करता है . इस प्रोग्राम में पोस्टप्रोसेसिंग है जिससे ओसीआर प्रक्रिया से होने वाले कई सामान्य गलतियाँ सुधारी जा सकती है, जिससे सफलता की दर बढ़ जाती है . प्रोग्राम को कॉन्सोल एप्लीकेशन के रूप में कमांड लाइन से भी चलाया जा सकता है .

अब बैच प्रोसेसिंग भी सपोर्टेड है . प्रोग्राम एक वाच फोल्डर को नयी छवि फाइलों के लिए चेक करता है औए उन्हें स्वतः ओसीआर करके रिकग्निशन की आउटपुट को आउटपुट फोल्डर में सहेजता है .

सिस्टम की ज़रूरतें

जावा रनटाइम एनवायरनमेंट 8 या उसके बादका. On Windows, Microsoft Visual C++ 2022 Redistributable Package is also required.

इंस्टालेशन

टेसेरक्ट विंडोज एक्सीक्यूटेबल इस प्रोग्राम के साथ दिया गया है . टेसेरक्ट के अन्य लैंग्वेज डेटा पैक जिनके नाम ISO639-3 कोड से शुरू होते हैं, tessdata सबडिरेक्टरी में रखे जाने चाहिए .

लिनक्स के लिए, टेसेरक्ट और इसके लैंग्वेज डेटा पैकेज Graphics (universe) रिपोसिटरी में हैं. इनको सेनेप्टिक या निम्न कमांड से इनस्टॉल किया जा सकता है .

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie

The files will be placed in /usr/bin and /usr/share/tesseract-ocr/tessdata, respectively. On the other hand, if Tesseract is built and installed from the source, they will be placed in /usr/local/bin and /usr/local/share/tessdata. You can also let VietOCR know the location of tessdata via the environment variable TESSDATA_PREFIX:

export TESSDATA_PREFIX=/usr/local/share/

अन्य प्लेटफार्म के लिए, कृपया टेसेरक्ट विकी पेज देखें ..

विएतओसीआर चुने हुए लैंग्वेज पैक को डाउनलोड और इनस्टॉल करने की सुविधा Download Language Data मेनू आइटम द्वारा प्रदान करता है . tessdata फोल्डर की लोकेशन के अनुसार, अगर डाउनलोड किया हुआ डेटा सिस्टम फोल्डर जैसे कि, लिनक्स में /usr या विंडोज में C:\Program Files में है, तो डाउनलोड किये डेटा को इंस्टाल करने के लिए आप को रूट या एडमिन के रूप में प्रोग्राम चलाना पडेगा .

विंडोज पर स्कैनिंग समर्थन विंडोज इमेज एक्वीजीशन लाइब्रेरी v2.0 के माध्यम से प्रदान किया गया है।

लिनक्स में, स्कैनिंग के लिए SANE पैकेज इंस्टाल करना आवश्यक है .

sudo apt-get install libsane sane sane-utils libsane-extras xsane

पीडीऍफ़ सपोर्ट PDFBox द्वारा उपलब्ध है.

स्पेलचेक सुविधा हन्स्पेल्ल द्वारा उपलब्ध है , जिसके शब्दकोश की (.aff, .dic) फाइलें विएतओसीआर के dict फोल्डर में डालनी चाहियें. user.dic एक UTF-8-एन्कोडिंग वाली फाइल है जिसमे कस्टम शब्दों की सूची डाली जा सकती है, हर लाइन में एक शब्द .

लिनक्स में, हनस्पेल और इसके शब्दकोशों को सिनेप्टिक या apt द्वारा निम्न तरीके से इंस्टाल किया जा सकता है :

sudo apt-get install hunspell hunspell-hi-in

अनुदेश

प्रोग्राम चलाने के लिए :

java -jar VietOCR.jar

नोट: अगर आपको आउट-ऑफ़-मेमोरी एक्सेप्शन मिले तो जार के बजाय ocr स्क्रिप्ट फाइल चलायें ..

वियतनामी लैंग्वेज डेटा टाइम्स न्यू रोमन, एरियल, वेर्दाना और कुरियर न्यू फ़ॉन्ट्स से बनाया गया है . जिन छवियों के फॉन्ट ग्लिफ इनसे मिलते जुलते हैं उनके रिकग्निशन का अच्छा चांस रहेगा . उन छवियों को ओसीआर करने के लिए जिनके फॉन्ट ग्लिफ इनसे अलग हैं, टेसेरक्ट को उन टाइपफेसेस का लैंग्वेज डेटा बनाने के लिए ट्रेनिंग की ज़रूरत पड़ेगी. लेटेस्ट वर्शन के साथ कुछ VNI और TCVN3 (ABC) फ़ॉन्ट्स का लैंग्वेज डेटा भी दिया गया है .

ओसीआर की जाने वाली छवियों को कम से कम 200 डीपीआई (डॉट पर इंच) से 400 डीपीआई रिसोल्यूशन तक मोनोक्रोम (ब्लैक एंड वाइट) या ग्रेस्केल में स्कैन करना चाहिए . ज्यादा ऊंचे रिसोल्यूशन पर स्कैन करने से पहचान में बेहतर सफलता मिलेगी ऐसा ज़रूरी नही है . अभी वियतनामी के लिए एक्यूरेसी 97% तक हो सकती है और हो सकता है की टेसेरक्ट की अगली रिलीस में ये और बढ़ जाए . फिर भी वास्तविक दर स्कैन् की हुई छवि की गुणवत्ता पर काफी निर्भर करती है . स्कैनिंग के लिए टिपिकल सेटिंग है 300 डीपीआई और ब्लैकएंडवाइट के लिए 1 बीपीपी (बिट पर पिक्स़ल) या ग्रेस्केल के लिए 8 बीपीपी अनकंप्रेस्ड टिफ या पीएनजी फॉर्मेट .

स्क्रीनशॉट मोड कम रिसोल्युशन की छवियो, जैसे कि स्क्रीन प्रिंट, को 300 डीपीआई तक रिस्केल करके ज्यादा बेहतर रिकग्निशन देता है .

बिल्ट-इन टेक्स्ट पोस्टप्रोसेसिंग अल्गोरिथम के साथ साथ आप UTF-8 एन्कोडिंग की टैब डिलिमिटेड टेक्स्ट फाइल x.DangAmbigs.txt द्वारा अपनी कस्टम टेक्स्ट रिप्लेसमेंट स्कीम भी बना सकते हैं, जिसमें x का अर्थ ISO639-3 भाषा कोड है . प्लेन और रेगऍक्स टेक्स्ट दोनों तरह के बदलाव किये जा सकते हैं .

आप टेसेरक्ट का व्यवहार बदलने के लिए, इनिट-ओन्ली और नॉन-इनिट कंट्रोल पैरामीटर्स को क्रमशः tessdata/configs/tess_configs और tess_configvars फाइलों में डाल सकते हैं.

कुछ बिल्ट-इन औजार भी उपलब्ध हैं जिनसे सुविधाजनक ओसीआर करने के लिए अलग छवियों या पीडीऍफ़ फाइलों को जोड़ कर एक बनाया जा सकता है या बहुत से पेजों वाली छवियों या पीडीऍफ़ फाइलों को, जिनसे आउट-ऑफ़-मेमोरी एक्सेप्शन हो सकता है, विभाजित कर छोटा बनाया जा सकता है .

पोस्ट प्रोसेसिंग

पहचानने में गलतियों को तीन श्रेणियों में विभाजित किया जा सकता है . कई गलतियाँ लैटर केस से सम्बंधित हैं, उदाहरण के लिए hOa, nhắC — इनको पॉपुलर यूनिकोड टेक्स्ट एडिटरों द्वारा आसानी से ठीक किया जा सकता है . अन्य कई गलतियाँ ओसीआर प्रक्रिया के फलस्वरूप हैं जैसे कि गलत मात्राएँ, या मिलतेजुलते रूप वाला दूसरा कोई लैटर — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. ये सब भी स्पेल चेकर प्रोग्रामों द्वारा आसानी से ठीक किये जा सकते हैं . बिल्ट-इन पोस्टप्रोसेसिंग फंक्शन से उपरलिखित कई गलतियाँ ठीक की जा सकती हैं .

आखिरी तरह की गलतियाँ पहचानने में सबसे मुश्किल है क्योंकि ये सेमांटिक हैं, मतलब की ये शब्द शब्दकोष में पाए जायेंगे पर इस कॉन्टेक्स्ट में उनका प्रयोग गलत है जैसे कि tinh – tình, vân – vấn.ऎसी गलतियों को एडिटर द्वारा पढ़ कर ओरिजिनल छवि के अनुरूप सही करने की आवश्यकता होगी .

निम्न तरीका बताता है कि बिल्ट-इन फंक्शनलिटी से पहेल दो तरह की ओसीआर त्रुटियों को किस तरह सुधारा जाय .

  1. लाइने ग्रुप करें . लाइनों को पैराग्राफ के अनुसार एक साथ ग्रुप करना पड़ेगा, क्योकि ओसीआर होने पर हर लाइन एक लाइन का पैराग्राफ बन जाती है . Format मेनू के Remove Line Breaks फंक्शन का प्रयोग करें . नोट करें की कविताओं के लिए इसकी आवश्यकता नहीं होगी .
  2. (अधिकतर लैटर केस की त्रुटियाँ सुधारने के लिए फॉर्मेट मेनू के अन्दर केस बदलें को चुनें और फिर वाक्य केस को चुनें, फिर बाक़ी लैटर केस की त्रुटियाँ को खोजें और सुधारें.)
  3. एकीकृत वर्तनी जांचक से वर्तनी की गलतियाँ सुधारें

ऊपर लिखी प्रक्रिया से अधिकतर सामान्य त्रुटियाँ हटाई जा सकती हैं, बाकी सेमंटिक त्रुटियाँ थोड़ी हैं, पर उन्हें दूर कर डॉक्यूमेंट को ओरिजिनल स्कैन्ड डॉक्यूमेंट जैसा बनाने के लिए, ह्यूमन एडिटर को पढ़ कर गलतियाँ सुधारनी होंगी, अगर चाहिए तो.

अगर कोई प्रश्न हैं तो विएतओसीआर फोरम. में पोस्ट करें .