VietOCR on Java kasutajaliides Tesseracti tekstituvastusmootorile, mis võimaldab tuvastada teksti tavalisematelt pildivormingutest ja mitmeleheküljelistelt piltidelt. Järeltöötlus võimaldab parandada vigasid, mis tulevad tekstituvastusel sageli ette ning niimoodi saad täpsema tulemuse. Programm töötab ka käsurealt.
Nüüd on toetatud ka hulgitöötlus. Programm jälgib kausta pandud uusi faile, sooritab neis automaatselt tekstittuvastuse ning paneb tulemuseks saadud failid väljundkausta.
Java Runtime Environment 8 või uuem. Windowsil on nõutud ka Microsoft Visual C++ 2022 Redistributable Package.
Windowsi on kaasas ka Tesseract. Tesseracti
keelepakid, mille nimed algavad ISO639-3 koodiga,
peaks olema pandud alamkausta tessdata
.
Linuxil on Tesseract ja selle keelepakid saadaval Graphics (universe) repositooriumis. Neid võib paigaldada Synapticuga või kasutades järgmist käsku:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie
Failid pannakse kaustadesse /usr/bin
ja /usr/share/tesseract-ocr/tessdata
.
Teisestküljest, kui Tesseract on paigaldatud lähtekoodist,
siis pannakse need kaustadesse /usr/local/bin
ja /usr/local/share/tessdata
.
VietOCR-ile võid kausta tessdata
asukohast anda teada ka muutujaga TESSDATA_PREFIX
:
eksport TESSDATA_PREFIX=/usr/local/share/
Teiste platformide kohta vaata infot Tesseract Wiki leheküljelt.
VietOCR võimaldab ka keelepakke alla laadida kasutades menüüs olevat valikut
Laadi keele andmed alla.... Sõltuvalt kausta tessdata
asukohast,
pead ehk programmi käivitama juurkasutaja või administraatorina, et allalaaditud
andmed oleks võimalik panna süsteemikausta nagu /usr
Linuxil
või C:\Program Files
Windowsil.
Skännimise tuge pakub Windowsi Image Acquisition Library v2.0.
Linuxil nõuab skännimine SANE pakke:
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF support is possible via PDFBox.
Õigekirjakontrolli eest hoolitseb Hunspell, mille sõnastiku failid (.aff
, .dic
) peaks olema pandud VietOCR kausta dict
. Fail user.dic
on UTF-8 fail,
milles on nimekiri kohandatud sõnadest. Igal real on üks sõna.
Linuxil võib Hunspelli ja selle sõnastikke saab paigalda Synapticuga või apt
käsuga:
sudo apt-get install hunspell hunspell-en-us
Programmi käivitamiseks:
java -jar VietOCR.jar
Märkus: Kui saad veateateis selle kohta, et mälu on täis, siis käivita ocr
skriptifail kasutades JAR-faili.
Vietnami keeleandmed on loodud fontidega Times New Roman, Arial, Verdana, ja Courier New. Seega töötab tekstituvastus paremini piltidel, millel on sarnased fondid. Teiste fontide puhul on tavaliselt vaja Tesseracti õpetada neid fonte ära tundma ning luua teised keelepakid spetsiaalselt nende fontide jaoks. Viimases versioonis on ka keeleandmed mõningate VNI ja TCVN3 (ABC) fontide jaoks.
Tekstituvastuse jaoks peaksid pildid olema skännitud vähemalt resolutsiooniga 200 DPI (punkti tolli kohta) kuni 400 DPI ning ühevärvilisena (must-valge) või halltoonides. Kõrgema resolutsiooniga skännimine ei anna tingimata paremat tulemust. Vietnami keele jaoks on täpsus praegu kõrgem kui 97% ning järgmine Tesseracti versioon võib seda veelgi parandada. Isegi seda arvesse võttes, sõltub tulemus siiski skännitud pildi kvaliteedist. Tüüpiline eelistus skännimise jaoks on 300 DPI ja 1 bpp (bitti piksli kohta) must-valge või 8 bpp hallskaalas pakkimata TIFF või PNG vorming.
Ekraanipildi režiim võimaldab paremini tuvastada madalama resolutsiooniga pilte nagu näiteks ekraanipildid, tõstes nende punktitiheduse 300 DPI-ni.
Lisaks sisseehitatud teksti järeltöötluse algoritmile võid lisada oma kohandatud teksti asendamise
skeeme kasutades UTF-8 tabulaatoritega eraldatud tekstifaile nimega x.DangAmbigs.txt
,
kus x on ISO639-3 keelekood. Toetatud on lihtteksti asendused ja Regex asendused.
Parameetritele tessdata/configs/tess_configs
ja tess_configvars
failidele
võib lisada parameetrid init-only ja non-init control, et muuta Tesseract'i
käitumist.
Saadaval on mõned sisseehitatud tööriistad et liita kokku mitu pilti või PDF-faili üheks failiks, ei neid mugavalt tekstituvastuse toiminguteks kasutada või siis jagada liiga suur PDF-fail väiksemateks, et vältida mälupuudusest tekkinud veateateid.
Tekstituvastusvead saab üldiselt jagada kolme kategooriasse. Paljud vead on seotud suur-või väike tähtedega — näiteks: hOa, nhắC — mida võib kergesti parandada Unicode tekstiredaktoritega. Mitmed teised tekstituvastuse vead on diakriitiliste märkide segamini ajamine sellega sarnase kujuga märkidega nt. — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Ka neid võib kergesti parandada õigekeelekontrolliga. Sisseehitatud järeltöötluse funktsioon võib paljude selliste vigade puhul abiks olla.
Viimase kategooria vigade parandamine on kõige raskem, kuna need on mõttega seotud vead, mis tähendab, et need sõnad on sõnastikus olemas, aga need ei sobi tähenduse poolest konteksti. Nt.— e.g., tinh – tình, vân – vấn. Selliste vigade parandamiseks peab tekstitoimetaja need üle lugema ning vead ise käsitsi vastavalt algsele pildile parandama.
Siin on juhendid, kuidas parandada esimesed kaks enamlevinud tekstituvastuse viga kasutades sisseehitatud funktsionaalsust:
Ülaltoodud tööprotsessiga saab parandada enimlevinud vead. Ülejäänud vigu ei peaks olema väga palju, aga nende parandamine nõuab inimese poolt teksti üle vaatamist ja vajalike paranduste tegemist, et saada originaalile vastav tekstidokument
Kui sul on veel küsimusi, siis palun postita need VietOCR foorumisse.