VietOCR , için bir Java arayüzüdür. Tesseract OCR motoru , sağlayarak ortak görüntü formatları için karakter tanıma desteği ve çok sayfalı görüntüler. Bu programı düzenli olarak karşılaşılan hataları düzeltmeye yardımcı olan postprocessing'e sahiptir. OCR işlemi, sonuç üzerindeki doğruluğunu artırır. Program ayrıca bir konsol uygulaması olarak, komut satırından çalıştırılabilir.
Batch processing is now supported. The program monitors a watch folder for new image files, automatically processes them through the OCR engine, and outputs recognition results to an output folder.
Java Runtime Environment 8 veya sonrası. On Windows, Microsoft Visual C++ 2022 Redistributable Package is also required.
Tesseract Windows executable is bundled with the program. Additional
language data packs for Tesseract, whose names start with ISO639-3 codes,
should be placed into the tessdata
subdirectory.
Linux için Tesseract ve dil veri paketleri Grafikler (universe)'de deposunda bulunur. Synaptic'i kullanarak veya aşağıdaki komutu kullanarak yüklenebilirler:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie
The files will be placed in /usr/bin
and /usr/share/tesseract-ocr/tessdata
,
respectively. On the other hand, if Tesseract is built and installed from the source,
they will be placed in /usr/local/bin
and /usr/local/share/tessdata
.
You can also let VietOCR know the location
of tessdata
via the environment variable TESSDATA_PREFIX
:
export TESSDATA_PREFIX=/usr/local/share/
Diğer platformlar için lütfen sayfasına bakın. Tesseract Wiki sayfası.
VietOCR also provides support for downloading and installing selected language packs
via Download Language Data menu item. Depending on the location of the
tessdata
folder, you may be required to run the program as root or
admin to be able to install the downloaded data into the folder if it is inside
a system folder, such as in /usr
on Linux or C:\Program Files
on Windows.
Windows'da tarama işlemi, Windows Image Acquisition Library v2.0 desteği ile taranmıştır.
Linux'ta, tarama için SANE paketlerinin kurulumu gerektirir
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF desteğiPDFBox aracılığıyla mümkündür.
Spellcheck functionality is available through Hunspell, whose
dictionary files (.aff
, .dic
) should be placed
in dict
folder of VietOCR. user.dic
is an UTF-8-encoded
file which contains a list of custom words, one word per line.
Linux'ta Hunspell ve sözlükleri Synaptic veya apt
tarafından kurulabilir,
aşağıdaki gibi:
sudo apt-get install hunspell hunspell-en-us
Programı başlatmak için:
java -jar VietOCR.jar
Not </ u> </ b>: Bellek yetersiz sorunları yaşarsanız, JAR dosyasını kullanmak yerine ocr </ code>
komut dosyasını çalıştırın.
The Vietnamese language data were generated for Times New Roman, Arial, Verdana, and Courier New fonts. Therefore, the recognition would have better success rate for images having similar font glyphs. OCRing images that have font glyphs look different from the supported fonts generally will require training Tesseract to create another language data pack specifically for those typefaces. Language data for some VNI and TCVN3 (ABC) fonts have also been bundled in latest versions.
OCR'lenecek görüntüler en az 200 DPI çözünürlükte taranmalıdır (nokta başına Inç) 400 DPI'ye tek renkli (siyah beyaz) veya gri tonlamalı olarak ayarlayın. Daha yüksek tarama daha iyi tanıma doğruluğu ile sonuçlanmayacaktır, şu anda Vietnamca için% 97'den daha yüksek olabilir ve Tesseract'in bir sonraki sürümü artırabilir ve daha da ileri gidebilir. Buna rağmen, gerçek tanıma oranı halen taranan görüntünün kalitesine büyük ölçüde bağlıdır. Tarama için tipik ayarlar 300 DPI ve 1 bpp'dir (bit Piksel başına) siyah beyaz veya 8 bpp gri tonlamalı sıkıştırılmamış TIFF veya PNG biçimidir.
The Screenshot Mode offers better recognition rates for low-resolution images, such as screen prints, by rescaling them to 300 DPI.
In addition to the built-in text postprocessing algorithm, you can add your own
custom text replacement scheme via a UTF-8-encoded tab-delimited text file named x.DangAmbigs.txt
,
where x is the ISO639-3 language code. Both plain and Regex text replacements are supported.
You can put init-only and non-init control parameters in tessdata/configs/tess_configs
and tess_configvars
files, respectively, to modify Tesseract's
behaviour.
Bazı dahili araçlar, daha düzgün bir OCR için birkaç görüntüyü veya PDF dosyalarını tek bir sayfaya birleştirmeyi sağlar veya bellek yetersizliğine neden olan çok fazla sayfa içeriyorsa, TIFF veya PDF dosyasını daha küçük şekilde bölebilmeyi sağlar
The recognition errors can generally be classified into three categories. Many of the errors are related to the letter cases — for example: hOa, nhắC — which can be easily corrected by popular Unicode text editors. Many other errors are a result of the OCR process, such as missing diacritical marks, wrong letters with similar shape, etc. — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. These can also be easily fixed by spell checker programs. The built-in Postprocessing function can help correct many of the aforementioned errors.
The last category of errors is the most difficult to detect because they are semantic errors, which means that the words are valid entries in the dictionary but are wrong in the context — e.g., tinh – tình, vân – vấn. These errors require the editor to read though and manually correct them according to the original image.
OCR hataları ilk iki kategoride nasıl çözüleceği ile ilgili talimatlar aşağıda verilmiştir yerleşik işlevini kullanarak:
Yukarıdaki işlem sayesinde, ortak hataların çoğunu ortadan kaldırabilirsiniz. Geriye kalan semantik hatalar azdır ancak eğer hatasız bir döküman istenirse orijinal taranan belgede gerekli düzenlemeleri yapmak için insan elinin değmesi gerekir.
Herhangi bir sorunuz varsa, lütfen bildirin VietOCR Forumu.