VietOCR Tesseract ಒಸಿಆರ್ ಎಂಜಿನ್ಗಾಗಿ ಇರುವ ಜಾವಾ GUI ಫ್ರಂಟ್ ಎಂಡ್ ಆಗಿದ್ದು, ಸಾಮಾನ್ಯ ಚಿತ್ರ ಸ್ವರೂಪಗಳಿಗೆ ಮತ್ತು ಬಹು-ಪುಟ ಚಿತ್ರಗಳಿಗೆ ಅಕ್ಷರ ಗುರುತಿಸುವಿಕೆ ಬೆಂಬಲವನ್ನು ಒದಗಿಸುತ್ತದೆ. ಪ್ರೋಗ್ರಾಂ ಪೋಸ್ಟ್ಪ್ರೊಸೆಸಿಂಗ್ ಅನ್ನು ಹೊಂದಿದ್ದು ಅದು ಒಸಿಆರ್ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ನಿಯಮಿತವಾಗಿ ಎದುರಾಗುವ ದೋಷಗಳನ್ನು ಸರಿಪಡಿಸಲು ಸಹಾಯ ಮಾಡಿ, ಫಲಿತಾಂಶದ ಮೇಲೆ ನಿಖರತೆಯ ದರವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಈ ತಂತ್ರಾಂಶ ಕನ್ಸೋಲ್ ಅಪ್ಲಿಕೇಶನ್ನಂತೆ ಕೂಡ ಕಾರ್ಯನಿರ್ವಹಿಸಬಹುದು, ನಿರ್ದೇಶಗಳನ್ನು ಕಮ್ಯಾಂಡ್ ಸಾಲುಗಳಿಂದ ಕಾರ್ಯಗತಗೊಳಿಸುವ ಮೂಲಕ.
ಬ್ಯಾಚ್ ಪ್ರಕ್ರಿಯೆಗೆ ಈಗ ಬೆಂಬಲವಿದೆ. ಪ್ರೋಗ್ರಾಂ ಹೊಸ ಚಿತ್ರ ಫೈಲ್ಗಳಿಗಾಗಿ ಫೋಲ್ಡರ್ ಅನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತದೆ , ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಅವುಗಳನ್ನು ಓಸಿಆರ್ ಎಂಜಿನ್ ಮೂಲಕ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಗುರುತಿಸುವಿಕೆಯ ಫಲಿತಾಂಶಗಳನ್ನು ಔಟ್ಪುಟ್ ಫೋಲ್ಡರ್ಗೆ ನೀಡುತ್ತದೆ.
Java Runtime Environment 8 ಅಥವಾ ನಂತರದ್ದು. ವಿಂಡೋಸ್ನಲ್ಲಿ, Microsoft Visual C++ 2022 Redistributable Package ಕೂಡಾ ಅವಶ್ಯ.
ಟೆಸ್ಸೆರಾಕ್ಟ್ ವಿಂಡೋಸ್ ಎಕ್ಸಿಕ್ಯೂಟಬಲ್ ಅನ್ನು ಪ್ರೋಗ್ರಾಂನೊಂದಿಗೆ ಸಂಯೋಜಿಸಲಾಗಿದೆ. ಹೆಚ್ಚುವರಿ
ಟೆಸ್ಸೆರಾಕ್ಟ್ ಭಾಷಾ ಡೇಟಾ ಪ್ಯಾಕ್ ಗಳು , ISO639-3 ಸಂಕೇತಗಳ ಹೆಸರಿನಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತವೆ,
ಇವನ್ನು tessdata
ಉಪ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿ ಇಡಬೇಕು.
ಲಿನಕ್ಸ್ಗಾಗಿ, ಟೆಸ್ಸೆರಾಕ್ಟ್ ಮತ್ತು ಅದರ ಭಾಷಾ ಡೇಟಾ ಪ್ಯಾಕೇಜ್ಗಳು ಗ್ರಾಫಿಕ್ಸ್ (universe) ಭಂಡಾರದಲ್ಲಿವೆ. ಅವುಗಳನ್ನು Synaptic ಬಳಸಿ ಅಥವಾ ಈ ಕೆಳಗಿನ ನಿರ್ದೇಶದ ಮೂಲಕ ಅನುಸ್ಥಾಪಿಸಬಹುದು:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie
ಕಡತಗಳನ್ನು ಕ್ರಮವಾಗಿ /usr/bin
ಮತ್ತು /usr/share/tesseract-ocr/tessdata
,
ನಲ್ಲಿ ಇಡಲಾಗುತ್ತದೆ. ಇಲ್ಲವಾದಲ್ಲಿ, ಟೆಸೆರಾಕ್ಟ್ ಅನ್ನು ಅನುಸ್ಥಾಪಿಸಿದ್ದು ಅದರ source,
ನಿಂದಾಗಿದ್ದಲ್ಲಿ ಅವು /usr/local/bin
ಮತ್ತು /usr/local/share/tessdata
ನಲ್ಲಿರುತ್ತವೆ.
ನೀವೂ ಕೂಡ VietOCR ಗೆ
tessdata
ಇರುವ ಸ್ಥಳವನ್ನು ಎನ್ವಿರಾನ್ಮೆಂಟ್ ವೇರಿಯಬಲ್ TESSDATA_PREFIX
ಮೂಲಕ ತಿಳಿಸಬಹುದು :
export TESSDATA_PREFIX=/usr/local/share/
ಇತರ ಪ್ಲ್ಯಾಟ್ಫಾರ್ಮ್ಗಳಿಗಾಗಿ, ದಯವಿಟ್ಟು ಟೆಸ್ಸೆರಾಕ್ಟ್ ವಿಕಿ ಪುಟವನ್ನು ಸಂಪರ್ಕಿಸಿ.
VietOCR, ನಿಮಗೆ ಬೇಕಿರುವ ಲ್ಯಾಂಗ್ವೇಜ್ ಪ್ಯಾಕನ್ನು ಡೌನ್ಲೋಡ್ ಮಾಡಿ ಇನ್ಸಟಾಲ್ ಮಾಡುವ ಸವಲತ್ತನ್ನು Download Language Data ಮೂಲಕ ನೀಡುತ್ತದೆ. tessdata
ಒಂದು ವೇಳೆ ಸಿಸ್ಟಮ್ ಫೋಲ್ಡರಿನಲ್ಲಿ ಇದ್ದರೆ, ನೀವು ರೂಟ್ ಇಲ್ಲವೇ ಅಡ್ಮಿನ್ ಆಗಿ ಡೌನ್ಲೋಡ್ ಮಾಡಿಕೊಂಡ ಡೇಟಾವನ್ನು ಇನ್ಸಟಾಲ್ ಮಾಡಬೇಕಾಗಬಹುದು, ಉದಾ: ಲಿನಕ್ಸಿನಲ್ಲಾದರೆ /usr
ಅಥವಾ ವಿಂಡೋಸಿನಲ್ಲಾದರೆ C:\Program Files
.
ವಿಂಡೋಸ್ನಲ್ಲಿ ಸ್ಕ್ಯಾನಿಂಗ್ ಬೆಂಬಲವನ್ನು ಈ ವಿಂಡೋಸ್ ಇಮೇಜ್ ಮೂಲಕ ನೀಡಲಾಗಿದೆ Acquisition Library v2.0.
ಲಿನಕ್ಸ್ನಲ್ಲಿ, ಸ್ಕ್ಯಾನಿಂಗ್ಗೆ SANE ಪ್ಯಾಕೇಜ್ಗಳ ಸ್ಥಾಪನೆಯ ಅಗತ್ಯವಿದೆ:
sudo apt-get install libsane sane sane-utils libsane-extras xsane
PDF ಬೆಂಬಲ PDFBox ಮೂಲಕ ಸಾಧ್ಯವಿದೆ.
ಕಾಗುಣಿತ ಪರಿಶೀಲನೆ ಕಾರ್ಯವು Hunspell ಮೂಲಕ ಲಭ್ಯವಿದೆ, ಇದರ
ನಿಘಂಟು ಕಡತಗಳನ್ನು (.aff
, .dic
)
dict
ಎಂಬ VietOCR ಫೋಲ್ಡರ್ ನಲ್ಲಿ ಇರಿಸಬೇಕು . user.dic
UTF-8-encoded
ಕಡತವಾಗಿದ್ದು ಅಗತ್ಯಾನುಗುಣಗೊಳಿಸಿದ ಪದಗಳ ಪಟ್ಟಿಯನ್ನು, ಸಾಲಿಗೊಂದು ಪದದಂತೆ ಹೊಂದಿರುತ್ತದೆ.
ಲಿನಕ್ಸ್ ನಲ್ಲಿ, Hunspell ಮತ್ತು ಅದರ ನಿಘಂಟುಗಳನ್ನು Synaptic ಅಥವಾ apt
ಮೂಲಕ ಅನುಸ್ಥಾಪಿಸಬಹುದು,
ಈ ಕೆಳಕಂಡಂತೆ:
sudo apt-get install hunspell hunspell-en-us
ಕಾರ್ಯಕ್ರಮವನ್ನು ಪ್ರಾರಂಭಿಸಲು:
java -jar VietOCR.jar
ಸೂಚನೆ: ನಿಮಗೆ out-of-memory exception ದೋಷ ಎದುರಾದರೆ,ocr
ಸ್ಕ್ರಿಪ್ಟ್ ಫೈಲ್ ಅನ್ನು
.jar ಬಳಸುವ ಬದಲು ಚಲಾಯಿಸಿ.
ಕನ್ನಡ ಭಾಷಾ ದತ್ತಾಂಶವನ್ನು ನೋಟೋ ಸ್ಯಾನ್ಸ್ ಹಾಗೂ ಇತರೆ ಓಪನ್ ಫಾಂಟ್ಸ್ ಗಳನ್ನು ಬಳಸಿ ಸೃಷ್ಟಿಸಲಾಗಿದೆ. ಆದ್ದರಿಂದ, ಆಯಾ ಫಾಂಟ್ ಗ್ಲಿಪ್ಗಳಿರುವ ಚಿತ್ರಗಳಲ್ಲಿ ಅಕ್ಷರಗಳ ಗುರುತಿಸುವಿಕೆಯ ಯಶಸ್ಸಿನ ಪ್ರಮಾಣ ಹೆಚ್ಚಿರುತ್ತದೆ. ಬೆಂಬಲಿತ ಫಾಂಟುಗಳಗಿಂತ ಭಿನ್ನವಾದ ಫಾಂಟ್ ಗ್ಲಿಪ್ಗರುವ ಚಿತ್ರಗಳನ್ನು ಓಸಿಆರ್ ಮಾಡುವಾಗ ಅದಕ್ಕೆಂದೇ ಟೆಸರಾಕ್ಟ್ ಅನ್ನು training ಗೊಳಿಸಿ ಇನ್ನೊಂದು ಲ್ಯಾಂಗ್ವೇಜ್ ಡೇಟಾ ಪ್ಯಾಕ್ ಅನ್ನು ಈ ಟೈಪ್ ಫೇಸ್ಗಳಿಗೆ ಸೃಷ್ಟಿಸಬೇಕಾಗುತ್ತದೆ. ಟೆಸರಾಕ್ಟ್ ಹೊಸ ಆವೃತ್ತಿಯಲ್ಲಿ ೨೦ಕ್ಕೂ ಹೆಚ್ಚು ಫಾಂಟ್ಗಳನ್ನು ಬಳಸಿ ಕನ್ನಡ ಲ್ಯಾಂಗ್ವೇಜ್ ಪ್ಯಾಕ್ ಸೃಷ್ಟಿಸಿರುವುದಾಗಿ ಹೇಳುತ್ತದೆ.
ಓಸಿಅರ್ ಮಾಡಬೇಕಿರುವ ಚಿತ್ರಗಳನ್ನು ಕನಿಷ್ಠ 200 ಡಿಪಿಐ (ಡಾಟ್ ಪರ್ ಇಂಚ್) ನಿಂದ 400 ಡಿಪಿಐ ರೆಸಲ್ಯೂಷನ್ನಲ್ಲಿ ಮೋನೋಕ್ರೋಮ್ (ಕಪ್ಪು&ಬಿಳುಪು) ಅಥವಾ ಗ್ರೇಸ್ಕೇಲ್ ಆಗಿ ಸ್ಕ್ಯಾನ್ ಮಾಡಬೇಕು. ಹೆಚ್ಚಿನ ರೆಸಲ್ಯೂಷನ್ನಲ್ಲಿ ಸ್ಕ್ಯಾನ್ ಮಾಡುವುದು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಫಲಿತಾಂಶವನ್ನು ನೀಡಬೇಕೆಂದೇನಿಲ್ಲ, ಸಧ್ಯಕ್ಕೆ 97% ಕ್ಕಿಂತ ಹೆಚ್ಚಿಗೆ ವಿಯೆಟ್ನಾಮೀಸ್ಗೆ, ಮತ್ತು ಮುಂದಿನ ಟೆಸರಾಕ್ಟ್ ಆವೃತ್ತಿ ಇದನ್ನು ಇನ್ನೂ ಹೆಚ್ಚಿನ ಮಟ್ಟಕ್ಕೆ ಉತ್ತಮಗೊಳಿಸಬಹುದು. ಆದ್ಯಾಗ್ಯೂ ಸಹ, ನಿಜವಾದ ದರಗಳು ಇನ್ನೂ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಚಿತ್ರದ ಗುಣಮಟ್ಟವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಸ್ಕ್ಯಾನಿಂಗ್ನ ವಿಶಿಷ್ಟ ಸೆಟ್ಟಿಂಗ್ಗಳು 300 ಡಿಪಿಐ ಮತ್ತು 1 ಬಿಪಿಪಿ (ಬಿಟ್ ಪರ್ ಪಿಕ್ಸೆಲ್) ಕಪ್ಪು&ಬಿಳುವು ಅಥವಾ 8 ಬಿಪಿಪಿ ಗ್ರೇಸ್ಕೇಲ್ ಸಂಕ್ಷೇಪಿಸದ TIFF ಅಥವಾ PNG ಸ್ವರೂಪ.
ಸ್ಕ್ರೀನ್ಶಾಟ್ ಮೋಡ್ ಕಡಿಮೆ-ರೆಸಲ್ಯೂಶನ್ ಚಿತ್ರಗಳಿಗೆ ಉತ್ತಮ ಗುರುತಿಸುವಿಕೆ ದರವನ್ನು ನೀಡುತ್ತದೆ ಸ್ಕ್ರೀನ್ ಪ್ರಿಂಟ್ಗಳಂತಹ ಚಿತ್ರಗಳನ್ನು, 300 ಡಿಪಿಐಗೆ ಮರುಹೊಂದಿಸುವ ಮೂಲಕ.
ಅಂತರ್ನಿರ್ಮಿತ ಪಠ್ಯ ಪೋಸ್ಟ್ಪ್ರೊಸೆಸಿಂಗ್ ಅಲ್ಗಾರಿದಮ್ ಜೊತೆಗೆ, ನೀವು ನಿಮ್ಮದೇ ಆದ
ಅಗತ್ಯಾನುಗುಣಗೊಳಿಸಿದ ಪಠ್ಯ ಬದಲಿ ಯೋಜನೆಯನ್ನು x.DangAmbigs.txt
, ಹೆಸರಿನ UTF-8-encoded tab-delimited ಪಠ್ಯ ಕಡತದ ಮೂಲಕ ಸೇರಿಸಬಹುದು
ಇಲ್ಲಿ x ಎಂಬುದು ISO639-3 ಭಾಷಾ ಸಂಕೇತವಾಗಿದೆ. ಸರಳ ಮತ್ತು ರೆಜೆಕ್ಸ್ ಪಠ್ಯ ಬದಲಾವಣೆಗಳನ್ನು ಇದು ಬೆಂಬಲಿಸುತ್ತದೆ.
ನೀವು init-only ಮತ್ತು non-init ನಿಯಂತ್ರಣ ಪ್ಯಾರಮೀಟರ್ಗಗಳನ್ನು ಕ್ರಮವಾಗಿ tessdata/configs/tess_configs
ಹಾಗೂ tess_configvars
ಕಡತಗಳಲ್ಲಿ, Tesseract's ನಡವಳಿಕೆಯನ್ನು
ಬದಲಾಯಿಸಲು ಸೇರಿಸಬಹುದು.
ಕೆಲವು ಅಂತರ್ನಿರ್ಮಿತ ಸಾಧನಗಳನ್ನು ಒಸಿಆರ್ ಕಾರ್ಯಾಚರಣೆಗಳಿಗಾಗಿ ಅನುಕೂಲಕರವಾಗುವಂತೆ ಹಲವಾರು ಚಿತ್ರಗಳನ್ನು ಅಥವಾ ಪಿಡಿಎಫ್ ಕಡತಗಳನ್ನು ಒಂದು ಕಡತದಲ್ಲಿ ವಿಲೀನಗೊಳಿಸಲು, ಅಥವಾ TIFF ಅಥವಾ ಪಿಡಿಎಫ್ ಕಡತಗಳನ್ನು ಹಲವಾರು ಪುಟಗಳನ್ನು ಹೊಂದಿದ್ದರೆ ಸಣ್ಣದಾಗಿ ವಿಭಜಿಸಲು ಒದಗಿಸಲಾಗಿದೆ, ಇವು out-of-memory exception ಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು.
ಗುರುತಿಸುವಿಕೆ ದೋಷಗಳನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಮೂರು ವರ್ಗಗಳಾಗಿ ವಿಂಗಡಿಸಬಹುದು. ಬಹಳಷ್ಟು ದೋಷಗಳು ಅಕ್ಷರ ಪ್ರಕರಣಗಳಿಗೆ ಸಂಬಂಧಿಸಿವೆ - ಉದಾಹರಣೆಗೆ: hOa, nhắC - ಇವನ್ನು ಸುಲಭವಾಗಿ ಜನಪ್ರಿಯ ಯೂನಿಕೋಡ್ ಪಠ್ಯ ಸಂಪಾದಕಗಳಿಂದ ಸುಲಭವಾಗಿ ಸರಿಪಡಿಸಬಹುದು. ಇತರೆ ದೋಷಗಳು ಒಸಿಆರ್ ಪ್ರಕ್ರಿಯೆಯ ಫಲಿತಾಂಶವಾಗಿದ್ದು, ಕಾಣೆಯಾದ ಡಯಾಕ್ರಿಟಿಕಲ್ ಗುರುತುಗಳು, ಒಂದೇ ರೀತಿಯ ಆಕಾರಗಳಲ್ಲಿನ ತಪ್ಪು ಅಕ್ಷರಗಳು ಇತ್ಯಾದಿ ಇವುಗಳಲ್ಲಿ ಸೇರಿವೆ huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. ಇವು ಇವನ್ನು ಕಾಗುಣಿತ ಪರೀಕ್ಷಕ ಕಾರ್ಯಕ್ರಮಗಳಿಂದ ಸುಲಭವಾಗಿ ಸರಿಪಡಿಸಬಹುದು. ಅಂತರ್ನಿರ್ಮಿತ ಪೋಸ್ಟ್ಪ್ರೊಸೆಸಿಂಗ್ ಕ್ರಿಯೆ ಮೇಲೆ ತಿಳಿಸಿದ ಹಲವು ದೋಷಗಳನ್ನು ಸರಿಪಡಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ದೋಷಗಳ ಕೊನೆಯ ವರ್ಗವನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಅತ್ಯಂತ ಕಷ್ಟ, ಏಕೆಂದರೆ ಅವು ಶಬ್ದಾರ್ಥದ ದೋಷಗಳು, ಇದರರ್ಥ ಪದಗಳು ನಿಘಂಟಿನಲ್ಲಿ ಮಾನ್ಯವಾಗಿದ್ದರೂ ಬಳಕೆಯ ಸನ್ನಿವೇಶದಲ್ಲಿ ತಪ್ಪಾಗಿ ಬಳಸಲಾಗಿರುವುದು - ಉದಾ., tinh – tình, vân – vấn. ಈ ದೋಷಗಳನ್ನು ಓದಿ ಮತ್ತು ಮೂಲ ಚಿತ್ರದ ಪ್ರಕಾರ ಅವುಗಳನ್ನು ಸರಿಪಡಿಸಲು ಸಂಪಾದಕರ ಅಗತ್ಯವಿದೆ.
ಒಸಿಆರ್ ದೋಷಗಳ ಮೊದಲ ಎರಡು ವರ್ಗಗಳನ್ನು ಹೇಗೆ ಸರಿಪಡಿಸುವುದು ಎಂಬುದರ ಕುರಿತು ಸೂಚನೆಗಳು ಈ ಕೆಳಗಿನಂತಿವೆ ಅಂತರ್ನಿರ್ಮಿತ ಕ್ರಿಯಾತ್ಮಕತೆ ಬಳಸುವುದು:
ಮೇಲಿನ ಪ್ರಕ್ರಿಯೆಯ ಮೂಲಕ, ಹೆಚ್ಚಿನ ಸಾಮಾನ್ಯ ದೋಷಗಳನ್ನು ತೆಗೆದುಹಾಕಬಹುದು. ಉಳಿದ, ಶಬ್ದಾರ್ಥದ ದೋಷಗಳು ಕಡಿಮೆ, ಆದರೆ ಅದನ್ನು ಓದಲು ಮತ್ತು ಅಗತ್ಯ ಸಂಪಾದನೆಗಳನ್ನು ಮಾಡಿ ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಮೂಲ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಡಾಕ್ಯುಮೆಂಟ್ ನಂತೆ ಮಾಡಲು, ಮತ್ತು ದೋಷ-ಮುಕ್ತವಾಗಿ ಮಾಡಲು ಇಚ್ಛೆಪಟ್ಟರೆ ಅಗತ್ಯವಾದ ಸಂಪಾದನೆಗಳಿಗೆ ಮಾನವ ಸಂಪಾದಕನ ಅಗತ್ಯವಿದೆ.
ಯಾವುದೇ ಪ್ರಶ್ನೆಗಳಿದ್ದರೆ, ದಯವಿಟ್ಟು ವಿಯಾಟೊಸಿಆರ್ ಫೋರಮ್ ನಲ್ಲಿ ಪೋಸ್ಟ್ ಮಾಡಿ.