Tesseract GUI 2.9 z OCR za pan brat
Kwestia [[OCR]] na Linuksie był zawsze dla mnie niczym tabu. W czasach gdy potrzebowałem masowo przetwarzać zeskanowane materiały, nie było dostępnych natywnych narzędzi którymi mógłbym to zrobić. I tylko moje zaciśnięte zęby i uparty wzrok ratowały reputację Linuksa. Kiedy atmosfera zelżała, okazało się, że powstało parę ciekawych i sensownych projektów, które OCR na Linuksie czynią nawet nie tylko możliwym, co i wygodnym. Jednym z prekursorów był silnik Tesseract i interfejs graficzny na potrzeby jego obsługi. Ostatnio owo GUI pojawiło się w PPA, dlatego warto o nim przypomnieć.
Uważni użytkownicy z pewnością już kręcą nosem na niewielką zawartość automatyki (brak automatycznego rozpoznawania obszarów z tekstem, brak automatycznych obrotów, export jedynie do formatu txt). No cóż, Tesseract GUI nie ma ambicji do bycia kombajnem z setkami opcji, a jego obecna forma do szybkich prac jest jak znalazł.
A jak wygląda sprawność rozpoznawania tekstu? Kawałek powyższego obrazka został rozpoznany i zapisany jako:
Obchodzony właśnie Rok Juliana
Tuwima w naszym mieście obfito-
wał głównie – jak na razie – w proje-
kty skierowane do dzieci i młodzie-
ży. Na jesień (wrzesień-październik)
zaplanowano cykl koncertów, które
pozwolą ujrzeć poezję autora
Całkiem niezła skuteczność, nieprawdaż?
Jak już wspomniałem, program trafił ostatnio do jednego z repozytoriów PPA, skąd zainstalujemy dla Ubuntu 14.04/Mint 17 (potrzebne będą też odpowiednie pliki rozpoznające konkretne języki pisane):
sudo add-apt-repository ppa:ferramroberto/lffl
sudo apt-get update
sudo apt-get install tesseract-gui tesseract-data-pol tesseract-data-eng
W Arch Linux oraz Manjaro Tesseract GUI znajdziemy w repozytorium AUR:
yaourt tesseract-gui
Będziemy też potrzebowali plików data:
sudo pacman -S tesseract-data-pol
sudo pacman -S tesseract-data-eng