Tesseract GUI 2.9 z OCR za pan brat

Kwestia OCR na Linuksie był zawsze dla mnie niczym tabu. W czasach gdy potrzebowałem masowo przetwarzać zeskanowane materiały, nie było dostępnych natywnych narzędzi którymi mógłbym to zrobić. I tylko moje zaciśnięte zęby i uparty wzrok ratowały reputację Linuksa. Kiedy atmosfera zelżała, okazało się, że powstało parę ciekawych i sensownych projektów, które OCR na Linuksie czynią nawet nie tylko możliwym, co i wygodnym. Jednym z prekursorów był silnik Tesseract i interfejs graficzny na potrzeby jego obsługi. Ostatnio owo GUI pojawiło się w PPA, dlatego warto o nim przypomnieć.

Tesseract GUI na Linuksie
Tesseract GUI 2.9 to stosunkowo prosty program, ale posiadający kilka zalet – niewielki i poręczny, radzący sobie z polskimi tekstami. Jego głównym atutem jest oczywiście wykorzystanie jednego z najsprawniejszych silników rozpoznający znaki drukowane, Tesseract. Całość opcji została zawarta w jednym oknie i jedyne co musimy zrobić aby zacząć przetwarzać tekst, to wybrać katalog z zeskanowanymi dokumentami, ustalić kontrast i odszumianie obrazu, ew. obroty i wyrównanie, zaznaczyć która sekcja nas interesuje (albo niczego nie ruszać dla rozpoznania całej kartki). Gotowe – program po zakończeniu całego procesu zapisze wynik w czystym pliku txt.
Uważni użytkownicy z pewnością już kręcą nosem na niewielką zawartość automatyki (brak automatycznego rozpoznawania obszarów z tekstem, brak automatycznych obrotów, export jedynie do formatu txt). No cóż, Tesseract GUI nie ma ambicji do bycia kombajnem z setkami opcji, a jego obecna forma do szybkich prac jest jak znalazł.

A jak wygląda sprawność rozpoznawania tekstu? Kawałek powyższego obrazka został rozpoznany i zapisany jako:

Obchodzony właśnie Rok Juliana
Tuwima w naszym mieście obfito-
wał głównie – jak na razie – w proje-
kty skierowane do dzieci i młodzie-
ży. Na jesień (wrzesień-październik)
zaplanowano cykl koncertów, które
pozwolą ujrzeć poezję autora

Całkiem niezła skuteczność, nieprawdaż?

Jak już wspomniałem, program trafił ostatnio do jednego z repozytoriów PPA, skąd zainstalujemy dla Ubuntu 14.04/Mint 17 (potrzebne będą też odpowiednie pliki rozpoznające konkretne języki pisane):

sudo add-apt-repository ppa:ferramroberto/lffl
sudo apt-get update
sudo apt-get install tesseract-gui tesseract-data-pol tesseract-data-eng

W Arch Linux oraz Manjaro Tesseract GUI znajdziemy w repozytorium AUR:

yaourt tesseract-gui

Będziemy też potrzebowali plików data:

sudo pacman -S tesseract-data-pol
sudo pacman -S tesseract-data-eng