OCR z gImageReader 2.93
Ponieważ wspomniany parę dni temu program OCRFeeder nie każdemu przypadł do gustu, warto przychylnym okiem spojrzeć na zaktualizowany niedawno gImageReader 2.93. Program takiego samego przeznaczenia, czyli szeroko pojętego usprawnienia procesu wyodrębniania tekstu z obrazów. Nieco inna zasada działania, nieco częstsze aktualizacje, czytelny interfejs czynią z gImageReadera też ciekawą ofertę na potrzeby OCR.
Program jak program… W sumie prościej jest wymienić, czym się gImageReader różni od OCRFeeder. A różnice choć kosmetyczne, mogą determinować wybór – choćby ze względu na przyzwyczajenia, upodobania ale i sprawność działania programu. A gImageReader przynajmniej ostatnio otrzymuje aktualizacje częściej niż OCRFeeder. Niestety, nie posiada aż takiej rozbudowanej automatyki, w związku z czym automatyczne rozpoznawanie kolumn na tym samym materiale wejściowym zadziałało słabiej niż w OCRFeeder. Również przygotowanie strony do rozpoznawania należy przeprowadzić ręcznie, czyli ustawić rozdzielczość (najlepiej najwyższą), jasność i kontrast. Ewentualne wyrównanie też tylko metodą manualną. Nie jest to szczególnie uciążliwe, bo wspomniane opcje znajdziemy wprost przed nosem, czyli w głównym oknie programu. lewy panel okupują opcje wczytywania obrazów oraz ich skanowania (z kilkoma opcjami), środkowa kolumna to wczytany materiał, prawy – wynik rozpoznawania tekstu (z kilkoma trybami uzupełnianie się tekstu z kilku stron).
A jak wygląda rozpoznawanie tekstu? gImageReader korzysta z tego samego silnika co OCRFeeder, czyli Tesseract. Dodatkowo sprawdza również pisownię, choć niestety wynik potrafi zapisać tylko w formacie .txt.
Zatem, wszystko jest kwestią wyboru i preferencji. Niemniej, zawsze lepiej mieć taki wybór, niż nie mieć go wcale.
Program w wersji dla Ubuntu 14.04 i Minta 17 pobierzemy wprost z PPA autorskiego, po uprzednim dodaniu go do systemu:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-pol
Niestety, w przypadku Manjaro i Archa w repozytorium AUR znajduje się jakaś antyczna wersja – trzeba wobec tego poinformować osobę odpowiedzialną za paczkę.