OCRFeeder 0.7.11 i zamiana obrazu w tekst

Dziedzina [[OCR]] przez lata była zaniedbana na Linuksie, by nie powiedzieć, że leżała odłogiem. Podczas gdy na wiodących platformach istniały niemal kombajny do wyodrębniania z obrazów słowa pisanego, użytkownicy Linuksa nie mieli większego wyboru, niż uruchamianie tychże kombajnów za pomocą WINE i to z różnym skutkiem. Jednak od tych mrocznych wieków minęło nieco czasu, powstało kilka projektów i tak oto możemy się cieszyć w miarę komfortowym rozpoznawaniem tekstu, choćby za pomocą programu OCRFeeder oraz silnika Tesseract.

OCRFeeder – tekst z gazety

Zasad działania takiego programu nie trzeba chyba nikomu wyjaśniać. OCRFeeder wpisuje się w ogólnie przyjęte przy OCR standardy, czyli potrafi wczytać do projektu strony dokumentów prosto ze skanera lub z importowanych dokumentów pdf. Nie stroni również od zwykłych plików graficznych, które za pomocą unpaper przetwarza do formy najbardziej przyjaznej dla mechanizmu odpowiedzialnego za rozpoznawanie tekstu (czyli wyrównuje, konwertuje do odcieni szarości, filtruje szumy, itp.). Jedyne co pozostaje użytkownikowi, to wybrać pożądany fragment strony, który ma zostać rozpoznany, lub rozpoznawać całe strony – OCRFeeder doskonale sobie radzi z automatycznym określaniem granic kolumn i szpalt. Nasze preferencje językowe program wykryje samodzielnie na podstawie ustawień systemowych, a jeżeli tego nie uczyni, zawsze możemy dokonać takiego wyboru ręcznie. Efekty pracy programu możemy wyeksportować do formatów odt, pdf, xml lub czystego tekstu.

Wspomniany Tesseract to nie jedyny silnik rozpoznający tekst obsługiwany przez OCFeeder – program może korzystać również z innych – CuneiForm, GOCR, Ocrad. Niestety, nie każdy radzi sobie poprawnie z naszym rodzimym narzeczem.

OCRFeeder w wersji dla Ubuntu/Minta zainstalujemy wprost z repozytoriów, pamiętając o doinstalowaniu obsługi naszego języka przez Tesseract.

sudo apt-get install ocrfeeder tesseract-ocr-pol

W Manjaro/Arch wykorzystamy podstawowe repozytoria:

sudo pacman -Sy ocrfeeder tesseract-data-pol

Tags:arch manjaro mint ocr ocrfeeder pdf rozpoznawanie tekstu skan skaner tesseract ubuntu unpaper