Linux Intelligent OCR Solution 2.2
Nieco przydługa nazwa tytułowego programu w sieci funkcjonuje pod skrótem Lios. Ale Lios nikomu nic nie powie, a coś z OCR w tytule – a i owszem. Program jest bowiem kolejną wariacją na temat ułatwienia naszej pracy podczas konwertowania znaków z formatu graficznego do edytowalnego tekstu. Dlaczego jest on wart uwagi? Przede wszystkim ładnie integruje się ze skanerami i pozwala skanowany materiał wczytywać bezpośrednio do programu, obsługuje dwa silniki rozpoznawania znaków – [[CuneiForm]] oraz osławiony Tesseract. W komplecie otrzymujemy też opcję eksportu wyników do pliku pdf (co nie zawsze w innych programach jest tak oczywiste).
- importowanie obrazu ze skanerów, plików PDF, zdjęć (plików graficznych) lub kamerki internetowej,
- tworzenie i rozpoznawanie tekstu ze zrzutów ekranu,
- rozpoznawanie w obrębie zaznaczonych przez nas obszarów,
- dwa silniki OCR (Cuneiform,Tesseract),
- wsparcie dla 24 języków (w tym dla języka polskiego – wymagana paczka tesseract-ocr-pol),
- autoobrót obrazów dla jakiekolwiek języka,
- jednoczesny widok źródła i wyniku,
- zaawansowana optymalizacja skali jasności skanera,
- konfiguracja okna z wynikami (fonty, kolory),
- czytanie tekstu (espeak),
- sprawdzanie pisowni (aspell),
- eksport do formatu pdf (tekst, obrazy),
- opcja zapisu i odczytu ustawień,
- Inne – Find, Find-and-Replace, Go-To-Page, Go-To-Line, Append file, Punch File,
Selection of starting page number, page numbering mode and number of pages to scan,
Selection of Scan area, brightness, resolution and time between repeated scanning,
Output Insert position, image rotation and zoom options, etc
Całość jest zgrabnie poukładana i w programie da się pracować bez większego zastanawiania się „co deweloper miał na myśli”. Wczytujemy obraz (skanujemy), zaznaczamy obszary (lub nie), rozpoznajemy tekst i na koniec poprawiamy formatowanie, ortografię i niedoskonałości w odczycie. Lios ma bardzo miło opcję autokorekty – wyświetla problematyczne ciągi znaków i proponuje, jaki wyraz mógłby to być. Co więcej – program posiada opcję nauki Tesseract znaków, automatycznego obracania i dopasowywania skanów, a także możliwość wyrecytowania rozpoznanego tekstu. Oczywiście dla większości z tych narzędzi potrzebne są dodatkowe paczki (na szczęście z domyślnych repozytoriów). Lios jest nadal aktywnie rozwijany i w przyszłości może nas jeszcze niejednym zaskoczyć.
Program znajdziemy w większości repozytoriów najpopularniejszych dystrybucji. Aby przetestować go pod Ubuntu 16.04, Mintem 18.xx i pochodnymi, należy
sudo apt-get install lios
Aby było możliwe rozpoznawanie polskich znaków, potrzebujemy jeszcze odpowiedniej paczki Tesseract:
sudo apt-get install tesseract-ocr-pol
W Manjaro i Arch Linuksie potrzebujemy wykonać polecenie:
yaourt -S lios-git