Cainteoir i rozmowy z maszyną
W przeciwieństwie do sztandarowych Gespeaker czy eSpeak GUI, Cainteoir jest aktywniej rozwijany, co dobrze rokuje na przyszłość. Posiada też niezłe możliwości, bo za jego pomocą komputer będzie potrafił przeczytać nam za pomocą silnika eSpeak tekst z formatów HTML, txt, PDF, ePub, XHTML, XML, a odczytywane kwestie będziemy mogli zgrać do pliku .wav lub .ogg. Cainteoir automatycznie wykryje (a przynajmniej spróbuje) język w jakim powinien odczytać tekst. Cały czas będziemy też mieli dostęp do parametrów syntezatora mowy, takich jak prędkość wypowiedzi, natężenie, głośność, itp.). Interfejs programu ułatwi też dostęp do ostatnio używanych dokumentów, bez konieczności przeszukiwania dysku. Wszystko to brzmi zachęcająco, lecz jak wygląda sprawa z jakością syntezy oraz obsługą języka polskiego? Niestety – standardowy polski głos eSpeak jest mocno ‘komputerowy’ i mało naturalny. Brzęczy sztucznością i przyjemność z tego cyfrowego dukania jest nikła – choć oczywiście na bezrybiu i rak ryba. Jest jednak sposób by poradzić sobie i z tym mankamentem, używając bardziej ‘uczłowieczonych’ głosów niż te standardowe z eSpeak.
By spróbować nauczyć komputer artykułować naszą rodzimą mowę, musimy najpierw zainstalować Cainteoir – w repozytorium znajdują się pakiety dla Ubuntu od wersji 10.04 do 12.10 (w tym i 12.04). Paczki można wykorzystać i dla Minta oraz innych dystrybucji pochodnych od Ubuntu.
sudo apt-add-repository ppa:msclrhd-gmail/cainteoir
sudo apt-get update
sudo apt-get install cainteoir-gtk
Po początkowej zabawie programem, dochodzimy do wniosku, że jednak polska mowa ‘brzęczy’. Dlatego w celu poprawy jakości wypowiedzi możemy jednak wspomóc się głosem Mbrola – wystarczy pobrać ze strony projektu plik dla języka polskiego, jak też zainstalować:
sudo apt-get install mbrola
Pobrany plik rozpakowujemy do lokalizacji /usr/share/mbrola/pl1/. Uruchamiamy ponownie Cainteoir i na liście dostępnych głosów powinien pojawić się taki o nazwie mb-pl1 – to nasz ulepszony głos. Oczywiście, będzie też wymagał paru ruchów suwakami, jednak jest nieco bardziej zrozumiały niż te domyślne. Niestety, jakość 16000Hz skutecznie zaniża parametry, szczególnie przy naszych szeleszczących zgłoskach.
Leczy gdy i to będzie za mało dla kogoś, to warto pamiętać, że w wyniku pracy naszego rodaka mamy również dostępną dedykowaną językowi polskiemu świetną Milenę.