В состав новой версии программы распознавания текста Tesseract 2.0, открытой компанией Google около года назад, включены средства для обучения системы работе с новыми языками. Таким образом, время появления OCR с поддержкой русского языка теперь зависит только от того, как скоро найдутся энтузиасты готовые потратить свое время на обучение системы.
В настоящее время обучение системы уже проведено для французского, итальянского, немецкого, испанского и голландского языков.
В заключение, можно отметить выход статьи "Optical Character Recognition With Tesseract OCR On Ubuntu 7.04" с описанием процесса настройки Tesseract 2.0 в Ubuntu Linux, для начинающих.
|