В состав новой версии программы распознавания текста Tesseract 2.0 (http://code.google.com/p/tesseract-ocr/wiki/ReleaseNotes), открытой компанией Google около года назад, включены средства для обучения системы работе с новыми языками (http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract). Таким образом, время появления OCR с поддержкой русского языка теперь зависит только от того, как скоро найдутся энтузиасты готовые потратить свое время на обучение системы.
В настоящее время обучение системы уже проведено для французского, итальянского, немецкого, испанского и голландского языков.
В заключение, можно отметить выход статьи "Optical Character Recognition With Tesseract OCR On Ubuntu 7.04 (http://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704)" с описанием процесса настройки Tesseract 2.0 в Ubuntu Linux, для начинающих.URL: http://rulinux.net.ru/node/66
Новость: http://www.opennet.me/opennews/art.shtml?num=11847
так это же просто прекрасно!
Ура! Ура! Ура!Качаю и начинаю экспериментировать.
обнадеживающе...
классная фигня
Знаете поговорку "Имею ввозможность, но не имею желения и наоборот...".Так вот я работаю в конторе которая все входящие и исходящие документы (факсы, наряды, письма, машинописные и ручные заявления), даже внутренние приказы по организации делает скан копию. Сейчас посмотрел на сервере их там на около 10000 файлов на более чем Гб :)
Но...