В Tesseract OCR 2.0 появился модуль для обучения новым языкам

30.08.2007 22:18

В состав новой версии программы распознавания текста Tesseract 2.0, открытой компанией Google около года назад, включены средства для обучения системы работе с новыми языками. Таким образом, время появления OCR с поддержкой русского языка теперь зависит только от того, как скоро найдутся энтузиасты готовые потратить свое время на обучение системы.

В настоящее время обучение системы уже проведено для французского, итальянского, немецкого, испанского и голландского языков.

В заключение, можно отметить выход статьи "Optical Character Recognition With Tesseract OCR On Ubuntu 7.04" с описанием процесса настройки Tesseract 2.0 в Ubuntu Linux, для начинающих.

исправить +/–

Лицензия: CC BY 3.0

Источник: rulinux.net.ru

Короткая ссылка: https://opennet.ru/11847-ocr

Ключевые слова: ocr, image, text

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (5)

RSS

1, НеДемократ (?), 23:10, 30/08/2007 [ответить]	+/–
так это же просто прекрасно!

2, Аноним (-), 01:50, 31/08/2007 [ответить]	+/–
Ура! Ура! Ура! Качаю и начинаю экспериментировать.

3, _Nick_ (??), 04:05, 31/08/2007 [ответить]	+/–
обнадеживающе...

4, www.andr.ru (?), 09:14, 31/08/2007 [ответить]	+/–
классная фигня

5, Олег (??), 10:59, 31/08/2007 [ответить]

+/–

Знаете поговорку "Имею ввозможность, но не имею желения и наоборот...".

Так вот я работаю в конторе которая все входящие и исходящие документы (факсы, наряды, письма, машинописные и ручные заявления), даже внутренние приказы по организации делает скан копию. Сейчас посмотрел на сервере их там на около 10000 файлов на более чем Гб :)

Но...

Добавить комментарий

Текст: