URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 76019
[ Назад ]

Исходное сообщение
"? OCR ?"

Отправлено HarryPotter , 03-Сен-07 08:57 
Здравствуйте!

Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа на входе - имя файла с картинкой, на выходе - имя файла с текстом. Если есть API, позволяющее вызвать ее как фунцию из проги на C++, еще лучше :) Текст - чистая латиница.


Содержание

Сообщения в этом обсуждении
"? OCR ?"
Отправлено rootuas , 03-Сен-07 15:24 
>Здравствуйте!
>
>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>на входе - имя файла с картинкой, на выходе - имя
>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>из проги на C++, еще лучше :) Текст - чистая латиница.
>

http://groundstate.ca/ocr


"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 15:31 
>>Здравствуйте!
>>
>>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>>на входе - имя файла с картинкой, на выходе - имя
>>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>>из проги на C++, еще лучше :) Текст - чистая латиница.
>>
>
>http://groundstate.ca/ocr

Спасибо.
Интересно...
Пока пробую tesseract Ктоб его еще русскому научил...


"? OCR ?"
Отправлено Beda , 03-Сен-07 15:44 
>Интересно...
>Пока пробую tesseract Ктоб его еще русскому научил...

...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)


"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 16:06 
>>Интересно...
>>Пока пробую tesseract Ктоб его еще русскому научил...
>
>...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)
>

Дык есть на Аглицком.
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract



"? OCR ?"
Отправлено Beda , 03-Сен-07 18:48 
>Дык есть на Аглицком.
>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

дык, про что и речь... мы про русский язык говорим или английский? ;)
нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?

наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.


"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 21:29 
>>Дык есть на Аглицком.
>>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
>
>дык, про что и речь... мы про русский язык говорим или английский?
>;)
>нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?
>
>наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.
>

Полученный после обработки текст однозначно будет в UTF-8 Я собирал сам Tesseract под SUSE10 - проблем не было. Но там UTF-8 и никак иначе. Fedora Core, Mandriva и Debian тоже предлагают UTF-8. Так что, я думаю, надо на эту локаль переходить однозначно. Доку я прочитал, постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для какого-нибудь популярного шрифта типа Times Roman, но не обещаю...


"? OCR ?"
Отправлено HarryPotter , 04-Сен-07 17:35 
>Доку я прочитал,
>постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для
>какого-нибудь популярного шрифта типа Times Roman, но не обещаю...

Вот, как и обещал, попробовал обучить tesseract и попутно описал все мои шаги здесь:

http://www.opennet.me//base/rus/osr_tesseract_rus.txt.html

Все заняло полдня.
Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)


"? OCR ?"
Отправлено Хмурый , 07-Сен-07 09:17 
>Все заняло полдня.
>Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)

предлагаю всем заинтересованным, перенести обсуждение на Google Groups:
http://groups.google.com/group/tesseract-ocr-russian?hl=ru