Здравствуйте!Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа на входе - имя файла с картинкой, на выходе - имя файла с текстом. Если есть API, позволяющее вызвать ее как фунцию из проги на C++, еще лучше :) Текст - чистая латиница.
>Здравствуйте!
>
>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>на входе - имя файла с картинкой, на выходе - имя
>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>из проги на C++, еще лучше :) Текст - чистая латиница.
>
>>Здравствуйте!
>>
>>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>>на входе - имя файла с картинкой, на выходе - имя
>>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>>из проги на C++, еще лучше :) Текст - чистая латиница.
>>
>
>http://groundstate.ca/ocrСпасибо.
Интересно...
Пока пробую tesseract Ктоб его еще русскому научил...
>Интересно...
>Пока пробую tesseract Ктоб его еще русскому научил......ктоб написал заметку - как его обучать, многие подключатся к процесу ;)
>>Интересно...
>>Пока пробую tesseract Ктоб его еще русскому научил...
>
>...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)
>Дык есть на Аглицком.
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
>Дык есть на Аглицком.
>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseractдык, про что и речь... мы про русский язык говорим или английский? ;)
нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.
>>Дык есть на Аглицком.
>>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
>
>дык, про что и речь... мы про русский язык говорим или английский?
>;)
>нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?
>
>наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.
>Полученный после обработки текст однозначно будет в UTF-8 Я собирал сам Tesseract под SUSE10 - проблем не было. Но там UTF-8 и никак иначе. Fedora Core, Mandriva и Debian тоже предлагают UTF-8. Так что, я думаю, надо на эту локаль переходить однозначно. Доку я прочитал, постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для какого-нибудь популярного шрифта типа Times Roman, но не обещаю...
>Доку я прочитал,
>постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для
>какого-нибудь популярного шрифта типа Times Roman, но не обещаю...Вот, как и обещал, попробовал обучить tesseract и попутно описал все мои шаги здесь:
http://www.opennet.me//base/rus/osr_tesseract_rus.txt.html
Все заняло полдня.
Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)
>Все заняло полдня.
>Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)предлагаю всем заинтересованным, перенести обсуждение на Google Groups:
http://groups.google.com/group/tesseract-ocr-russian?hl=ru