URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 76019
[ Назад ]

Исходное сообщение
"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 08:57

Здравствуйте!
Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа на входе - имя файла с картинкой, на выходе - имя файла с текстом. Если есть API, позволяющее вызвать ее как фунцию из проги на C++, еще лучше :) Текст - чистая латиница.

Содержание

? OCR ?,rootuas, 15:24 , 03-Сен-07
- ? OCR ?,HarryPotter, 15:31 , 03-Сен-07
  - ? OCR ?,Beda, 15:44 , 03-Сен-07
    - ? OCR ?,HarryPotter, 16:06 , 03-Сен-07
      - ? OCR ?,Beda, 18:48 , 03-Сен-07
        
        ? OCR ?,HarryPotter, 21:29 , 03-Сен-07
        
        ? OCR ?,HarryPotter, 17:35 , 04-Сен-07
        
        ? OCR ?,Хмурый, 09:17 , 07-Сен-07

Сообщения в этом обсуждении

"? OCR ?"
Отправлено rootuas , 03-Сен-07 15:24

>Здравствуйте!
>
>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>на входе - имя файла с картинкой, на выходе - имя
>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>из проги на C++, еще лучше :) Текст - чистая латиница.
>
http://groundstate.ca/ocr

"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 15:31

>>Здравствуйте!
>>
>>Не посоветуете ли какую-нибудь OCR под Linux? Она должна быть пакетной, типа
>>на входе - имя файла с картинкой, на выходе - имя
>>файла с текстом. Если есть API, позволяющее вызвать ее как фунцию
>>из проги на C++, еще лучше :) Текст - чистая латиница.
>>
>
>http://groundstate.ca/ocr
Спасибо.
Интересно...
Пока пробую tesseract Ктоб его еще русскому научил...

"? OCR ?"
Отправлено Beda , 03-Сен-07 15:44

>Интересно...
>Пока пробую tesseract Ктоб его еще русскому научил...
...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)

"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 16:06

>>Интересно...
>>Пока пробую tesseract Ктоб его еще русскому научил...
>
>...ктоб написал заметку - как его обучать, многие подключатся к процесу ;)
>
Дык есть на Аглицком.
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

"? OCR ?"
Отправлено Beda , 03-Сен-07 18:48

>Дык есть на Аглицком.
>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
дык, про что и речь... мы про русский язык говорим или английский? ;)
нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?
наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.

"? OCR ?"
Отправлено HarryPotter , 03-Сен-07 21:29

>>Дык есть на Аглицком.
>>http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
>
>дык, про что и речь... мы про русский язык говорим или английский?
>;)
>нужен перевод и вводная шпаргалка - с чего/как начинать... кто возьмется?
>
>наверняка там возникнут "национальные" проблемы (UTF-8 консоль например), или особенности при сборке.
>
Полученный после обработки текст однозначно будет в UTF-8 Я собирал сам Tesseract под SUSE10 - проблем не было. Но там UTF-8 и никак иначе. Fedora Core, Mandriva и Debian тоже предлагают UTF-8. Так что, я думаю, надо на эту локаль переходить однозначно. Доку я прочитал, постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для какого-нибудь популярного шрифта типа Times Roman, но не обещаю...

"? OCR ?"
Отправлено HarryPotter , 04-Сен-07 17:35

>Доку я прочитал,
>постараюсь перевести на рус. и выложить. Возможно, попробую сделать что-нить для
>какого-нибудь популярного шрифта типа Times Roman, но не обещаю...
Вот, как и обещал, попробовал обучить tesseract и попутно описал все мои шаги здесь:
http://www.opennet.me//base/rus/osr_tesseract_rus.txt.html
Все заняло полдня.
Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)

"? OCR ?"
Отправлено Хмурый , 07-Сен-07 09:17

>Все заняло полдня.
>Ежели кто продвинется дальше меня, просьба подогреть результатами труда :)
предлагаю всем заинтересованным, перенести обсуждение на Google Groups:
http://groups.google.com/group/tesseract-ocr-russian?hl=ru