Представлен (http://permalink.gmane.org/gmane.org.fsf.announce/2123) релиз системы распознавания текста Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) (Optical Character Recognition) 0.23, развиваемой под эгидой проекта GNU. Из изменений в новой версии отмечено улучшение распознавание символов (например, более корректное разделение схожих начертаний L и Z) и реализация удаления лидирующих пробелов в фильтрах "только буквы" и "только цифры".
Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction (http://en.wikipedia.org/wiki/Feature_extraction)). &nbs... может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках. Распознавание поддерживается только для кодировок "ascii", "iso-8859-9" и "iso-8859-15". Поддержка кириллицы отсутствует. В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах.
URL: http://permalink.gmane.org/gmane.org.fsf.announce/2123
Новость: http://www.opennet.me/opennews/art.shtml?num=39392
интересно как оно по сравнению с ocropus, tesseract ?
FineRider от всей этой опенсорсной лабуды так недосягаем, что даже не приходится радоваться подобным новостям.
>FineRiderНеужели Офигенный Всадник лучше расшифровывает свитки, чем Джо Мокрый Нос Длинная Сопля?
>что даже не приходится радоваться подобным новостям.Какая разница что может какая-то другая программа?
То, что fineReader лучше, не делает Ocrad хуже.
То, что в openSource сообществе нет специалистов по распознаванию никак не дискредитирует систему.
Вышла новая версия. Улучшенная версия. Чем не повод порадоваться?
Нельзя проскочить промежуточные этапы. Нельзя от палки-копалки перейти к транзисторам.
Придётся сначала и с зубчатыми колёсами и с катушками и с лампами повозиться.
Так устроен мир.
Оно путало L и Z. Лично мне хочется плакать, а не радоваться.
Оно на стадии "ребенок учится ползать", в то время как какие-то движки из первого комментария открыты и умеют что-то распознавать на среднем уровне. Накой этот велосипед?
Что бы ты плакал.
> Оно путало L и Z. Лично мне хочется плакать, а не радоваться.Никто ничего не путал, уважаемому не стоит беспокоится
> Оно на стадии "ребенок учится ползать", в то время как какие-то движки
> из первого комментария открыты и умеют что-то распознавать на среднем уровне.
> Накой этот велосипед?Основные проблемы у меня последний раз были в смешанном тексте с кириллицей и латиницей. Года 3 назад с tesseract-ocr.
> То, что в openSource сообществе нет специалистов по распознаванию никак не дискредитирует систему.Там так же нет и многих других специалистов. И в конце-концов этот снежный ком недовидео-недоаудио-недофото и прочих просто-нету таки дискредитирует систему.
> Нельзя проскочить промежуточные этапы. Нельзя от палки-копалки перейти к транзисторам.
Придётся сначала и с зубчатыми колёсами и с катушками и с лампами повозиться.
Так устроен мир.Так устроен опенсорс, где эти этапы за такое количество лет так и не были пройдены.
> FineRider от всей этой опенсорсной лабуды так недосягаем, что даже не приходится
> радоваться подобным новостям.Вот только версии под линукс нет как таковой, я бы купил для дома буде таковая продавалась.
Но таки ёк, только либа за штуку баксофф и "напиши гуй сам", при том, что хоум версия под винды меньше сотки.
Да, файнридер хорош в распознавании, вот только запускать крайне хлопотно, когда нет желания с виндой возиться.
> Вот только версии под линукс нет как таковойПод Linux есть SDK: http://www.abbyy.com/ocr_sdk_linux/
cuneiform и tesseract нормально не работают, а про оcrad даже не стоит и заикаться. Хотя то, что работы в этих направлениях ведутся всеже плюс. Давно не пользовался, что сейчас из перечисленного более вменяемое?
> cuneiform и tesseract нормально не работают. Давно не пользовался, что сейчас из перечисленного более вменяемое?Вот и проверьте, потом здесь расскажите.
Проверил - лучше всех штука finereader online
> Проверил - лучше всех штука finereader onlineАга, чтобы сразу в архивы АНБ?
Вы сами-то пробовали on-line?
Там ограничение и на количество страниц и документов. Затем просит заплатить.
> cuneiform и tesseract нормально не работают, а про оcrad даже не стоит
> и заикаться. Хотя то, что работы в этих направлениях ведутся всеже
> плюс. Давно не пользовался, что сейчас из перечисленного более вменяемое?У меня проблемы были только со смешанным текстом года 3 назад...
что значит "нормально"? с формулами, таблицами есть проблемы, а обычный текст у меня хорошо распознавался.
Только я один прочел вначале как orcad со всеми вытекающими? ))
Так ведь есть же Cuneiform который русский поддерживает. Еще бы gui на gtk ему нормальное прикрутить.
Периодически юзаю синеформу для распознавания разных домашних бумажек в убунте 12.04 из терминала, меня устраивает. Точность распознавания процентов 80. Всё лучше чем руками перенабирать.
> Поддержка кириллицы отсутствуетБлин! С этого же надо было заметку начинать! А то я столько буковок прочитал зря, зачем напрягался? Минуты полторы убил зря! :-)))