Опубликовано (http://drakulavich.blogspot.com/2011/09/yagf_15.html) интервью с Андреем Боровским, автором проекта YAGF (http://symmetrica.net/cuneiform-linux/yagf-ru.html), в рамках которого развивается оболочка для систем распознавания текстов Cuneiform и Tesseract.URL: http://drakulavich.blogspot.com/2011/09/yagf_15.html
Новость: http://www.opennet.me/opennews/art.shtml?num=31761
Автор просто молодец и все!
Надо будет обратить более пристальное внимание на tesseract
Помнится, движок FineReader тоже свободно доступен под Linux.
Почему бы его не использовать в этом проекте?
Свободно точно не доступен
В каком смысле "свободно" доступен ? За деньги доступен да и то устаревший вариант.В чем тесаракт и кьюни проигрывают файну так разве что в словарях для русского.
Плохо помнится вам, он доступен за полторы кучи денег и не свободно.
> Помнится, движок FineReader тоже свободно доступен под Linux.Блобятина без исходников, на совсем банальных условиях, кривое какое-то, да еще и за бабки. Нафиг нужно - скажем дружно.
Работа нужная, только вот первое что нужно сделать автору это создать свой формат и/или использовать открытый для храниения документов текста с разметкой и изображениями, если память не изменяет даже в семплах QT есть подобный редактор. Ну и последующая печать в PDF например. А так далеко от консольных утилит далеко не ушел - получаешь голый текст и копи/паст в офис?!
ЗЫЖ Оптимизацией сканирования и алгоритмами улучшений пусть занимаються разработчики OCR и графических редакторов.
> Работа нужная, только вот первое что нужно сделать автору это создать свой
> формат и/или использовать открытый для храниения документов текста с разметкой и
> изображениями, если память не изменяет даже в семплах QT есть подобный
> редактор. Ну и последующая печать в PDF например. А так далеко
> от консольных утилит далеко не ушел - получаешь голый текст и
> копи/паст в офис?!
> ЗЫЖ Оптимизацией сканирования и алгоритмами улучшений пусть занимаються разработчики
> OCR и графических редакторов.Однозначно, единственный серьезный минус перед платными аналогами.
кроме yagf есть графические интерфейсы к консольным версиям программ распознавания - gImageReader (для tesseract-ocr), gscan2pdf (для gocr, tesseract-ocr, ocropus, cuneiform), OCRFeeder (для gocr, tesseract-ocr, cuneiform). И они очень неплохи, особенно если сравнивать с yagf. Хотя yagf в свое время был единственной программой подобного рода, остальное попозже появилось.
И все под gnome. На Qt есть альтернатива?
Хотеть в официальных репозиториях Debian и Ubuntu.
Для Ubuntu можно на getdeb.net взять. Правда там (да и в ppa тоже) версия 0.8.6, а актуальная (та которая tesseract поддерживает) - 0.8.7
https://github.com/uliss/quneiform