Началось бета-тестирование проекта WatchOCR (http://www.watchocr.com/), в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа (http://www.watchocr.com/files/watchocr-V0.2-2010-06-28-en.iso) 654 Мб.
Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) организовать сервер преобразующий PDF с изображениями отсканированных страниц в PDF с данными в тестовом представлении для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно ск...URL: http://linux.slashdot.org/story/10/07/22/1852234/Open-Source...
Новость: http://www.opennet.me/opennews/art.shtml?num=27399
IMHO, именно тот пример когда создание нового дистрибутива на 100% оправдано. Давно искал такую самодостаточную штуку для сканирования.
угу
вот только для сканирования она сканировать не умеет
как там с кириллицей дела обстоят?
С кириллицей, судя по движку, все в порядке. А вот что оно со сложным форматированием и таблицами сделает -- вопрос. Виндовый кунейформ ни чего хорошего с таблиц не отдавал, только с простыней текста на отлично справлялся.
Суть в том, что PDF (image) преобразуется в PDF (image + текст "поверх" растрового) для возможности полнотекстового поиска. В данном случае распознавание сложной верстки документов не так важно, ИМХО.
Проверил работу WatchOCR "из коробки" на выборке документов (кириллица/латиница) с различного уровня сложностью верстки (от двухколоночного текста, до форм счетов-фактур из 1С). На выходе, как и следовало, появляются PDF в том же виде, что и оригинальный скан. Текст можно выделять и копировать. С кириллицей (с предустановленными настройками дистрибутива) проблемы, Cuneiform не определяет ее, выдавая "06'+ecTBQ C QJPaHRVBHHOQNT B8TBTBBHHOC" вместо "Общество с ограниченной ответственностью" (пример). С распознаванием латиницы тоже не все радужно. Но все это решаемо, интересно было, как оно работает при поставка "как есть". Надеемся, что проекты Cuneiform и WatchOCR будут развиваться.P.S. А по поводу "дистр это жирно, нужны скрипты установки", автор над этим работает, во всяком случае .deb пакет на оффсайте есть.
Вроде как все пучком. Нужно только относительно хорошее разрешение скана и что бы не было художественных шрифтов.
При наличии прямых рук и холодной головы это можно на любом дистре сделать.
>При наличии прямых рук и холодной головы это можно на любом дистре сделать.Да, когда встает вопрос "вам шашечки или ехать" - почему-то вылезает очередной Вася из своего гаража и предлагает собрать вам автомобиль. За всего 2 недели, заметьте. Зато именно такой как вы хотели с точностью до винтика. Вот только если надо было например на самолет - небольшая проблема состоит в том что он две недели ждать не будет.
Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для этих целей.
>Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для
>этих целей.Скачай дистр и выпили оттуда.
Можно и на виртуалку...
>Размер iso-образа 654 Мб.=O
>задействован собственный набор скриптов
Пара строчек на баш?
Куда катится мир..
К одной кнопке
Отдельная ОСь.. Баш... Это полезная вещь!
LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов.