URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 69118
[ Назад ]

Исходное сообщение
"WatchOCR - LiveCD для развертывания серверов распознавания о..."

Отправлено opennews , 23-Июл-10 13:28 
Началось бета-тестирование проекта WatchOCR (http://www.watchocr.com/), в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа (http://www.watchocr.com/files/watchocr-V0.2-2010-06-28-en.iso) 654 Мб.


Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) организовать сервер преобразующий PDF с изображениями отсканированных страниц в PDF с данными в тестовом представлении для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно ск...

URL: http://linux.slashdot.org/story/10/07/22/1852234/Open-Source...
Новость: http://www.opennet.me/opennews/art.shtml?num=27399


Содержание

Сообщения в этом обсуждении
"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено Аноним , 23-Июл-10 13:28 
IMHO, именно тот пример когда создание нового дистрибутива на 100% оправдано. Давно искал такую самодостаточную штуку для сканирования.

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено Аноним , 23-Июл-10 13:39 
угу
вот только для сканирования она сканировать не умеет

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено Аноним , 23-Июл-10 13:53 
как там с кириллицей дела обстоят?

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено Михаил , 23-Июл-10 14:32 
С кириллицей, судя по движку, все в порядке. А вот что оно со сложным форматированием и таблицами сделает -- вопрос. Виндовый кунейформ ни чего хорошего с таблиц не отдавал, только с простыней текста на отлично справлялся.

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено DocMan , 23-Июл-10 16:43 
Суть в том, что PDF (image) преобразуется в PDF (image + текст "поверх" растрового) для возможности полнотекстового поиска. В данном случае распознавание сложной верстки документов не так важно, ИМХО.

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено DocMan , 25-Июл-10 13:36 
Проверил работу WatchOCR "из коробки" на выборке документов (кириллица/латиница) с различного уровня сложностью верстки (от двухколоночного текста, до форм счетов-фактур из 1С). На выходе, как и следовало, появляются PDF в том же виде, что и оригинальный скан. Текст можно выделять и копировать. С кириллицей (с предустановленными настройками дистрибутива) проблемы, Cuneiform не определяет ее, выдавая "06'+ecTBQ C QJPaHRVBHHOQNT B8TBTBBHHOC" вместо "Общество с ограниченной ответственностью" (пример). С распознаванием латиницы тоже не все радужно. Но все это решаемо, интересно было, как оно работает при поставка "как есть". Надеемся, что проекты Cuneiform и WatchOCR будут развиваться.

P.S. А по поводу "дистр это жирно, нужны скрипты установки", автор над этим работает, во всяком случае .deb пакет на оффсайте есть.


"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено KERNEL_PANIC , 23-Июл-10 14:33 
Вроде как все пучком. Нужно только относительно хорошее разрешение скана и что бы не было художественных шрифтов.

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено KERNEL_PANIC , 23-Июл-10 13:54 
При наличии прямых рук и холодной головы это можно на любом дистре сделать.

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено User294 , 23-Июл-10 14:45 
>При наличии прямых рук и холодной головы это можно на любом дистре сделать.

Да, когда встает вопрос "вам шашечки или ехать" - почему-то вылезает очередной Вася из своего гаража и предлагает собрать вам автомобиль. За всего 2 недели, заметьте. Зато именно такой как вы хотели с точностью до винтика. Вот только если надо было например на самолет - небольшая проблема состоит в том что он две недели ждать не будет.


"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено Анон , 23-Июл-10 14:04 
Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для этих целей.


"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено zazik , 23-Июл-10 14:56 
>Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для
>этих целей.

Скачай дистр и выпили оттуда.


"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено sHaggY_caT , 23-Июл-10 16:22 
Можно и на виртуалку...

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено анонимиус , 23-Июл-10 15:51 
>Размер iso-образа 654 Мб.

=O

>задействован собственный набор скриптов

Пара строчек на баш?

Куда катится мир..


"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено Аноним , 23-Июл-10 23:41 
К одной кнопке

"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Отправлено ziceptor , 24-Июл-10 04:19 
Отдельная ОСь.. Баш... Это полезная вещь!
LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов.