The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"WatchOCR - LiveCD для развертывания серверов распознавания о..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от opennews (??) on 23-Июл-10, 13:28 
Началось бета-тестирование проекта WatchOCR (http://www.watchocr.com/), в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа (http://www.watchocr.com/files/watchocr-V0.2-2010-06-28-en.iso) 654 Мб.


Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) организовать сервер преобразующий PDF с изображениями отсканированных страниц в PDF с данными в тестовом представлении для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно ск...

URL: http://linux.slashdot.org/story/10/07/22/1852234/Open-Source...
Новость: http://www.opennet.me/opennews/art.shtml?num=27399

Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от Аноним (??) on 23-Июл-10, 13:28 
IMHO, именно тот пример когда создание нового дистрибутива на 100% оправдано. Давно искал такую самодостаточную штуку для сканирования.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

2. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  –1 +/
Сообщение от Аноним (??) on 23-Июл-10, 13:39 
угу
вот только для сканирования она сканировать не умеет
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

3. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от Аноним (??) on 23-Июл-10, 13:53 
как там с кириллицей дела обстоят?
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

6. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от Михаил (??) on 23-Июл-10, 14:32 
С кириллицей, судя по движку, все в порядке. А вот что оно со сложным форматированием и таблицами сделает -- вопрос. Виндовый кунейформ ни чего хорошего с таблиц не отдавал, только с простыней текста на отлично справлялся.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

12. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +1 +/
Сообщение от DocMan on 23-Июл-10, 16:43 
Суть в том, что PDF (image) преобразуется в PDF (image + текст "поверх" растрового) для возможности полнотекстового поиска. В данном случае распознавание сложной верстки документов не так важно, ИМХО.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

15. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от DocMan on 25-Июл-10, 13:36 
Проверил работу WatchOCR "из коробки" на выборке документов (кириллица/латиница) с различного уровня сложностью верстки (от двухколоночного текста, до форм счетов-фактур из 1С). На выходе, как и следовало, появляются PDF в том же виде, что и оригинальный скан. Текст можно выделять и копировать. С кириллицей (с предустановленными настройками дистрибутива) проблемы, Cuneiform не определяет ее, выдавая "06'+ecTBQ C QJPaHRVBHHOQNT B8TBTBBHHOC" вместо "Общество с ограниченной ответственностью" (пример). С распознаванием латиницы тоже не все радужно. Но все это решаемо, интересно было, как оно работает при поставка "как есть". Надеемся, что проекты Cuneiform и WatchOCR будут развиваться.

P.S. А по поводу "дистр это жирно, нужны скрипты установки", автор над этим работает, во всяком случае .deb пакет на оффсайте есть.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

7. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от KERNEL_PANIC (ok) on 23-Июл-10, 14:33 
Вроде как все пучком. Нужно только относительно хорошее разрешение скана и что бы не было художественных шрифтов.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

4. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от KERNEL_PANIC (ok) on 23-Июл-10, 13:54 
При наличии прямых рук и холодной головы это можно на любом дистре сделать.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

8. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от User294 (ok) on 23-Июл-10, 14:45 
>При наличии прямых рук и холодной головы это можно на любом дистре сделать.

Да, когда встает вопрос "вам шашечки или ехать" - почему-то вылезает очередной Вася из своего гаража и предлагает собрать вам автомобиль. За всего 2 недели, заметьте. Зато именно такой как вы хотели с точностью до винтика. Вот только если надо было например на самолет - небольшая проблема состоит в том что он две недели ждать не будет.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

5. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +1 +/
Сообщение от Анон on 23-Июл-10, 14:04 
Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для этих целей.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

9. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от zazik (ok) on 23-Июл-10, 14:56 
>Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для
>этих целей.

Скачай дистр и выпили оттуда.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

11. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от sHaggY_caT (ok) on 23-Июл-10, 16:22 
Можно и на виртуалку...
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

10. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +1 +/
Сообщение от анонимиус on 23-Июл-10, 15:51 
>Размер iso-образа 654 Мб.

=O

>задействован собственный набор скриптов

Пара строчек на баш?

Куда катится мир..

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

13. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от Аноним (??) on 23-Июл-10, 23:41 
К одной кнопке
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

14. "WatchOCR - LiveCD для развертывания серверов распознавания о..."  +/
Сообщение от ziceptor on 24-Июл-10, 04:19 
Отдельная ОСь.. Баш... Это полезная вещь!
LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов.
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру