URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 76327
[ Назад ]

Исходное сообщение
"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено opennews , 13-Апр-11 23:41

В статье (http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_rev...) проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайн-сервисы.

Вывод: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.
URL: http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_rev...
Новость: http://www.opennet.me/opennews/art.shtml?num=30240

Содержание

Обзор и сравнительное тестирование систем распознавания текс...,Аноним, 23:41 , 13-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,Zenittur, 05:35 , 14-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,q4a, 15:37 , 14-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,Аноним, 23:44 , 13-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,Просто проходил мимо, 02:16 , 14-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,fewefwe, 02:34 , 14-Апр-11
    - Обзор и сравнительное тестирование систем распознавания текс...,darkside83, 07:07 , 14-Апр-11
      - Обзор и сравнительное тестирование систем распознавания текс...,AlexYeCu, 21:38 , 15-Апр-11
        
        Обзор и сравнительное тестирование систем распознавания текс...,darkside83, 08:40 , 16-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,prapor, 05:14 , 14-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,darkside83, 07:12 , 14-Апр-11
    - Обзор и сравнительное тестирование систем распознавания текс...,haha, 11:16 , 14-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,gregg128, 12:19 , 14-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,Anonus, 23:47 , 13-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,Тот_Самый_Анонимус, 07:06 , 14-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,Аноним, 13:38 , 14-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,Anonus, 14:29 , 14-Апр-11
    - Обзор и сравнительное тестирование систем распознавания текс...,Anonus, 14:30 , 14-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,Anonus, 14:34 , 14-Апр-11
    - Обзор и сравнительное тестирование систем распознавания текс...,Pel, 19:19 , 14-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,z, 23:51 , 13-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,slavon, 00:00 , 14-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,lhoi, 17:20 , 14-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,no_downloader, 00:25 , 14-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,no_downloader, 01:03 , 14-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,Аноним, 13:46 , 14-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,croster, 14:42 , 14-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,yantux, 22:06 , 14-Апр-11
- Обзор и сравнительное тестирование систем распознавания текс...,anonymous vulgaris, 03:33 , 15-Апр-11
  - Обзор и сравнительное тестирование систем распознавания текс...,AlexYeCu, 21:43 , 15-Апр-11
    - Обзор и сравнительное тестирование систем распознавания текс...,anonymous vulgaris, 04:18 , 16-Апр-11
      - Обзор и сравнительное тестирование систем распознавания текс...,AlexYeCu, 17:21 , 16-Апр-11
        
        Обзор и сравнительное тестирование систем распознавания текс...,anonymous vulgaris, 03:59 , 17-Апр-11
Обзор и сравнительное тестирование систем распознавания текс...,paulus, 23:52 , 14-Апр-11

Сообщения в этом обсуждении

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Аноним , 13-Апр-11 23:41

Виктор, спасибо большое за новость! Втянулся в Linux благодаря вашим публикациям.
Вся надежда на Cuneiform.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Zenittur , 14-Апр-11 05:35

На Википедии в статье о нём сказано, что он имеет проблемы с распознаванием текста из JPEG. В то время как FireReader их когда-то тоже имел, но избавился от них. Кроме того на LOR была ссылка, что разработка скорее всего прекращена, а последний релиз был насколько я помню в 2009-м.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено q4a , 14-Апр-11 15:37

Последний коммит был 9 дней назад, так что пока живой)
Пруф: https://code.launchpad.net/cuneiform-linux а далле на вкладку "Code"

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Аноним , 13-Апр-11 23:44

Так и не увидел ничего открытого и бесплатного, чем бы можно было нормально работать с pdf документами ... =/

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Просто проходил мимо , 14-Апр-11 02:16

Мне кажется здесь происходит рассмотр программ оптического распознования текста, то есть рисунков, а не PDF. Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и сосканировать ее, после чего скормить вышеперечисленным программам

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено fewefwe , 14-Апр-11 02:34

> Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и
> сосканировать ее, после чего скормить вышеперечисленным программам
А еще лучше сразу монитор прислонить к сканеру, чтобы убрать промежуточный носитель.
ps: pdf2jpg, pdf2tiff, pdf2png и т.д. и т.п.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено darkside83 , 14-Апр-11 07:07

Недавно нужно было распознать большой объем pdf файлов. Преобразовал их в tiff (он тоже умеет многостраничные файлы). Использовал для этого gslite (у меня он идет в комплекте с Bullzip Pdf Printer). Накидал батник следующего содержания:
>dir /b *.pdf >> list
>for /f "usebackq delims=" %%a in (list) do (
>"c:\Program Files\Bullzip\PDF Printer\gs\gswin32c.exe" -q -dNOPAUSE -sDEVICE=tiffg4 ->sOutputFile="%%a.tif" "%%a" -c quit
>) >> log.txt
После чего натравил на эти файлы пакетное распознание из cuneiform.
Качество распознания не очень хорошее, но свою задачу выполнил ))
Нужно было найти несколько конкретных pdf-ок.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено AlexYeCu , 15-Апр-11 21:38

Распознать pdf?!
Оно, вообще-то, вполне нормально как текст редактируется.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено darkside83 , 16-Апр-11 08:40

> Распознать pdf?!
> Оно, вообще-то, вполне нормально как текст редактируется.
В этих pdf-ках страница шла как изображение. Просто отсканенные многостраничные документы, сохранены как изображение.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено prapor , 14-Апр-11 05:14

Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и т.д., только не говорите что распознавалки это устранят). Разве что речь идёт о пачке картинок, запакованных в PDF.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено darkside83 , 14-Апр-11 07:12

> Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с
> условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и
> т.д., только не говорите что распознавалки это устранят). Разве что речь
> идёт о пачке картинок, запакованных в PDF.
Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))
Отсутствие поддержки pdf в cuneiform создало дополнительные трудности.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено haha , 14-Апр-11 11:16

>Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))
Ну так и распозновал бы картинки. $convert *.pdf *.png

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено gregg128 , 14-Апр-11 12:19

> Так и не увидел ничего открытого и бесплатного, чем бы можно было
> нормально работать с pdf документами ... =/
В gscan2pdf есть OCR (через внешние движки тессеракт\къюниформ).
Если же вам нужно массовое распознавание пдф - это пишется скриптами.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Anonus , 13-Апр-11 23:47

Нативного файнридера я так понял ждать не стоит. Так что да - вся надежда на Cuneiform. Вот только он мега-далек от совершенства, как по части распознавания, так и по части интерфейса... Онлайн сервис файнридера - это какой-то грабеж. Ребят, это катастрофа какая-то!

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Тот_Самый_Анонимус , 14-Апр-11 07:06

Ты бы по ссылке сходил. Есть файнридер, только платный он.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Аноним , 14-Апр-11 13:38

Это все равно что его нету.
Где исходники? раз они запускают свой софт на linux.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Anonus , 14-Апр-11 14:29

Говоришь есть файлридер под Linux? Вот такой?
http://www.abbyy.ru/download/finereader_pro/
С полным аналогичным виндовому GUY и всеми функциями?

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Anonus , 14-Апр-11 14:30

Операционная система: Microsoft® Windows® 7, Microsoft Windows Vista, Microsoft Windows Server® 2008, Microsoft Windows Server 2003, Microsoft Windows XP.
И где здесь Linux?

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Anonus , 14-Апр-11 14:34

Вот это чтоли?
ABBYY FineReader Engine 9.0 для Linux?
Предлагаешь с консолью заниматься секосом? А например для новичков, которые постоянно переходят на Linux - консоль является проблемой. Нафига им файнридер без GUI? Вобщем-то это задротство еще то.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Pel , 14-Апр-11 19:19

+1
Консольный интерфейс есть большое зло для любого прикладного софта.
А кто не согласен - смотреть http://gdemozg.ru/demotivators/w/id/642/trat_vremya_optimaln... ;)

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено z , 13-Апр-11 23:51

OCRFeeder забыли упомянуть в статье.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено slavon , 14-Апр-11 00:00

гугл фри OCR ввел веб - попробуйте

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено lhoi , 14-Апр-11 17:20

Ссылку можно на эту самую гугл фри OCR?

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено no_downloader , 14-Апр-11 00:25

Хотел попробовать, но:
Ссылка на файл
http://ocr4linux.com/_media/abbyyocr-8.7002.42.tar.gz
на странице
http://ocr4linux.com/en:download
не работает, скачивается файл размером 0 байт
Кто скачал, БУДЬТЕ ДОБРЫ, перевыложите... на какой-нибудь файлообменник

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено no_downloader , 14-Апр-11 01:03

http://www.ocr4linux.com/Linux_CLI_OCR_Download.html
скачал только по этой ссылке. запросил триал... ФСЁ позже Выложу на торрент...

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено Аноним , 14-Апр-11 13:46

Не работает: Service Temporarily Unavailable

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено croster , 14-Апр-11 14:42

Перезагрузите страницу.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено yantux , 14-Апр-11 22:06

В контексте этой новсти интересне тендер ФСБ:
http://www.cnews.ru/news/top/index.shtml?2011/04/12/436092
Российская спецслужба выделяет 10 млн руб. на создание программы, которая позволит находить сходства на разных изображениях и видеозаписях.
Особенно интересны требования к ПО!
Как следует из конкурсного техзадания, ПО должно поддерживать поиск по файлам в форматах JPG, BMP, PNG, KMZ, AVI, VOB, MPG, MP4, ASF, WMV, MOV, 3GP, RM и FLV. Программа должна функционировать под управлением операционных систем Windows XP и Windows 7.
================================================================
По моему за 10млн руб можно сделать и кр\оссплатворменное ПО, как в этой новости! Кроме того, сделать реальное время в MS Windows - абсурд! А поскольку тяжёлые математическое операции лучше переносить на специализированный процессор, например nVidia, то уж лучше тогда после отработки алгоритмов потребовать перенос маталгоритмов на язык vhdl/verilog. чтобы например напустить на xilinx, но блин как можно заказывать такое ПО и чёткео под MS Windows? Вот же пример корссплатформа в новости!!!!!!!!!!!!!!!

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено anonymous vulgaris , 15-Апр-11 03:33

> Кроме того, сделать реальное время в MS Windows - абсурд!
А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено AlexYeCu , 15-Апр-11 21:43

>> Кроме того, сделать реальное время в MS Windows - абсурд!
> А как же вы в ней кино смотрите, музыку слушаете и по
> скайпу разговариваете?
А для этого уже нужен realtime?

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено anonymous vulgaris , 16-Апр-11 04:18

>>> Кроме того, сделать реальное время в MS Windows - абсурд!
>> А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?
> А для этого уже нужен realtime?
а, то есть вы по скайпу не в реалтайме умеете разговаривать? веб-камерой никогда не пользовались? в видеоконференции под виндой никогда не участвовали? постоянная скорость смены кадров в кино и синхронизация звука с видео вас не интересует? ну так научите как это все сделать без реального времени, вам спасибо скажут

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено AlexYeCu , 16-Апр-11 17:21

Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными системами и ядрами.
Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено anonymous vulgaris , 17-Апр-11 03:59

> Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными
> системами и ядрами.
> Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.
вы хоть одно приложение для работы со звуком или аппаратурой какой под любую ось в жизни написали? или только читатель в связи?

"Обзор и сравнительное тестирование систем распознавания текс..."
Отправлено paulus , 14-Апр-11 23:52

>высокое качество распознавания,
не высокое, а нормальное. жить можно.
>снижение разрешения с 300 до 200 dpi практически не влияет на результат.
Cuneiform на 300dpi распознает хреновато, 600dpi значительно улучшает результат.