The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Обзор и сравнительное тестирование систем распознавания текс..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от opennews (??) on 13-Апр-11, 23:41 
В статье (http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_rev...) проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайн-сервисы.


Вывод: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

URL: http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_rev...
Новость: http://www.opennet.me/opennews/art.shtml?num=30240

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Обзор и сравнительное тестирование систем распознавания текс..."  +6 +/
Сообщение от Аноним (??) on 13-Апр-11, 23:41 
Виктор, спасибо большое за новость! Втянулся в Linux благодаря вашим публикациям.

Вся надежда на Cuneiform.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

11. "Обзор и сравнительное тестирование систем распознавания текс..."  +1 +/
Сообщение от Zenittur on 14-Апр-11, 05:35 
На Википедии в статье о нём сказано, что он имеет проблемы с распознаванием текста из JPEG. В то время как FireReader их когда-то тоже имел, но избавился от них. Кроме того на LOR была ссылка, что разработка скорее всего прекращена, а последний релиз был насколько я помню в 2009-м.
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

23. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от q4a on 14-Апр-11, 15:37 
Последний коммит был 9 дней назад, так что пока живой)
Пруф: https://code.launchpad.net/cuneiform-linux а далле на вкладку "Code"
Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

2. "Обзор и сравнительное тестирование систем распознавания текс..."  +1 +/
Сообщение от Аноним (??) on 13-Апр-11, 23:44 
Так и не увидел ничего открытого и бесплатного, чем бы можно было нормально работать с pdf документами ... =/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

8. "Обзор и сравнительное тестирование систем распознавания текс..."  –6 +/
Сообщение от Просто проходил мимо on 14-Апр-11, 02:16 
Мне кажется здесь происходит рассмотр программ оптического распознования текста, то есть рисунков, а не PDF. Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и сосканировать ее, после чего скормить вышеперечисленным программам
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

9. "Обзор и сравнительное тестирование систем распознавания текс..."  +8 +/
Сообщение от fewefwe on 14-Апр-11, 02:34 
> Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и
> сосканировать ее, после чего скормить вышеперечисленным программам

А еще лучше сразу монитор прислонить к сканеру, чтобы убрать промежуточный носитель.

ps: pdf2jpg, pdf2tiff, pdf2png и т.д. и т.п.

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

13. "Обзор и сравнительное тестирование систем распознавания текс..."  –3 +/
Сообщение от darkside83 on 14-Апр-11, 07:07 
Недавно нужно было распознать большой объем pdf файлов. Преобразовал их в tiff (он тоже умеет многостраничные файлы). Использовал для этого gslite (у меня он идет в комплекте с Bullzip Pdf Printer). Накидал батник следующего содержания:

>dir /b *.pdf >> list
>for /f "usebackq delims=" %%a in (list) do (
>"c:\Program Files\Bullzip\PDF Printer\gs\gswin32c.exe" -q -dNOPAUSE -sDEVICE=tiffg4 ->sOutputFile="%%a.tif" "%%a" -c quit
>) >> log.txt

После чего натравил на эти файлы пакетное распознание из cuneiform.
Качество распознания не очень хорошее, но свою задачу выполнил ))
Нужно было найти несколько конкретных pdf-ок.

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

30. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от AlexYeCu on 15-Апр-11, 21:38 
Распознать pdf?!
Оно, вообще-то, вполне нормально как текст редактируется.
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

33. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от darkside83 on 16-Апр-11, 08:40 
> Распознать pdf?!
> Оно, вообще-то, вполне нормально как текст редактируется.

В этих pdf-ках страница шла как изображение. Просто отсканенные многостраничные документы, сохранены как изображение.

Ответить | Правка | ^ к родителю #30 | Наверх | Cообщить модератору

10. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от prapor (??) on 14-Апр-11, 05:14 
Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и т.д., только не говорите что распознавалки это устранят). Разве что речь идёт о пачке картинок, запакованных в PDF.
Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

14. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от darkside83 on 14-Апр-11, 07:12 
> Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с
> условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и
> т.д., только не говорите что распознавалки это устранят). Разве что речь
> идёт о пачке картинок, запакованных в PDF.

Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))
Отсутствие поддержки pdf в cuneiform создало дополнительные трудности.

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

15. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от haha (??) on 14-Апр-11, 11:16 
>Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))

Ну так и распозновал бы картинки. $convert *.pdf *.png

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

16. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от gregg128 (ok) on 14-Апр-11, 12:19 
> Так и не увидел ничего открытого и бесплатного, чем бы можно было
> нормально работать с pdf документами ... =/

В gscan2pdf есть OCR (через внешние движки тессеракт\къюниформ).

Если же вам нужно массовое распознавание пдф - это пишется скриптами.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

3. "Обзор и сравнительное тестирование систем распознавания текс..."  +3 +/
Сообщение от Anonus on 13-Апр-11, 23:47 
Нативного файнридера я так понял ждать не стоит. Так что да - вся надежда на Cuneiform. Вот только он мега-далек от совершенства, как по части распознавания, так и по части интерфейса... Онлайн сервис файнридера - это какой-то грабеж. Ребят, это катастрофа какая-то!
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

12. "Обзор и сравнительное тестирование систем распознавания текс..."  –1 +/
Сообщение от Тот_Самый_Анонимус on 14-Апр-11, 07:06 
Ты бы по ссылке сходил. Есть файнридер, только платный он.
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

17. "Обзор и сравнительное тестирование систем распознавания текс..."  –1 +/
Сообщение от Аноним (??) on 14-Апр-11, 13:38 
Это все равно что его нету.
Где исходники? раз они запускают свой софт на linux.
Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

19. "Обзор и сравнительное тестирование систем распознавания текс..."  +3 +/
Сообщение от Anonus on 14-Апр-11, 14:29 
Говоришь есть файлридер под Linux? Вот такой?

http://www.abbyy.ru/download/finereader_pro/

С полным аналогичным виндовому GUY и всеми функциями?

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

20. "Обзор и сравнительное тестирование систем распознавания текс..."  +3 +/
Сообщение от Anonus on 14-Апр-11, 14:30 
Операционная система: Microsoft® Windows® 7, Microsoft Windows Vista, Microsoft Windows Server® 2008, Microsoft Windows Server 2003, Microsoft Windows XP.

И где здесь Linux?

Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

21. "Обзор и сравнительное тестирование систем распознавания текс..."  +2 +/
Сообщение от Anonus on 14-Апр-11, 14:34 
Вот это чтоли?

ABBYY FineReader Engine 9.0 для Linux?

Предлагаешь с консолью заниматься секосом? А например для новичков, которые постоянно переходят на Linux - консоль является проблемой. Нафига им файнридер без GUI? Вобщем-то это задротство еще то.

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

25. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от Pel on 14-Апр-11, 19:19 
+1
Консольный интерфейс есть большое зло для любого прикладного софта.
А кто не согласен - смотреть http://gdemozg.ru/demotivators/w/id/642/trat_vremya_optimaln... ;)
Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

4. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от z (??) on 13-Апр-11, 23:51 
OCRFeeder забыли упомянуть в статье.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от slavon (??) on 14-Апр-11, 00:00 
гугл фри OCR ввел веб - попробуйте
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

24. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от lhoi email on 14-Апр-11, 17:20 
Ссылку можно на эту самую гугл фри OCR?
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

6. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от no_downloader email on 14-Апр-11, 00:25 
Хотел попробовать, но:

Ссылка на файл
http://ocr4linux.com/_media/abbyyocr-8.7002.42.tar.gz
на странице
http://ocr4linux.com/en:download
не работает, скачивается файл размером 0 байт

Кто скачал, БУДЬТЕ ДОБРЫ, перевыложите... на какой-нибудь файлообменник

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от no_downloader email on 14-Апр-11, 01:03 
http://www.ocr4linux.com/Linux_CLI_OCR_Download.html

скачал только по этой ссылке. запросил триал... ФСЁ позже Выложу на торрент...

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

18. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от Аноним (??) on 14-Апр-11, 13:46 
Не работает: Service Temporarily Unavailable
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

22. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от croster (ok) on 14-Апр-11, 14:42 
Перезагрузите страницу.
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

26. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от yantux (??) on 14-Апр-11, 22:06 
В контексте этой новсти интересне тендер ФСБ:
http://www.cnews.ru/news/top/index.shtml?2011/04/12/436092
Российская спецслужба выделяет 10 млн руб. на создание программы, которая позволит находить сходства на разных изображениях и видеозаписях.

Особенно интересны требования к ПО!
Как следует из конкурсного техзадания, ПО должно поддерживать поиск по файлам в форматах JPG, BMP, PNG, KMZ, AVI, VOB, MPG, MP4, ASF, WMV, MOV, 3GP, RM и FLV. Программа должна функционировать под управлением операционных систем Windows XP и Windows 7.
================================================================

По моему за 10млн руб можно сделать и кр\оссплатворменное ПО, как в этой новости! Кроме того, сделать реальное время в MS Windows - абсурд! А поскольку тяжёлые математическое операции лучше переносить на специализированный процессор, например nVidia, то уж лучше тогда после отработки алгоритмов потребовать перенос маталгоритмов на язык vhdl/verilog. чтобы например напустить на xilinx, но блин как можно заказывать такое ПО и чёткео под MS Windows? Вот же пример корссплатформа в новости!!!!!!!!!!!!!!!

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

29. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от anonymous vulgaris on 15-Апр-11, 03:33 
> Кроме того, сделать реальное время в MS Windows - абсурд!

А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?

Ответить | Правка | ^ к родителю #26 | Наверх | Cообщить модератору

31. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от AlexYeCu on 15-Апр-11, 21:43 
>> Кроме того, сделать реальное время в MS Windows - абсурд!
> А как же вы в ней кино смотрите, музыку слушаете и по
> скайпу разговариваете?

А для этого уже нужен realtime?

Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

32. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от anonymous vulgaris on 16-Апр-11, 04:18 
>>> Кроме того, сделать реальное время в MS Windows - абсурд!
>> А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?
> А для этого уже нужен realtime?

а, то есть вы по скайпу не в реалтайме умеете разговаривать? веб-камерой никогда не пользовались? в видеоконференции под виндой никогда не участвовали? постоянная скорость смены кадров в кино и синхронизация звука с видео вас не интересует? ну так научите как это все сделать без реального времени, вам спасибо скажут

Ответить | Правка | ^ к родителю #31 | Наверх | Cообщить модератору

34. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от AlexYeCu on 16-Апр-11, 17:21 
Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными системами и ядрами.

Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.

Ответить | Правка | ^ к родителю #32 | Наверх | Cообщить модератору

35. "Обзор и сравнительное тестирование систем распознавания текс..."  +/
Сообщение от anonymous vulgaris on 17-Апр-11, 03:59 
> Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными
> системами и ядрами.
> Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.

вы хоть одно приложение для работы со звуком или аппаратурой какой под любую ось в жизни написали? или только читатель в связи?


Ответить | Правка | ^ к родителю #34 | Наверх | Cообщить модератору

27. "Обзор и сравнительное тестирование систем распознавания текс..."  +1 +/
Сообщение от paulus (ok) on 14-Апр-11, 23:52 
>высокое качество распознавания,

не высокое, а нормальное. жить можно.
>снижение разрешения с 300 до 200 dpi практически не влияет на результат.

Cuneiform на 300dpi распознает хреновато, 600dpi значительно улучшает результат.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру