В статье (http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_rev...) проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайн-сервисы.
Вывод: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.URL: http://rus-linux.net/nlib.php?name=/MyLDP/office/OCR/OCR_rev...
Новость: http://www.opennet.me/opennews/art.shtml?num=30240
Виктор, спасибо большое за новость! Втянулся в Linux благодаря вашим публикациям.Вся надежда на Cuneiform.
На Википедии в статье о нём сказано, что он имеет проблемы с распознаванием текста из JPEG. В то время как FireReader их когда-то тоже имел, но избавился от них. Кроме того на LOR была ссылка, что разработка скорее всего прекращена, а последний релиз был насколько я помню в 2009-м.
Последний коммит был 9 дней назад, так что пока живой)
Пруф: https://code.launchpad.net/cuneiform-linux а далле на вкладку "Code"
Так и не увидел ничего открытого и бесплатного, чем бы можно было нормально работать с pdf документами ... =/
Мне кажется здесь происходит рассмотр программ оптического распознования текста, то есть рисунков, а не PDF. Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и сосканировать ее, после чего скормить вышеперечисленным программам
> Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и
> сосканировать ее, после чего скормить вышеперечисленным программамА еще лучше сразу монитор прислонить к сканеру, чтобы убрать промежуточный носитель.
ps: pdf2jpg, pdf2tiff, pdf2png и т.д. и т.п.
Недавно нужно было распознать большой объем pdf файлов. Преобразовал их в tiff (он тоже умеет многостраничные файлы). Использовал для этого gslite (у меня он идет в комплекте с Bullzip Pdf Printer). Накидал батник следующего содержания:>dir /b *.pdf >> list
>for /f "usebackq delims=" %%a in (list) do (
>"c:\Program Files\Bullzip\PDF Printer\gs\gswin32c.exe" -q -dNOPAUSE -sDEVICE=tiffg4 ->sOutputFile="%%a.tif" "%%a" -c quit
>) >> log.txtПосле чего натравил на эти файлы пакетное распознание из cuneiform.
Качество распознания не очень хорошее, но свою задачу выполнил ))
Нужно было найти несколько конкретных pdf-ок.
Распознать pdf?!
Оно, вообще-то, вполне нормально как текст редактируется.
> Распознать pdf?!
> Оно, вообще-то, вполне нормально как текст редактируется.В этих pdf-ках страница шла как изображение. Просто отсканенные многостраничные документы, сохранены как изображение.
Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и т.д., только не говорите что распознавалки это устранят). Разве что речь идёт о пачке картинок, запакованных в PDF.
> Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с
> условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и
> т.д., только не говорите что распознавалки это устранят). Разве что речь
> идёт о пачке картинок, запакованных в PDF.Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))
Отсутствие поддержки pdf в cuneiform создало дополнительные трудности.
>Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))Ну так и распозновал бы картинки. $convert *.pdf *.png
> Так и не увидел ничего открытого и бесплатного, чем бы можно было
> нормально работать с pdf документами ... =/В gscan2pdf есть OCR (через внешние движки тессеракт\къюниформ).
Если же вам нужно массовое распознавание пдф - это пишется скриптами.
Нативного файнридера я так понял ждать не стоит. Так что да - вся надежда на Cuneiform. Вот только он мега-далек от совершенства, как по части распознавания, так и по части интерфейса... Онлайн сервис файнридера - это какой-то грабеж. Ребят, это катастрофа какая-то!
Ты бы по ссылке сходил. Есть файнридер, только платный он.
Это все равно что его нету.
Где исходники? раз они запускают свой софт на linux.
Говоришь есть файлридер под Linux? Вот такой?http://www.abbyy.ru/download/finereader_pro/
С полным аналогичным виндовому GUY и всеми функциями?
Операционная система: Microsoft® Windows® 7, Microsoft Windows Vista, Microsoft Windows Server® 2008, Microsoft Windows Server 2003, Microsoft Windows XP.И где здесь Linux?
Вот это чтоли?ABBYY FineReader Engine 9.0 для Linux?
Предлагаешь с консолью заниматься секосом? А например для новичков, которые постоянно переходят на Linux - консоль является проблемой. Нафига им файнридер без GUI? Вобщем-то это задротство еще то.
+1
Консольный интерфейс есть большое зло для любого прикладного софта.
А кто не согласен - смотреть http://gdemozg.ru/demotivators/w/id/642/trat_vremya_optimaln... ;)
OCRFeeder забыли упомянуть в статье.
гугл фри OCR ввел веб - попробуйте
Ссылку можно на эту самую гугл фри OCR?
Хотел попробовать, но:Ссылка на файл
http://ocr4linux.com/_media/abbyyocr-8.7002.42.tar.gz
на странице
http://ocr4linux.com/en:download
не работает, скачивается файл размером 0 байтКто скачал, БУДЬТЕ ДОБРЫ, перевыложите... на какой-нибудь файлообменник
http://www.ocr4linux.com/Linux_CLI_OCR_Download.htmlскачал только по этой ссылке. запросил триал... ФСЁ позже Выложу на торрент...
Не работает: Service Temporarily Unavailable
Перезагрузите страницу.
В контексте этой новсти интересне тендер ФСБ:
http://www.cnews.ru/news/top/index.shtml?2011/04/12/436092
Российская спецслужба выделяет 10 млн руб. на создание программы, которая позволит находить сходства на разных изображениях и видеозаписях.Особенно интересны требования к ПО!
Как следует из конкурсного техзадания, ПО должно поддерживать поиск по файлам в форматах JPG, BMP, PNG, KMZ, AVI, VOB, MPG, MP4, ASF, WMV, MOV, 3GP, RM и FLV. Программа должна функционировать под управлением операционных систем Windows XP и Windows 7.
================================================================По моему за 10млн руб можно сделать и кр\оссплатворменное ПО, как в этой новости! Кроме того, сделать реальное время в MS Windows - абсурд! А поскольку тяжёлые математическое операции лучше переносить на специализированный процессор, например nVidia, то уж лучше тогда после отработки алгоритмов потребовать перенос маталгоритмов на язык vhdl/verilog. чтобы например напустить на xilinx, но блин как можно заказывать такое ПО и чёткео под MS Windows? Вот же пример корссплатформа в новости!!!!!!!!!!!!!!!
> Кроме того, сделать реальное время в MS Windows - абсурд!А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?
>> Кроме того, сделать реальное время в MS Windows - абсурд!
> А как же вы в ней кино смотрите, музыку слушаете и по
> скайпу разговариваете?А для этого уже нужен realtime?
>>> Кроме того, сделать реальное время в MS Windows - абсурд!
>> А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?
> А для этого уже нужен realtime?а, то есть вы по скайпу не в реалтайме умеете разговаривать? веб-камерой никогда не пользовались? в видеоконференции под виндой никогда не участвовали? постоянная скорость смены кадров в кино и синхронизация звука с видео вас не интересует? ну так научите как это все сделать без реального времени, вам спасибо скажут
Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными системами и ядрами.Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.
> Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными
> системами и ядрами.
> Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.вы хоть одно приложение для работы со звуком или аппаратурой какой под любую ось в жизни написали? или только читатель в связи?
>высокое качество распознавания,не высокое, а нормальное. жить можно.
>снижение разрешения с 300 до 200 dpi практически не влияет на результат.Cuneiform на 300dpi распознает хреновато, 600dpi значительно улучшает результат.