Компания ABBYY выпустила (http://www.ocr4linux.com/en:start) одиннадцатую версию системы распознавания текстов ABBYY FineReader Engine CLI для Linux. CLI-версия FineReader работает в режиме командной строки и поддерживает обработку документов в форматах RTF, HTML, XML и PDF. Начиная с выпуска 11 добавлена поддержка форматов PDF/A-2, ODT, FB2 и ePub. Программа позволяет переводить содержимое таблиц, распознавать 1D и 2D штрих-коды, обрабатывать документы с текстом на нескольких языках (всего поддерживается около 190 языков).
Кроме новых форматов для экспорта распознанных страниц, в версии 11 (http://www.ocr4linux.com/en:what_is_new_v11) обеспечено распространение 64-разрядных сборок пакета, добавлена поддержка многопоточного распознавания с задействованием всех ядер CPU, реализована возможность использования профилей обработки (преобразование документов, архивирование документов, выделение текста, распознавание штрих-кодов и т.п.), добавлен режим быстрого распознавания (на 92% быстрее с незначительным ухудшением точности), добавлена поддержка новых видов штрих-кодов, осуществлён переход на новые алгоритмы препроцессинга и бинаризации для повышения качества изображений.
Программа является коммерческим продуктом, но с сайта проекта можно загрузить пробную версию, которая позволяет бесплатно распознать 100 страниц за 10 дней. Стоимость коммерческой версии составляет 149 евро с ограничением в 12 тыс. страниц в год и 999 евро с ограничением 120 тыс. страниц в год. Обладатели лицензии на прошлый выпуск ABBYY CLI OCR for Linux 9 смогут использовать 11 версию без реактивации.URL: http://www.ocr4linux.com/en:start
Новость: http://www.opennet.me/opennews/art.shtml?num=39789
Надо бы исключительно из спортивного интереса попробовать в линуксе эту пробную версию сделать вечной. Неужто не найду куда прога пишет свой этот признак "пробности".
Отпишись после
strace тебе в помощь. :)
При наличии мозгов и прямых рук это будет несложно. Помню, Nero продлевался путем удаления файла /var/lib/nero/config.nero9.dat
Ну и strace тебе в помощь, дарагой :)
Фу блин варезятники. Позорище космофлота.
если я сказал "помню, делали так-то" это еще не значит, что я этоделал :) у меня купленный Неро со своим серийником ибо корпоративно покупали :) жаль, правда, поддержки линуха у них больше нет.
> жаль, правда, поддержки линуха у них больше нет.Если честно, на дворе 2014 год и я уже забыл когда я в последний раз использовал CD/DVD-привод. Кажется, в этом году не использовал...
> Если честно, на дворе 2014 годнеужто
> и я уже забыл когда ямогёт давеча-то было
> в последний раз использовал CD/DVD-привод. Кажется,туман, интрига
> в этом году не использовал...
Наверное это был сотрудник Неро, предвкушающий нагрев на квартальный бонус :).
> Наверное это был сотрудник Неро, предвкушающий нагрев на квартальный бонус :).просто флешку с конфиденцией найти не могу, завалилась куда-то. storage'у лучше быть габаритным, тяжеловесным и поменьше емкостью.
Только сегодня, только для вас!Прекраснейшая каменная табличка и долото!
Надёжно и долговечно, проверено тысячелетиями!
> у меня купленный Неро со своим серийникомвдвойне позорище.
Под linux нет сравнимых аналогов. А с нашими зарплатами купить нереально, тем более покупать с ограничением даже за 999 $ не охота.
>Под linux нет сравнимых аналогов.Лол, открой для себя k3b
Он про FineReader. Неро для Linux я покупал за 800 рублей.
Этому и не под линуксом аналогов нет... Один из немногих примеров конкурентоспособного софта российского производства (ну, насколько это вообще к софту применимо, конечно).
> Этому и не под линуксом аналогов нет... Один из немногих примеров конкурентоспособного
> софта российского производства (ну, насколько это вообще к софту применимо, конечно).С хороших исходников tesseract распознаёт лишь самую малость похуже.
То ли у меня исходники такие были, то ли ещё что, но у меня cuneiform допускал заметно меньше ошибок, нежели tesseract.
Справедливости ради. Под линукс как раз есть какая-то простая морда к нескольким OCR движкам, чего нет под винду совсем. Платные программы не рассматриваем.
Есть. OCRFeeder называется.
> Фу блин варезятники. Позорище космофлота.Позорище это когда консольная версия под линь стоит дороже гуевой под вин гуевая отсутствует как класс, а версия даже за кило евро считает копии и показывает фигу в случае чего. Абби явно нехватает хдоровой конкуренции со стророны торрен трекеров.
А зачем _распознавать_ документы в RTF? Или ODT? Или FB2?
Ну вы прям как с Луны свалились: скан.jpg, втиснутый в офисный формат не видели ни разу! А если серьёзно, подозреваю, что «RTF, HTML, XML и PDF» — форматы, в которые прога может сохранять полученный результат.
> Ну вы прям как с Луны свалились: скан.jpg, втиснутый в офисный формат
> не видели ни разу!Мы и веселее видели - скриншот путем сканирования монитора уложенного на сканер :)
так недолго и в рекурсию войти)
> так недолго и в рекурсию войти)Ну как, стандартный скриншот от долбо...в: кладется монитор на сканер, результат засовывается в ворд.
Обязательно в ворд! Никогда не понимал, почему .jpeg просто в письмо вложить нельзя, обязательно сначала в ворд...
> Обязательно в ворд! Никогда не понимал, почему .jpeg просто в письмо вложить
> нельзя, обязательно сначала в ворд...Потому что на том конце 1) просто джепег могут не открыть 2) принимают только в ворде (например, на сайте прикрепляется только ворд)
> Никогда не понимал, почему .jpegТоже никогда не понимал почему jpeg используют для скриншотов - картинка получается вся в квадратах и файл большего объёма. Для скриншотов оптимальным на данный момент является png. Возможно со временем это будет что-то типа webp, но пока png безалтернативен.
> вся в квадратах и файл большего объёма.Зависит; ой зависит.
> Для скриншотов оптимальным на данный момент является png.
Обычно нет, если не требуется именно картинка без потерь. По крайней мере на моих времянках обычно получается разница ~5--10 раз в пользу jpeg вместо png без заметного беглым взглядом ущерба для качества.
> Зависит; ой зависит.Если постараться, то добъёшься исключения одного за сччёт другого. Проверено неоднократно.
> Обычно нет, если не требуется именно картинка без потерь. По крайней мере на моих времянках обычно получается разница ~5--10 раз в пользу jpeg вместо png без заметного беглым взглядом ущерба для качества.Скриншоты со сканами не попутал? :-]
s/добъёшься/добьёшься/P.S. "Я буду читать свои сообщения перед отправкой"...
> Скриншоты со сканами не попутал? :-]
Ну да - скриншот десктопа с фоткой на фоне. И по чему же это jpeg оказывается эффективней png?
Дурочку не надо строить из себя - сделай скриншот обычного приложения без полупрозрачностей и фоток во весь экран. Например скриншот этой страници в браузере.
> И по чему же это jpeg оказывается эффективней png?По факту.
> Дурочку не надо строить из себя
Пока из Вас, простите, получается -- Вы ляпнули, вот и покажите png размером с jpg, сделанного из него же при качестве порядка 80--90%. А мне лень.
PNG -- отличный формат, но у него задача изначально другая, чем у JPEG, и цена её в плане объёма тоже другая (и это нормально).
> По факту.Это был сарказм. А так как ты его не понял, то можно сделать один единственный правильный вывод - ты ничего не понимаешь в форматах хранения изображений и уж тем более в их назначении.
> Пока из Вас, простите, получается -- Вы ляпнули, вот и покажите png размером с jpg, сделанного из него же при качестве порядка 80--90%. А мне лень.
Лови, "ляпун":
http://i62.fastpic.ru/big/2014/0520/75/dc45f9b865f24141fdc18... - 176335, jpeg, quality 80 (это не "%" - это "качество", 100 не значит без потерь!)
http://i61.fastpic.ru/big/2014/0520/2b/27f619edefc1f95630010... - 58687, png (zc = 9 zm = 8 zs = 0 f = 0)
На жпеге артефакты глаза режут, а объём его в 3 раза болше PNG.> PNG -- отличный формат, но у него задача изначально другая, чем у JPEG, и цена её в плане объёма тоже другая (и это нормально).
Расскажи тогда, о всезнающий гуру, какова изначальная задача у PNG, а какова у JPEG? И почему это так получается, что на некоторых твоих скриншотах внезапно JPEG оказывается эффективней, а мой пример показывает прямо противоположный результат? (второй раз задаю этот вопрос - может хоть на этот раз соизволишь поразмыслить)
Вангую копипасту/пересказ с wiki/статей из интернета + нелепые отмазки - сомневаюсь, что ты способен признать публично свой слив. :-\
> Это был сарказм.Ничего себе переопределения.
> А так как ты его не понял, то можно сделать один единственный правильный вывод -
> ты ничего не понимаешь в форматах хранения изображений и уж тем более в их назначении.Давайте об этом я поговорю с кем-либо, кто хотя бы умеет читать и грамотно писать.
> Лови, "ляпун":
Вы бы того, полегче с разгоном -- мне-то ладно, а столб не отойдёт.
> jpeg, quality 80 (это не "%" - это "качество", 100 не значит без потерь!)
Всем бояться полчаса, пришёл носитель тайного знания?
> На жпеге артефакты глаза режут, а объём его в 3 раза болше PNG.
Интересно, как это соотносится с разрешением того, что Вы назвали экраном... Впрочем, вот:
http://i62.fastpic.ru/big/2014/0520/7c/cdef744e9fefce7207099... (433048)
http://i61.fastpic.ru/big/2014/0520/9f/1181ebd8914e429a6eb0e... (360164)Обратите внимание на характер предложенных ранее примеров скриншотов, поскольку они там годами собирают пыль -- не будучи высосаны из пальца заради померяться байтиками, а чтоб людям показать нужное.
>> PNG -- отличный формат, но у него задача изначально другая, чем у JPEG
> Расскажи тогда, о всезнающий гуру, какова изначальная задача у PNGСоздание необременённого патентами формата представления графических данных с возможностью сжатия без потерь.
> а какова у JPEG?
Создание формата представления (фото)графических данных со сжатием с потерями.
> И почему это так получается, что на некоторых твоих скриншотах внезапно JPEG
> оказывается эффективней, а мой пример показывает прямо противоположный результат?Потому что Вы пытаетесь передёрнуть и подменить предложенную постановку задачи. Чтобы не уподобляться Вам, прибавлю, что снимок только этого окошка firefox в том же размере у меня занимает 365258 байт в PNG и 445972 -- в JPEG.
> (второй раз задаю этот вопрос - может хоть на этот раз соизволишь поразмыслить)
Видите ли. Со многими здесь было бы интересно почесать затылок, рассматривая результаты и то, как на них влияют те или иные фрагменты исходного изображения. Постарайтесь сменить тон, если намереваетесь вообще что-либо донести.
> Вангую копипасту/пересказ с wiki/статей из интернета + нелепые отмазки
Не судите по себе -- мне не нужно шариться по помойкам, чтобы озвучить то, что знаю.
> - сомневаюсь, что ты способен признать публично свой слив. :-\
Сперва сделал-таки снимки одного окна и посмотрел, что .png выходит в ~82% размера .jpg -- что понятно для текста на монохроматическом фоне; если бы Вы дискутировали, скажем, в стиле представляющихся здесь как "Все тот же аноним" или "rob pike" людей, на этом бы и закончил, поблагодарив за урок. Но поскольку хамите, то решил перечитать "ТЗ", обнаружил Ваш подлог и решил ткнуть в него носом, а в качестве наказания оставить этот позор висеть (пусть другие снесут, если сочтут нужным).
Надеюсь, хоть чему-то научитесь, потому как в жизни за такое невнимание к деталям можно поплатиться гораздо серьёзней, я видывал примеры.
Удачи.
PS: справедливости ради, "%" после "80--90" действительно лишний -- я-то понимаю, о чём речь, но это не повод потенциально вводить других в заблуждение; спасибо за поправку.
> Давайте об этом я поговорю с кем-либо, кто хотя бы умеет читать и грамотно писать.Нет аргументов по теме - переходи на личности...
> Интересно, как это соотносится с разрешением того, что Вы назвали экраном... Впрочем, вот:
Что не так? Самый обычный скриншот браузера с этой страницей на нём (opennet.ru).
> http://i62.fastpic.ru/big/2014/0520/7c/cdef744e9fefce7207099... (433048)
> http://i61.fastpic.ru/big/2014/0520/9f/1181ebd8914e429a6eb0e... (360164)Побольше градиентов запихни в скриншот, чтобы отмазки выглядели поубедительнее. Ещё фотку на всю страницу заскриншотить забыл - вообще выглядел бы Д'Артаньяном. И об это я уже говорил ранее.
Плюс твой скриншот после пережатия (zc = 9 zm = 8 zs = 0 f = 0) занимает 407263, а жпег хоть и выглядит прилично, но артефакты на нём всё равно заметны невооружённым глазом.
> Обратите внимание на характер предложенных ранее примеров скриншотов, поскольку они там годами собирают пыль -- не будучи высосаны из пальца заради померяться байтиками, а чтоб людям показать нужное.
> Потому что Вы пытаетесь передёрнуть и подменить предложенную постановку задачи.Ещё раз - речь о создании скриншотов ПО, например для документации или статей. А не что-бы померяться среди однокласников нескучными обоями. Это и есть постановка задачи. Если ты (давай всёже без пафосного "Вы" - мы не на официальной встрече, а в "клубе по интересам") какое-то условие додумал сам, потому что оно явно не было указано, то это ещё не значит, что именно это правильная постановка задачи. Непонятна постановка - переспроси.
> решил перечитать "ТЗ", обнаружил Ваш подлог и решил ткнуть в него носом, а в качестве наказания оставить этот позор висеть (пусть другие снесут, если сочтут нужным).
Что за бред? Какой подлог? Читай выше.
> Надеюсь, хоть чему-то научитесь, потому как в жизни за такое невнимание к деталям можно поплатиться гораздо серьёзней, я видывал примеры.
Как я и говорил - признаться, что полез спорить в теме, в которой ничего не понимаешь гордость не позволяет. Значит надо развести демагогию на пустом месте, придраться к стилю, орфографии и перейти на личности.
Почему-то мне кажется, что это невозможно.
Точнее сканер покажет "чистый лист", а не "скриншот".
> Точнее сканер покажет "чистый лист", а не "скриншот".Да что-то показывает даже. Хреново, но показывает. Офисные удоды не гордые, их такое "качество" устраивает.
> Да что-то показывает даже. Хреново, но показывает. Офисные удоды не гордые, их
> такое "качество" устраивает.всю жизнь так сканирую, зато не привязан к вендору
Обязательно куплю. Несколько лет назад я не знал что существует версия для консоли http://www.opennet.me/opennews/art.shtml?num=25800 Думал что есть только "Набор динамически подключаемых библиотек и средств разработки для встраивания функций распознавания текста в сторонние программы" http://www.opennet.me/opennews/art.shtml?num=26325Но почему всё ещё консоль? Так трудно было написать графический интерфейс на GTK2+GLIB+ATK+Pango+Cairo+gnomeui-2+glade-2+gnomevfs-2+Freetype+XML2?
> CLI-версия FineReader работает в режиме командной строки и поддерживает обработку документов в форматах RTF, HTML, XML и PDF.Вам это надо красным капсом 48 размера?
> GTK2+GLIB+ATK+Pango+Cairo+gnomeui-2+glade-2+gnomevfs-2+Freetype+XML2
QT
CLI это и есть "для консоли".
> QTещё и QuickTime для этого ставить?! O_O
>> QT
> ещё и QuickTime для этого ставить?! O_OА если бы он, например, написал его как qt, то что бы ты ставил?
Ну так на линухах чаще консольная версия и нужна. Для обычного распознавания используют винду с виндовой версией, а линуксовая чаще всего используется в различных веб порталах, когда пользователю нужно загрузить скан документа, а бэкенд на линуксе преобразует формат, распознает и так далее.
1. Помню, SDK для Linux у них лет 7 назад ещё готов был. Стоил, если память не изменяет, 25 тыр.
2. А в вендовой версии такие ограничения есть? И почему такая дикая разница в цене?
Для командной строки - вот извращение!
Ага) Я Фотошоп предсиавил для командной строки)
*представил
Называется imagemagick.
imagemagick+cli_finereader=нашефсе
> Ага) Я Фотошоп предсиавил для командной строки)Предложите фотошоп вместо ImageMagick на веб-сервер, только не прячьтесь. :}
А в чем вы видите большую проблему?
Mozilla, например, использовали, массово-параллельно, и даже не headless (давно дело было), для парсинга - в общем ничего такого страшного.
Тем более через COM рулится, еще удобней.
CuneiForm OpenOCR - неплохо распознает тексты.
Я распознавал книжку с его помощью
+ STDUViewer
> CuneiForm OpenOCR - неплохо распознает тексты.
> Я распознавал книжку с его помощью
> + STDUViewerесли нет графики и таблиц, то разбирало более-менее, хотя с кирилицей не все было хорошо...
Значительно хуже латыницы.
Хуже закрытых программ только закрытые программы с ограничением использования.
> 149 евро с ограничением в 12 тыс. страниц в годА потом что? Байты программы устают?
Желаю этой фирме закупить туалетную бумагу, которую можно использовать не чаше раза в неделю.
>Желаю этой фирме закупить туалетную бумагу, которую можно использовать не чаше раза в неделюЛучше, 20 см бумаги в три часа, если чаще то доплатить не менее 50% от первоначальной стоимости с уменьшением ограничивающего времени на 10%. С применинием (n!) (факториал)
лучше чтоб после 12:00 превращалась в наждачку.
Хотите чтобы был только один вариант - вместе с исходными текстами в неограниченное владение и навсегда? Догадайтесь сколько он будет стоить.
Почему вы против того чтобы у покупателей был выбор и возможность купить ограниченную функциональность за устраивающую их сумму?
> Почему вы против того чтобы у покупателей был выбор и возможность купить
> ограниченную функциональность за устраивающую их сумму?потому что при таких раскладах других вариантов не остаётся. да и в принципе: мнение идиотов никого не интересует. такие дела.
(пошёл Лицензионно качать с торрентов очередной фильм)
Еще бы сделали Lingvo словарь для Linux и вообще молодцы ребята!
dictd чем не устраивает ?
Словарь хороший, просто в Lingvo есть tutor для обучения словам, там со словом всякие фразы подобраны, и конечно словари там обрабатываются профессионалами, и всегда свежая информация. Интересно обучаться, я вот для Windows 7 купил себе лицензию и учусь)
Лучше бы они делали железки, т.е. аппаратное распознавание.
Любая железка использует какой-то софт.
Цены под серверные решения ориентированы. На хомячков положили. Потому и GUI нет.
Если есть предложение и выходят новые версии - значит спрос есть. Тут можно пыхтеть сколько влезет, но если что то происходит - значит это кому то выгодно.