URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 97482
[ Назад ]

Исходное сообщение
"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено opennews , 04-Авг-14 10:27

Вышла (http://symmetrica.net/cuneiform-linux/yagf-ru.html) новая версия YAGF, написанной с использованием Qt 4 графической оболочки для программ оптического распознавания текста Cuneiform (https://launchpad.net/cuneiform-linux) и Tesseract (http://code.google.com/p/tesseract-ocr/). Программа позволяет через единый GUI-интерфейс управлять сканированием изображений, их предварительной обработкой и распознаванием большого числа отсканированных страниц.

Основные изменения:
- Улучшены пред-обработка изображений и автоматическое исправление наклона страниц;- Новый инструмент для ручной корректировки исправления наклона (если она нужна); - Поддержка распознавания текста, напечатанного очень мелким шрифтом; - Упрощен импорт документов PDF; - Более тесная интеграция с Tesseract OCR: (распознавание двуязычных текстов, режим распознования "только числа", добавлены новые языки распознавания).
<center><a href="http://symmetrica.net/cuneiform-linux/yagf.jpg"><img src="http://www.opennet.me/opennews/pics_base/0_1407129565.jpg" style="border-style: solid; border-color: #e9ead6; border-width: 15px;max-width:100%;" title="" border=0></a></center>
URL: http://symmetrica.net/cuneiform-linux/yagf-ru.html
Новость: http://www.opennet.me/opennews/art.shtml?num=40323

Содержание

Вышла оболочка для распознавания текста YAGF 0.9.4,trdm, 10:27 , 04-Авг-14
Вышла оболочка для распознавания текста YAGF 0.9.4,ssh, 10:32 , 04-Авг-14
- Вышла оболочка для распознавания текста YAGF 0.9.4,Аноним, 11:08 , 04-Авг-14
  - Вышла оболочка для распознавания текста YAGF 0.9.4,ssh, 11:37 , 04-Авг-14
  - Вышла оболочка для распознавания текста YAGF 0.9.4,Андрей Боровский, 05:51 , 09-Авг-14
- Вышла оболочка для распознавания текста YAGF 0.9.4,Grammar_Nazi, 11:13 , 04-Авг-14
- Вышла оболочка для распознавания текста YAGF 0.9.4,Аноним, 11:33 , 04-Авг-14
  - Вышла оболочка для распознавания текста YAGF 0.9.4,ssh, 11:38 , 04-Авг-14
    - Вышла оболочка для распознавания текста YAGF 0.9.4,Djam, 13:01 , 04-Авг-14
    - Вышла оболочка для распознавания текста YAGF 0.9.4,Аноном, 15:00 , 04-Авг-14
      - Вышла оболочка для распознавания текста YAGF 0.9.4,AlZr, 18:57 , 04-Авг-14
  - Вышла оболочка для распознавания текста YAGF 0.9.4,Аноним, 16:26 , 04-Авг-14
    - Вышла оболочка для распознавания текста YAGF 0.9.4,Аноним, 18:04 , 04-Авг-14
      - Вышла оболочка для распознавания текста YAGF 0.9.4,Аноним, 18:41 , 04-Авг-14
        
        Вышла оболочка для распознавания текста YAGF 0.9.4,Клыкастый, 12:46 , 05-Авг-14
        Вышла оболочка для распознавания текста YAGF 0.9.4,Аноним, 13:45 , 05-Авг-14
    - Вышла оболочка для распознавания текста YAGF 0.9.4,kai3341, 21:58 , 04-Авг-14
  - Вышла оболочка для распознавания текста YAGF 0.9.4,soarin, 09:56 , 05-Авг-14
Новая версия оболочки для распознавания текста YAGF 0.9.4,Аноним, 11:15 , 04-Авг-14
- Новая версия оболочки для распознавания текста YAGF 0.9.4,Аноним, 12:01 , 04-Авг-14
- Новая версия оболочки для распознавания текста YAGF 0.9.4,none_first, 13:29 , 04-Авг-14
Новая версия оболочки для распознавания текста YAGF 0.9.4,Zenitur, 12:37 , 04-Авг-14
- Новая версия оболочки для распознавания текста YAGF 0.9.4,Онвоним, 13:08 , 04-Авг-14
- Новая версия оболочки для распознавания текста YAGF 0.9.4,Аноном, 15:01 , 04-Авг-14
  - Новая версия оболочки для распознавания текста YAGF 0.9.4,Аноним, 17:07 , 04-Авг-14
    - Новая версия оболочки для распознавания текста YAGF 0.9.4,Аноним, 18:01 , 04-Авг-14
      - Новая версия оболочки для распознавания текста YAGF 0.9.4,Аноним, 18:48 , 04-Авг-14
Вышла оболочка для распознавания текста YAGF 0.9.4,Skull_2, 15:23 , 07-Авг-14
- Вышла оболочка для распознавания текста YAGF 0.9.4,Lazy_Kent, 21:18 , 07-Авг-14

Сообщения в этом обсуждении

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено trdm , 04-Авг-14 10:27

Классно. Полезная штучка )

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено ssh , 04-Авг-14 10:32

Может кто-нибудь поделиться реальным опытом использования Cuneiform и Tesseract в продакшен для распознавания русскоязычных текстов?

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 11:08

> Может кто-нибудь поделиться реальным опытом использования Cuneiform и Tesseract в продакшен для распознавания русскоязычных текстов?
в продакшн файнридером пользуются, если контора адекватная.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено ssh , 04-Авг-14 11:37

> в продакшн файнридером пользуются, если контора адекватная.
Я ведь не критерии определения адекватности конторы просил. :)

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Андрей Боровский , 09-Авг-14 05:51

>> Может кто-нибудь поделиться реальным опытом использования Cuneiform и Tesseract в продакшен для распознавания русскоязычных текстов?
куниформом не пользуются, так как он не-адаптируем.
А Tesseract используется, вот например, люди живут с того, что предлагают кастомизированный софт на основе тессеракт:
http://www.customocr.com
Я с этой конторой никак не связан, есличо. Я связан с другой ;-)

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Grammar_Nazi , 04-Авг-14 11:13

продакшон...

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 11:33

Для винды его нет вроде. Тамашний кунаиформ не обновляется сто лет и глючен.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено ssh , 04-Авг-14 11:38

> Для винды его нет вроде. Тамашний кунаиформ не обновляется сто лет и
> глючен.
Да мне и не для венды. А tesseract?

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Djam , 04-Авг-14 13:01

часто отвратительное распознавание... В связке Yagf+Cuneiforms. Таблицы, формулы распознавать не умеет. Если текст отсканирован не совсем хорошо, распознает от силы 10-15%...
Tesseract не пробовал

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноном , 04-Авг-14 15:00

Tesseract для русскоязычного бесполезен.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено AlZr , 04-Авг-14 18:57

Ничего подобного - если распознавать напечатанный текст, а не рукописный, то распознает очень даже хорошо. Сам пользуюсь, когда надо старые статьи перевести в электронную форму, которые где-то до этого потерялись.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 16:26

Для Windows встроенный в Office Professional распознавальщик имеется неплохой. Так что упомянутый выше FineReader - пятое колесо в телеге типа коммерческого антивируса при наличии загружаемого (для 7-ки) или встроенного (в 8-ку) бесплатного.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 18:04

> Для Windows встроенный в Office Professional распознавальщик имеется неплохой. Так что
> упомянутый выше FineReader - пятое колесо в телеге типа коммерческого антивируса
> при наличии загружаемого (для 7-ки) или встроенного (в 8-ку) бесплатного.
Только вот он стоит 19 тыс. Сам офис нужен с большой натяжкой, файнридер стоит 6 тыс (и явно лучше для распознавания). Считайте.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 18:41

Я говорю как есть в обычном офисе.
По-моему, не нужен ни MS Office, ни Windows, ни FineRedaer. Причем первые легко заменяются существенно более качественными продуктами, а последний, несмотря на то, что делает свою работу вполне хорошо, не нужен как класс ПО. Из головы писать надо, а не старые чужие тексты тянуть.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Клыкастый , 05-Авг-14 12:46

да. проблема только в том, что если нужно распознавание (не раз в год, а в нормальных масштабах), требуется FR и он за собой тащит и венду и офис.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 05-Авг-14 13:45

Яркий пример замкнутого мышления. Не сталкивался с задачей - не нужно никому.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено kai3341 , 04-Авг-14 21:58

> пятое колесо в телеге типа коммерческого антивируса при наличии загружаемого (для 7-ки) или встроенного (в 8-ку) бесплатного
Вы принципиально не правы. Своим наплевательским отношением к уязвимостям Microsoft искусственно создали целую нишу для высасывания бабла у хомяка, а также подарила ему иллюзию выбора.

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено soarin , 05-Авг-14 09:56

Под линуксом он тоже как-то не шибко развивается. Олсо вендовая версия cuneiform лучше распознает русский текст, чем линуксовая. Можешь запустить под вайном и сравнить.
Но само собой и tesseract, и cuneiform очень сильно уступают тому же fine reader. И годны только для распознавания простого текста без всяких таблиц и сложностей на сканах отличного качества.

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 11:15

До Abbyy им все равно далеко.

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 12:01

плевать на файнридер. Им всем даже до свободного cunieform для винды далеко.

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено none_first , 04-Авг-14 13:29

зависит от кач-ва текста и задач

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Zenitur , 04-Авг-14 12:37

Вот бы поддержку FineReader для Linux и FreeBSD! А то ncurses для мазохистов.

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Онвоним , 04-Авг-14 13:08

С их мнением и отношением к GNU/Linux - не нужно.

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Аноном , 04-Авг-14 15:01

> Вот бы поддержку FineReader для Linux и FreeBSD! А то ncurses для
> мазохистов.
А она есть.

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 17:07

В виде продукта для конечного пользователя нет. Но и не нужно (как впрочем и для Windows) ввиду наличия онлайн-версии: http://finereaderonline.com/ru-ru

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 18:01

Кончай троллить уже. Или тебе распознать несколько страничек в интернете (про приватность молчу) достаточно? будешь создавать новую учетку каждые 20 (или сколько там?) страниц?

"Новая версия оболочки для распознавания текста YAGF 0.9.4"
Отправлено Аноним , 04-Авг-14 18:48

Так ты много и бесплатно хочешь? Выбирай http://vorabota.ru/rabota-s-tekstami/onlayn-servisi-dlya-bes...

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Skull_2 , 07-Авг-14 15:23

У меня в git.altlinux.org/people/cas/packages/yagf.git последние два коммита фиксят сборку: нет файла align.png (взял вместо него Align.png) и явно включил unistd.h для sleep()

"Вышла оболочка для распознавания текста YAGF 0.9.4"
Отправлено Lazy_Kent , 07-Авг-14 21:18

> У меня в git.altlinux.org/people/cas/packages/yagf.git последние два коммита фиксят
> сборку: нет файла align.png (взял вместо него Align.png)
До этого момента не добрался пока. Буду иметь ввиду.
> и явно включил unistd.h для sleep()
На этом споткнулся тоже. Описано здесь: https://gcc.gnu.org/gcc-4.7/porting_to.html
Андрей, надо починить.