URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 71205
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено opennews , 04-Окт-10 19:35

После трех лет разработки выпущен (http://groups.google.com/group/tesseract-ocr/msg/f240b6c7c5a...) релиз системы оптического распознавания текста Tesseract 3.0 (http://code.google.com/p/tesseract-ocr/). Одним из самых важных улучшений в новой версии стала поддержка распознавание документов на русском (http://code.google.com/p/tesseract-ocr/downloads/detail?name...) и украинском (http://code.google.com/p/tesseract-ocr/downloads/detail?name...) языках. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google.
Основные улучшения Tesseract 3.0:

-  Проведена подготовка кода к использованию в многопоточных программах;
-  Добавлен модуль анализа структуры документа;
-  Добавлена поддержка вывода результатов в формате HOCR;
-  В качестве основного средства для ввода/вывода, обработки и...
URL: http://groups.google.com/group/tesseract-ocr/msg/f240b6c7c5a...
Новость: http://www.opennet.me/opennews/art.shtml?num=28169

Содержание

Релиз системы распознавания текста Tesseract 3.0 с поддержко...,gregg128, 19:35 , 04-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,gregg128, 19:39 , 04-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,анонимиус, 19:56 , 04-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,paulus, 20:48 , 04-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Sw00p aka Jerom, 23:14 , 04-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Any_Key, 11:44 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,balou, 15:27 , 05-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Аноним, 20:14 , 04-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,аноним, 20:21 , 04-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Аноним, 20:26 , 04-Окт-10
    - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,gregg128, 20:40 , 04-Окт-10
    - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,paulus, 20:46 , 04-Окт-10
    - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Michael Shigorin, 17:37 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,AlexYeCu, 18:30 , 05-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Frank, 21:58 , 04-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,KERNEL_PANIC, 22:44 , 04-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,bircoph, 23:54 , 04-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Malky, 01:19 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Аноним, 03:53 , 05-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Malky, 09:19 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,evkogan, 09:33 , 05-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Malky, 11:57 , 05-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,evkogan, 09:31 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Sw00p aka Jerom, 10:06 , 05-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Аноним, 15:21 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,AlexYeCu, 18:34 , 05-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,gregg128, 19:26 , 05-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Sw00p aka Jerom, 23:28 , 05-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Заморский Гость, 01:02 , 06-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,HJ, 13:41 , 20-Окт-10
Релиз системы распознавания текста Tesseract 3.0 с поддержко...,Levan, 00:27 , 10-Окт-10
- Релиз системы распознавания текста Tesseract 3.0 с поддержко...,aburdo, 13:02 , 12-Окт-10
  - Релиз системы распознавания текста Tesseract 3.0 с поддержко...,gregg128, 22:31 , 29-Окт-10

Сообщения в этом обсуждении

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено gregg128 , 04-Окт-10 19:35

Спасибо за редактуру. Я не программер, поэтому неясные мне куски ченджлога просто не стал переводить. Главное в такой новости - heads up :)

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено gregg128 , 04-Окт-10 19:39

Кто первый соберёт .deb - тому преогромное моё спасибо :)

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено анонимиус , 04-Окт-10 19:56

Оно лучше cuneiform?

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено paulus , 04-Окт-10 20:48

> Оно лучше cuneiform?
кто-нибудь Tesseract вообще хоть раз использовал?

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Sw00p aka Jerom , 04-Окт-10 23:14

года три назад использовал для борьбы с графическим спамом
вроде ничего надо было обучать
а после ваще перешёл на оцр обвчный и выкинул нах (сменил политику борьбы)

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Any_Key , 05-Окт-10 11:44

>> Оно лучше cuneiform?
> кто-нибудь Tesseract вообще хоть раз использовал?
Угу картинки (с текстом) в текст для индексирования перегонял.
Работает.
Только приходилось из SVN брать.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено balou , 05-Окт-10 15:27

они друг-друга стоят. одна система не умеет распознавать смешанные тексты, а другая плюёт не только на структуру документа но и текста как такового (легко меняет местами слова и строки)

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Аноним , 04-Окт-10 20:14

>Оно лучше cuneiform?
зная последний, если какая-либо программа вообще умеет распознавать тексты, то она это уже делает лучше cuneiform

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено аноним , 04-Окт-10 20:21

не преувеличивайте. Cuneiform прекрасно распознает, но только на больших разрешениях...

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Аноним , 04-Окт-10 20:26

Ага, особенно четкое сканирование где каждая буква в пол монитора умудряется перебирать половину букв, со знаками препинания вообще беда, дай бог если восклицательный знак будет скобкой или наоборот

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено gregg128 , 04-Окт-10 20:40

Вы что-то не так делаете. У меня этот самый cuneiform прекрасно распознавал сканированный текст в большом разрешении. Жаль, что туда нельзя добавить свой язык (мне нужны яти-еры-фиты-ижицы).
Да, если вы недовольны качеством распознавания - вперёд, коды открыты.
Можете начать с помощи отважному гражданину, который взялся за рефакторинг: https://code.launchpad.net/~serge-uliss/cuneiform-linux/refa...

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено paulus , 04-Окт-10 20:46

при 600dpi распознает и знаки препинания...

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Michael Shigorin , 05-Окт-10 17:37

Надо не "особенно чёткое", а оптимальное для задачи, дядя. Смутно припоминается, что в р-не 100..300 dpi, но никак не 1200.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено AlexYeCu , 05-Окт-10 18:30

А мне cuneiform понравился. Заполненные текстом страницы распознаёт неплохо, что примечательно — с выводом в html результат куда лучше, чем с выводом в txt (может там какие-то скрытые от пользователя опции используются?).

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Frank , 04-Окт-10 21:58

Русский это хорошо, а украинский - вообще прекрасно!

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено KERNEL_PANIC , 04-Окт-10 22:44

А он консольный или с мордой? Не, не то чтоб мне была разница, просто в библиотеку блондинкам надо, а их фиг за консоль посадишь:)

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено bircoph , 04-Окт-10 23:54

Это, по большому счёту, библиотека -- там даже консольного интерфейса нет.
Нет распознования колонок -- так что tesseract без серьёзной доработки мирно отдыхает по сравнению с cuneiform.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Malky , 05-Окт-10 01:19

Собрал я его, работает, даже gscan2pdf согласился с третьей версией работать. А вот язык кроме английского никакой выбрать не получается. При указании любого из прилагаемых языковых файлов выдает ошибку вида "Error openning data file /usr/local/share/tessdata/russian.traineddata"

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Аноним , 05-Окт-10 03:53

Please check out the ReadMe before going to Downloads as you need more than one file. Even the windows executables tarball is incomplete as language files are required.
Перевести? :-)

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Malky , 05-Окт-10 09:19

Ну и что вы хотели этим сказать? readme я прочитал, но четкого указания не нашел касательно прикручивания языков. Лишь только то, что должны быть помещены в tassdata. Пробовал и при сборке их помещать в папку tessdata в каталоге и исходниками и после сборки... Если разобрались, то подскажите...

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено evkogan , 05-Окт-10 09:33

Linux только дома.
Поэкспериментировать смогу только завтра вечером
А на винде так все просто кладете их в эту папочку и все работает

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Malky , 05-Окт-10 11:57

Все, разобрался) Тормозил я, указывая полное название языка вместо трех буквенного сокращения. А вот gscan2pdf с новым tesseract работает, но выбрать языки не дает...

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено evkogan , 05-Окт-10 09:31

Хорошо конечно что распознает русский, давно пора.
Вот только планируется ли у него распознавание оформления?

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Sw00p aka Jerom , 05-Окт-10 10:06

дык он ещё три года тому назад русский распозновал - просто надо было его этому обучать

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Аноним , 05-Окт-10 15:21

ищу cuneiform скомпиленнй под Виндоуз.
Подскажите как в пакетном режиме распознавать в виндоуз ?

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено AlexYeCu , 05-Окт-10 18:34

А как из этого rpm собрать? Тот *.spec, что в комплекте, написан вообще непонятно под что — пути другие, файлы языковых данных другие и т.д. Причём ему почему-то надо попытаться открыть *.traineddata.gz как тарбол, хотя весь спек перерыл (там особо и ничего перерывать) — нет указаний на это.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено gregg128 , 05-Окт-10 19:26

Не исключено, что спек вообще от версии 2.04 (если не более старшей)
У них форумы открыты, спросите.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Sw00p aka Jerom , 05-Окт-10 23:28

Из сорцов нормально ставится

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Заморский Гость , 06-Окт-10 01:02

Скачай с сайта cuneiform и будет тебе щасье.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено HJ , 20-Окт-10 13:41

http://www.cuneiform.ru/downloads/index.html

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено Levan , 10-Окт-10 00:27

Tesseract 3.0 у меня колонки гораздо точнее распознает чем само распознование слов, иногда даже лучше abbyy!

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено aburdo , 12-Окт-10 13:02

Есть ли возможность распознавать не по одному файлу, а сразу список картинок?
У меня около 1000 tif-ов.

"Релиз системы распознавания текста Tesseract 3.0 с поддержко..."
Отправлено gregg128 , 29-Окт-10 22:31

А баш и прочее юникс-счастье вам неведомы ? Делается в одну строчку.