URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 126918
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 5.1"
Отправлено opennews , 02-Мрт-22 11:08

Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0...
Подробнее: https://www.opennet.me/opennews/art.shtml?num=56788

Содержание

Релиз системы распознавания текста Tesseract 5.1,Аноним, 11:42 , 02-Мрт-22
- Релиз системы распознавания текста Tesseract 5.1,Аноним, 22:34 , 02-Мрт-22
  - Релиз системы распознавания текста Tesseract 5.1,Гнъ Анонимъ, 00:54 , 03-Мрт-22
    - Релиз системы распознавания текста Tesseract 5.1,barmaley, 09:35 , 03-Мрт-22
      - Релиз системы распознавания текста Tesseract 5.1,Гнъ Анонимъ, 12:49 , 03-Мрт-22
Релиз системы распознавания текста Tesseract 5.1,Аноним, 12:55 , 02-Мрт-22
- Релиз системы распознавания текста Tesseract 5.1,Аноним, 16:40 , 02-Мрт-22
Релиз системы распознавания текста Tesseract 5.1,Аноним, 12:56 , 02-Мрт-22
- Релиз системы распознавания текста Tesseract 5.1,iLex, 16:27 , 02-Мрт-22
  - Релиз системы распознавания текста Tesseract 5.1,Аноним, 20:27 , 02-Мрт-22
  - Релиз системы распознавания текста Tesseract 5.1,Анон111, 14:05 , 03-Мрт-22
    - Релиз системы распознавания текста Tesseract 5.1,psv, 23:05 , 04-Мрт-22
Релиз системы распознавания текста Tesseract 5.1,ааноним, 22:04 , 03-Мрт-22
- Релиз системы распознавания текста Tesseract 5.1,Jh, 04:42 , 05-Мрт-22
Релиз системы распознавания текста Tesseract 5.1,DmA, 11:57 , 07-Мрт-22

Сообщения в этом обсуждении

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 11:42

Использую.
Хороший проект.
Спасибо разработчикам.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 22:34

Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Гнъ Анонимъ , 03-Мрт-22 00:54

Поддерживаю! Сія мѣра очень кстати!

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено barmaley , 03-Мрт-22 09:35

Право голубчикъ, чтож вы изволите такого писать?

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Гнъ Анонимъ , 03-Мрт-22 12:49

> Право голубчикъ, чтож вы изволите такого писать?
Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 12:55

Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 16:40

https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIB...
А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 12:56

>на базе рекуррентной нейронной сети LSTM
Продвинутые ребята уже 7 лет как используют трансформеры.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено iLex , 02-Мрт-22 16:27

У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций.
А на малых выборках LSTM'ки кроют трансформеры по полной.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 20:27

>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы
Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Анон111 , 03-Мрт-22 14:05

Google вроде достаточно крупная корпорация

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено psv , 04-Мрт-22 23:05

расскажите это openrefine

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено ааноним , 03-Мрт-22 22:04

Для винды есть сборка?

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Jh , 05-Мрт-22 04:42

Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено DmA , 07-Мрт-22 11:57

А почему только 4 языка перечислены, а не 100?