URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 126918
[ Назад ]

Исходное сообщение
"Релиз системы распознавания текста Tesseract 5.1"

Отправлено opennews , 02-Мрт-22 11:08 
Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=56788


Содержание

Сообщения в этом обсуждении
"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 11:42 
Использую.
Хороший проект.
Спасибо разработчикам.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 22:34 
Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Гнъ Анонимъ , 03-Мрт-22 00:54 
Поддерживаю! Сія мѣра очень кстати!

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено barmaley , 03-Мрт-22 09:35 
Право голубчикъ, чтож вы изволите такого писать?

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Гнъ Анонимъ , 03-Мрт-22 12:49 
> Право голубчикъ, чтож вы изволите такого писать?

Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками


"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 12:55 
Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 16:40 
https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIB...

А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.


"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 12:56 
>на базе рекуррентной нейронной сети LSTM

Продвинутые ребята уже 7 лет как используют трансформеры.


"Релиз системы распознавания текста Tesseract 5.1"
Отправлено iLex , 02-Мрт-22 16:27 
У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций.
А на малых выборках LSTM'ки кроют трансформеры по полной.

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Аноним , 02-Мрт-22 20:27 
>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы

Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.


"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Анон111 , 03-Мрт-22 14:05 
Google вроде достаточно крупная корпорация

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено psv , 04-Мрт-22 23:05 
расскажите это openrefine


"Релиз системы распознавания текста Tesseract 5.1"
Отправлено ааноним , 03-Мрт-22 22:04 
Для винды есть сборка?

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено Jh , 05-Мрт-22 04:42 
Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться

"Релиз системы распознавания текста Tesseract 5.1"
Отправлено DmA , 07-Мрт-22 11:57 
А почему только 4 языка перечислены, а не 100?