Релиз системы распознавания текста Tesseract 5.1

02.03.2022 07:46 (MSK)

Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Основные улучшения в Tesseract 5.1:

Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
Добавлен новый параметр curl_timeout lkz curl_easy_setop.
Улучшена система сборки.
Проведена работа по удалению неиспользуемого кода
Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.

исправить +20 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/56788-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (15)

1.2, Аноним (2), 11:42, 02/03/2022 [ответить] [﹢﹢﹢] [ · · · ]	+6 +/–
Использую. Хороший проект. Спасибо разработчикам.

2.8, Аноним (8), 22:34, 02/03/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)

3.9, Гнъ Анонимъ (?), 00:54, 03/03/2022 [^] [^^] [^^^] [ответить]	+/–
Поддерживаю! Сія мѣра очень кстати!

4.10, barmaley (??), 09:35, 03/03/2022 [^] [^^] [^^^] [ответить]	+1 +/–
Право голубчикъ, чтож вы изволите такого писать?

5.11, Гнъ Анонимъ (?), 12:49, 03/03/2022 [^] [^^] [^^^] [ответить]	+/–
> Право голубчикъ, чтож вы изволите такого писать? Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками

1.3, Аноним (3), 12:55, 02/03/2022 [ответить] [﹢﹢﹢] [ · · · ]	–5 +/–
Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.

2.6, Аноним (6), 16:40, 02/03/2022 [^] [^^] [^^^] [ответить]	+3 +/–
https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIBUTING.md А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.

1.4, Аноним (3), 12:56, 02/03/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
>на базе рекуррентной нейронной сети LSTM Продвинутые ребята уже 7 лет как используют трансформеры.

2.5, iLex (ok), 16:27, 02/03/2022 [^] [^^] [^^^] [ответить]	+/–
У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций. А на малых выборках LSTM'ки кроют трансформеры по полной.

3.7, Аноним (3), 20:27, 02/03/2022 [^] [^^] [^^^] [ответить]	+/–
>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы Трансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.

3.12, Анон111 (?), 14:05, 03/03/2022 [^] [^^] [^^^] [ответить]	+/–
Google вроде достаточно крупная корпорация

4.14, psv (??), 23:05, 04/03/2022 [^] [^^] [^^^] [ответить]	+/–
расскажите это openrefine

1.13, ааноним (?), 22:04, 03/03/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Для винды есть сборка?

2.15, Jh (?), 04:42, 05/03/2022 [^] [^^] [^^^] [ответить]	+/–
Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться

1.16, DmA (??), 11:57, 07/03/2022 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А почему только 4 языка перечислены, а не 100?

игнорирование участников | лог модерирования

Добавить комментарий

Текст: