Релиз системы распознавания текста Tesseract 5.5.0

11.11.2024 07:56

Опубликован релиз системы оптического распознавания текста Tesseract 5.5.0, поддерживающей Unicode и распознавание текстов более чем на 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные улучшения:

Добавлена поддержка векторных расширений RISC-V V, на базе которых подготовлены ассемблерные оптимизации для систем с процессорами RISC-V.
При записи результата в формате hOCR обеспечено выставление в создаваемом файле параметров ocrp_dir и ocrp_lang.
Модернизирован код для определения доступных языковых моделей.
Улучшен код для формирования файлов в формате hOCR и убрано преобразование имён файлов на платформе Windows.
Разрешено указание символьных значений в опциях "--oem" и "--psm".
В коде произведена замена функций access и _access на метод std::filesystem::exists(). Функции tprintf заменены на использование потока tesserr.
Удалена поддержка платформы машинного обучения Tensorflow, которая в своё время была реализована, но так и не была задействована для выполнения AI-моделей распознавания.
Улучшен установщик для платформы Windows.
Субмодуль googletest обновлён до версии 1.15.2.

исправить +18 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/62216-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (55)

1.1, Швондик (?), 08:49, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
при попытке скачать последнюю билду выскакивает 404 а эта прога никак не умеет распозновать djvu ?

2.2, Аноним (2), 09:21, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
жрёт картинки, в примерах .tiff конвертишь утилитой консольной (кажись уже для всех форматов найти можно), подсовываешь

2.38, Аноним (-), 19:54, 11/11/2024 [^] [^^] [^^^] [ответить]	+1 +/–
1. Устанавливаешь djvulibre 2. Конвертируешь в pdf: ddjvu -format=pdf input.djvu output.pdf 3. Распонаёшь в tesseract

3.39, Швондик (?), 20:15, 11/11/2024 [^] [^^] [^^^] [ответить]	–1 +/–
так tesseract не читает pdf

4.57, Аноним (57), 16:41, 13/11/2024 [^] [^^] [^^^] [ответить]	+/–
Так устанавливаешь ghost и конвертируешь pdf в jpeg и распознаешь.

2.42, Аноним (42), 23:31, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
> а эта прога никак не умеет распозновать djvu ? Для расширенного функционала лучше использовать какой-то frontend к ней https://tesseract-ocr.github.io/tessdoc/User-Projects-–-3rdParty.html

1.4, Аноним (4), 10:17, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+5 +/–
Использовал для распознавания текста из одной книжки, оказалось вполне работоспособная штука. Изначально был настроен скептически, думал, что в итоге понадобится Виноуз и ФайнРидер, но нет, все удалось сделать. После распознавания требовалось минимальное ручное вмешательство по исправлению распознанного. Ну, оно и в ФайнРидер требовалось, когда я его редко использовал, так что тут паритет. Как ГУЙ-морда использвался gImageReader.

2.5, Аноним (5), 10:36, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
Гугл модели зажал, сабж по факту практически бесполезен из-за ошибок и слабых возможностей распознавания. Для использования, у тебя должны быть ресурсы, чтобы натренировать свои модели, и это для пользователей не реально.

3.16, Аноним (16), 13:10, 11/11/2024 [^] [^^] [^^^] [ответить]	+2 +/–
Оно без моделей и без Хухла нормально работало. При хорошей чёткости скана работает очень хорошо, без ИИ, без коммерческих вендоров.

4.18, Аноним (5), 13:30, 11/11/2024 [^] [^^] [^^^] [ответить]	–1 +/–
С легаси движками без нейронок. Помню, приходилось скармливать ей идеальный выровненный двухцветный (не оттенки серого) текст, чтобы распознавало в обычном разрешении более менее.

5.26, Аноним (26), 16:11, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
для сабжа просто в имеджмаджике картинку с низким разрешением (напрмиер, скриншот) растягиваешь раза в 4 - все работает... а по нейронкам есть EasyOCR, но на пайтоне

6.28, Аноним (28), 16:20, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
> растягиваешь раза в 4 Сабжу можно указать разрешение исходного растра, ключ "--dpi", что ли, и можно ничего не увеличивать. По умолчанию он, вроде, на 300 dpi расчитан

6.29, Аноним (5), 16:57, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
Сайт не открывается без прокси. А так PaddleOCR же. Вообще печально, что такие базовые задачи опенсорс до сих пор нормально не решает.

7.32, Аноним (16), 18:55, 11/11/2024 [^] [^^] [^^^] [ответить]

+/–

Так решает же задачку OCR. Да, без ИИ.

Но, OCR не особо-то нужен в жизни современного человека с компьютером.

Мне только - чеки из магазина, разве что был нужен. Остальные потребности были довольно криповыми случаями, в нормальной современной жизни очень редкие. Либо можно сделать нормальный скан.

8.37, Аноним (5), 19:20, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
В нормальной жизни современного человека с компьютером необходимо каждый день ра... текст свёрнут, показать

3.24, Аноним (24), 16:02, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
> Гугл модели зажал В смысле "зажал"? А распознает он тогда чем? У tesseract есть более сотни моделей для разных языков.

4.30, Аноним (5), 17:06, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
Это демонстрационные модели 7 летней давности.

4.31, Аноним (31), 17:11, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
> В смысле "зажал"? А распознает он тогда чем? Там же два движка, как написано в новости. Не знаю, правду ли сказал чувак про зажатие гуглом моделей, но предположу, что если это так, то распознавать может первым из двух движков, старым классическим, по шаблонам символов. А модели - для второго, продвинутого движка. Ну это я про логику "А распознает он тогда чем?", а не в защиту его утверждения. А вот зажал гугол или нет - хз.

3.45, Аноним (45), 04:10, 12/11/2024 [^] [^^] [^^^] [ответить]

+1 +/–

> Гугл модели зажал

А это тогда что?

https://github.com/tesseract-ocr/tessdata
https://github.com/tesseract-ocr/tessdata_best
https://github.com/tesseract-ocr/tessdata_fast
https://github.com/tesseract-ocr/tessdata_contrib

Выбирай любую, хошь быструю, хошь точную. Или у вас там где–то методичка про «модели зажал»? Уже под какой новостью про тессеракт эту глупость вижу.

4.48, Аноним (5), 09:24, 12/11/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Так ты же совсем глупенький, если не понимаешь, почему представленные демонстрационные модели никуда не годятся.

5.49, Аноним (45), 10:04, 12/11/2024 [^] [^^] [^^^] [ответить]	+/–
Работают, распознают, каши не просят, но «не годятся». Неосилятор что ли? Или, может, вам ABBYY башляет? Какой смысл гнать на бесплатный продукт?

6.52, Аноним (5), 10:53, 12/11/2024 [^] [^^] [^^^] [ответить]	+/–
Когда я его в прошлый раз использовал Finereader, в нём не было никаких продвинутых нейронок, а распознавание хорошо работало только со стандартными шрифтами. В сканах книг могли быть чуть более интересные советские шрифты, и вот с ними распознавание было уже весьма посредственным. Сабж невозможно использовать надёжно: даже если фон не идеально белый уже не распознает. И ровно та же проблема с узнаванием шрифтов в наличии.

5.50, Аноним (50), 10:07, 12/11/2024 [^] [^^] [^^^] [ответить]

+/–

>>> Гугл модели зажал
>> А это тогда что?
> не годятся

А при чем тут их качество? Речь была о том, что ты нагло наврал рассказами о "Гугл зажал", в то время как все из покон веков лежит в открытом доступе.

> Так ты же совсем глупенький, если не понимаешь, почему представленные демонстрационные модели никуда не годятся.

Если куча народу по всему миру (включая библиотеку archive.org) вполне успешно распознают ими текст, а у одного тебя они "не годятся" - то кто тут глупенький?

6.51, Аноним (5), 10:48, 12/11/2024 [^] [^^] [^^^] [ответить]	+/–
Это не те модели, что использует Гугл. Да, тессеракт, насколько мне известно, именно то, что гугл использует для весьма качественного распознавания (в том числе на фото). Но тебе это не светит. Именно потому, что зажал. Если у тебя какие-то сомнения в этом, то ты просто слишком оторван от реальности.

7.53, Аноним (50), 11:37, 12/11/2024 [^] [^^] [^^^] [ответить]

+/–

> Это не те модели, что использует Гугл.

Почему кому-то должно быть не наплевать?

> Да, тессеракт, насколько мне известно, именно то, что гугл использует для весьма качественного распознавания

Откуда тебе это известно? Гугл давным давно уже не работает над Тессерактом, и гарантированно не будет завязывать свой бизнес на либе, которую за бесплатно пилят три васяна в свободное время. У них наверняка уже свой движок, или в лучшем случае ответвившийся от Тессеракта много лет назад и не совместимый с ним.

> Если у тебя какие-то сомнения в этом, то ты просто слишком оторван от реальности.

Забавно слышать об "оторваности от реальности" от человека, который нафантазировал себе о том, какой OCR движок использует Гугл и с какими моделями.

8.54, Аноним (5), 12:07, 12/11/2024 [^] [^^] [^^^] [ответить]	–1 +/–
А он не скрывал это, пару лет назад была инфа Все его юзают, тот же яндекс соби... текст свёрнут, показать

9.55, Аноним (50), 12:30, 12/11/2024 [^] [^^] [^^^] [ответить]	+/–
Ты забыл дать ссылки на пруфы ... текст свёрнут, показать

3.58, анонимус (??), 17:20, 15/11/2024 [^] [^^] [^^^] [ответить]	+/–
5.4.1 с легаси-движком отлично работает для многоязычных скриншотов, например английский+русский+укранский+французский. Нормально распознавал сканированные книги с archive.org, но я не разобрался, как делвть djvu. Фотографии объявлений с телефона тоже распознаёт.

2.6, ryoken (ok), 10:47, 11/11/2024 [^] [^^] [^^^] [ответить]	–1 +/–
Под оффтопик есть кроме файнридера ещё и ReadIris. В основном в комплекте к HP-шной технике. Печатный текст довольно неплохо опиливает.

3.59, анонимус (??), 17:28, 15/11/2024 [^] [^^] [^^^] [ответить]	+/–
12-я версия ReadIris (~2010) имела интерфейс менее удобный, чем FineReader 4 (~1998), но по качеству они были сопоставимы. Но найти пиратскую ReadIris с поддержкой иероглифов не было проблемой, в отличие от FR. Под Линуксом, ЕМНИП, работала.

2.20, fuggy (ok), 14:46, 11/11/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Не умеет оно распознавать текст где есть язык с вкраплением слов на английском. Это отрезает сразу целых пласт технической литературы. Оно миксует латиницу и кириллицу рандомно даже в пределах одного слова. Это ни в какой край не идёт без большой ручной работы по исправлению похожих букв на другой алфавит. Хотя хорошо справляется со сложными вариантами, такими как японский вертикально.

3.25, Аноним (24), 16:07, 11/11/2024 [^] [^^] [^^^] [ответить]	+1 +/–
> Не умеет оно распознавать текст где есть язык с вкраплением слов на английском. Умеет, просто нужно выбирать две модели (eng+rus). А при выводе в HOCR он даже промаркирует, какое слово на каком языке распозналось.

4.41, Аноним (41), 23:03, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
А, кстати, дореволюционную орфографию с ятями оно уже умеет?

5.56, Аноним (45), 23:54, 12/11/2024 [^] [^^] [^^^] [ответить]	+/–
Штатные модельки — увы, нет.

5.60, анонимус (??), 17:42, 15/11/2024 [^] [^^] [^^^] [ответить]	+/–
4 года назад ВШЭ делала модуль для Тессеракта (легко гуглится), но чем дело кончилось, и где его скачать — не нашёл.

1.7, Аноним (7), 10:53, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Как распознавал хреново чуть-чуть нестандартно написанный/напечатанный текст, так и распознает, даже на английском (пример - фото с табличкой где белом по черному написан vin номер автомобиля). В линуксе все также херово с OCR как и 15 лет назад или есть некий hidden gem о котором мужики-то и не в курсе?

2.8, Аноним (8), 10:57, 11/11/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Проприетарное российское ocr по есть на Linux.

3.9, Аноним (7), 10:59, 11/11/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Какое?

4.61, анонимус (??), 17:43, 15/11/2024 [^] [^^] [^^^] [ответить]	+/–
Тот же FineReader SDK.

2.10, Валерий Менаев (?), 11:14, 11/11/2024 [^] [^^] [^^^] [ответить]	+2 +/–
Не знаю, что ты там распознавал и чем, но я сотни книг и газет (на русском) из архивов распознал с помощью Tesseract, с самыми разными шрифтами, и в основном без ошибок. Более чем достойный аналог одной известной пoдeлки от рycoфoбской кoнтoрки, которая уволила всех русских разработчиков. Но ты можешь и дальше продолжать обмaзывaться, никто не запрещает.

3.11, Имя (?), 11:23, 11/11/2024 [^] [^^] [^^^] [ответить]	–3 +/–
Какие фобы, ты чего, Валера - https://contentai.ru

4.27, Аноним (26), 16:14, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
у них под линукс ГУЁвая-распознавалка вроде же не работает...

4.36, Ддд (?), 19:11, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
Она не ьесплатна и цен вообще нет

3.12, Аноним (7), 11:28, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
>Не знаю, что ты там распознавал и чем Ну ты видимо своими "глазами" в состоянии текст с экрана своего устройства распознать раз в упор не видишь того что написано в сообщении внутри скобок. Но дурь написать таки осилил.

4.17, Аноним (16), 13:15, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
И таки: Tesseract хорошо работает на разных языках. При хорошем качестве скана, фото - тут, да: есть требования к исходным материалам. Но тогда работает хорошо.

2.14, Аноним (14), 12:51, 11/11/2024 [^] [^^] [^^^] [ответить]	+/–
Распознавание текста это первая тема во всех нормальных туториалпх по нейронкам. И во многих мешин лернингах.

1.13, Аноним (13), 11:46, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Отличная весть! Висит на хоткее для перевода текста с картинок. Вполне корректно работает. Перебитый vin может и не распознаёт))

1.34, Аноним (34), 19:01, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Проверил под Fedora. Весьма недурно распознает даже кривые-косые картинки. Не прошло и 20 лет. FineReader можно выбрасывать на мороз

1.35, Ддд (?), 19:10, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Как было кривым так и осталось. Гугл камера и то лучше текст распознает. Ни одной нормальной ocr даже на хаффинге нет

1.40, Аноним (-), 20:32, 11/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Если бы оно ещё закладки умело добавлять автоматически — цены бы не было.

1.44, ptr (ok), 00:41, 12/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Для поддержки пользователей, обожающих присылать скриншоты и минимум текстовой информации - Tesseract более чем достаточно. В качестве GUI использую dpScreenOCR

1.46, Аноним (46), 04:41, 12/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Конверсия картинки с текстом в пдф. Полученный пдф файл представляет из себя два слоя: первый - картинка с текстом в растровом формате и второй слой - распознанный текст с прибитым гвоздями шрифтом. Итого: пдф файл излишне большой и текст редактировать невозможно. Но, зато безплатно.

1.47, Аноним (47), 06:48, 12/11/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
На редкость полезная вещь, простые сканы документов распознает более-менее сносно

1.62, Аноним (62), 13:04, 12/12/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Как то решаются уязвимости: CVE-2022-38266 и CVE-2020-28453 ?

1.63, gregg128 (ok), 02:09, 27/02/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Только что отсканировал и распознал огромный пдф на английском с помощью ocrmypdf, внутри у которого тессеракт. Распрекрасно работает, теперь по файлу можно искать текст, качество распознавания отличное. К слову, очень рекомендую этот скрипт, ocrmypdf.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: