Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0...Подробнее: https://www.opennet.me/opennews/art.shtml?num=56788
Использую.
Хороший проект.
Спасибо разработчикам.
Даёшь распознавание ятей(Ѣ)!! (для дореволюционного текста нужно, не руками же это всё править)
Поддерживаю! Сія мѣра очень кстати!
Право голубчикъ, чтож вы изволите такого писать?
> Право голубчикъ, чтож вы изволите такого писать?Я самъ ничего, но много интересныхъ книгъ написано до насъ нашими великими предками
Пока не запилят восстановление стиля и структуры, с детекцией шрифтов, картинок, таблиц и т.д., с сохранением всей обнаруженной инфы, с возможностью для пользователя вмешиваться в процесс, как сделано в FineReader, так и будет бесполезной поделкой.
https://github.com/tesseract-ocr/tesseract/blob/main/CONTRIB...А вообще и в нынешнем виде он очень полезен: тот же OcrMyPDF, сделанный на его основе - отличная штука для случаев когда надо добавить текстовый слой к отсканированным печатным материалам - например, для удобного поиска по ним.
>на базе рекуррентной нейронной сети LSTMПродвинутые ребята уже 7 лет как используют трансформеры.
У трансформеров есть неприятный недостаток - они требуют ОЧЕНЬ большого объёма обучающей выборки, чтобы механизм Multi-head attention нормально работал. Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмы. Так что трансформеры - это игрушка крупных корпораций.
А на малых выборках LSTM'ки кроют трансформеры по полной.
>Подозреваю, у разработчиков Tesseract попросту нет ресурсов, чтоб вручную разметить нужные объёмыТрансформеры тренируют на неразмеченных данных. Им нужна модель, понимающая структуру текста, к которой можно приделать распознающую модель, чтобы предсказывать распределение вероятностей для символа при заданной картинке. Для этого разметка не нужна. Нужна модель трансформер на чистом тексте (входы и выходы - 1-hot) + модель-распознавалка, выдающая распределение вероятностей для символа. Веса трансформера для начала можно и нужно заморозить.
Google вроде достаточно крупная корпорация
расскажите это openrefine
Для винды есть сборка?
Есть. Есть даже GUI - VietOCR. В принципе можно пользоваться
А почему только 4 языка перечислены, а не 100?