The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз системы распознавания текста Tesseract 5.3.4"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от opennews (??), 18-Янв-24, 20:25 
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский  и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR),  ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты  проекта распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=60457

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Релиз системы распознавания текста Tesseract 5.3.4"  +10 +/
Сообщение от Аноним (1), 18-Янв-24, 20:25 
Линуксу не хватает распознавания текстов уровня FineReader
Ответить | Правка | Наверх | Cообщить модератору

2. "Релиз системы распознавания текста Tesseract 5.3.4"  –10 +/
Сообщение от Аноним (2), 18-Янв-24, 20:31 
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
Ответить | Правка | Наверх | Cообщить модератору

3. "Релиз системы распознавания текста Tesseract 5.3.4"  +7 +/
Сообщение от Аноним (3), 18-Янв-24, 20:42 
> в инете

а тут ничего никому загружать не нужно, всё работает _оффлайн_.

Ответить | Правка | Наверх | Cообщить модератору

5. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Аноним (5), 18-Янв-24, 20:45 
Без обучения все равно результат плохой.
Ответить | Правка | Наверх | Cообщить модератору

8. "Релиз системы распознавания текста Tesseract 5.3.4"  +3 +/
Сообщение от Аноним (1), 18-Янв-24, 21:01 
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

9. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Аноним (2), 18-Янв-24, 21:09 
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
Ответить | Правка | Наверх | Cообщить модератору

31. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Прадед (?), 20-Янв-24, 09:28 
Недавно занимался распознаванием документа. Потом уснул..
Ответить | Правка | Наверх | Cообщить модератору

32. Скрыто модератором  +/
Сообщение от Аноним (-), 20-Янв-24, 12:58 
Ответить | Правка | Наверх | Cообщить модератору

14. "Релиз системы распознавания текста Tesseract 5.3.4"  +6 +/
Сообщение от Матвей (??), 18-Янв-24, 22:42 
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

19. "Релиз системы распознавания текста Tesseract 5.3.4"  +8 +/
Сообщение от onanim (?), 19-Янв-24, 10:07 
>     оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

где скачать?

Ответить | Правка | Наверх | Cообщить модератору

27. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Jh (?), 19-Янв-24, 20:16 
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
Ответить | Правка | К родителю #1 | Наверх | Cообщить модератору

28. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Jh (?), 19-Янв-24, 20:18 
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
Ответить | Правка | Наверх | Cообщить модератору

29. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Jh (?), 19-Янв-24, 20:30 
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
Ответить | Правка | К родителю #27 | Наверх | Cообщить модератору

4. "Релиз системы распознавания текста Tesseract 5.3.4"  +1 +/
Сообщение от robot228email (?), 18-Янв-24, 20:42 
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
Ответить | Правка | Наверх | Cообщить модератору

10. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Quad Romb (ok), 18-Янв-24, 21:14 
Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.
Ответить | Правка | Наверх | Cообщить модератору

7. "Релиз системы распознавания текста Tesseract 5.3.4"  +1 +/
Сообщение от Аноним (7), 18-Янв-24, 20:46 
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
Ответить | Правка | Наверх | Cообщить модератору

11. "Релиз системы распознавания текста Tesseract 5.3.4"  +1 +/
Сообщение от paulus (ok), 18-Янв-24, 21:26 
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
Ответить | Правка | Наверх | Cообщить модератору

12. "Релиз системы распознавания текста Tesseract 5.3.4"  +2 +/
Сообщение от Quad Romb (ok), 18-Янв-24, 21:29 
Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
Ответить | Правка | Наверх | Cообщить модератору

13. "Релиз системы распознавания текста Tesseract 5.3.4"  +2 +/
Сообщение от Аноним (13), 18-Янв-24, 22:38 
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

15. "Релиз системы распознавания текста Tesseract 5.3.4"  +1 +/
Сообщение от Аноним (15), 18-Янв-24, 22:49 
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
Ответить | Правка | Наверх | Cообщить модератору

18. "Релиз системы распознавания текста Tesseract 5.3.4"  +3 +/
Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01 
После файнридера приводить текст к единому стилю — то ещё удовольствие.
Ответить | Правка | Наверх | Cообщить модератору

16. "Релиз системы распознавания текста Tesseract 5.3.4"  –1 +/
Сообщение от Аноним (15), 18-Янв-24, 22:52 
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.

Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

Ответить | Правка | Наверх | Cообщить модератору

20. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Ильч (?), 19-Янв-24, 10:44 
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
Ответить | Правка | Наверх | Cообщить модератору

23. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Анонимemail (23), 19-Янв-24, 13:44 
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
Ответить | Правка | Наверх | Cообщить модератору

24. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Аноним (24), 19-Янв-24, 15:06 
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.

Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

Ответить | Правка | Наверх | Cообщить модератору

25. "Релиз системы распознавания текста Tesseract 5.3.4"  –2 +/
Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54 
> Если языковой барьер не мешает, то пожалуйста.

Онлайн-переводчики уже запретили ?

Ответить | Правка | Наверх | Cообщить модератору

26. "Релиз системы распознавания текста Tesseract 5.3.4"  +/
Сообщение от Аноним (24), 19-Янв-24, 16:10 
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
Ответить | Правка | Наверх | Cообщить модератору

30. "Релиз системы распознавания текста Tesseract 5.3.4"  +1 +/
Сообщение от cat666 (ok), 19-Янв-24, 21:22 
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
Ответить | Правка | К родителю #24 | Наверх | Cообщить модератору

33. "Релиз системы распознавания текста Tesseract 5.3.4"  +1 +/
Сообщение от Аноним (33), 20-Янв-24, 15:25 
Китайцы безусловно молодцы, факт.

> Всё остальное просто нервно курит в сторонке по качеству распознавания.

Само-собой, нейронки нещадно нагибают классический подход.

> Я собирал на C++ и библиотеку и программу распознавания.

cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.

> Много документации на английском

Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?

Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.

В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру