"How to scan and OCR like a pro with open source tools (http://www.linux.com/feature/138511)" - оценка качества распознавания текстов на немецком языке в открытых OCR - GOCR (http://jocr.sourceforge.net/), Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) и Tesseract-OCR (http://code.google.com/p/tesseract-ocr/). Система Tesseract-OCR лидирует с большим перевесом.URL: http://www.linux.com/feature/138511
Новость: http://www.opennet.me/opennews/art.shtml?num=16651
И какой интерес в этой новости русскоязычному сообществу? =)
>И какой интерес в этой новости русскоязычному сообществу? =)А почему бы и не быть интересу? Немецкий - он, как и русский, с символами, которых нет в Великом Могучем "Интернациональном". Так что узнать как открытые OCR ведут себя с таким языком - совсем нелишне, на мой взгляд.
И кстати, люди, а не подскажете ли, - если есть результаты тренировки tesseract'а в части русского языка, куда их слать, чтобы, значить, пользу проекту принести? )
Видимо, дабы привлечь народ к пополнению баз (как их там называют, не помню) сигнатур русских литер. Правдо, наш юзер, видимо, настолько привык к файнридеру, что не считает, возможным получить свободный продукт подобного качества в ближайшее время.