Представлен (https://blogs.apache.org/foundation/entry/the_apache_softwar...) релиз Apache Tika 1.0 (http://tika.apache.org/1.0/index.html), набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ.
Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.URL: https://blogs.apache.org/foundation/entry/the_apache_softwar...
Новость: http://www.opennet.me/opennews/art.shtml?num=32321
1200 форматов? o_O
text/en-us
text/utf-8
text/cp1251
...
html/en-us
...
xhtml/en-us
...
xxxhtml/en-us
...
Потенциально штука интересная, надо будет познакомиться поближе.
Ковыряю непосредственно, т.к. необходим внешний движок для извлечения метаданных из приаттаченных ODF (odt,ods) файлов к докам на CouchDB. Жаль правда что на яве, хотелось бы переписать на эрланг. А так полный список feauters-ов для своего круга задач - более чем. Пригодится даже для написания анализатора того или иного формата файлов на своем языке.