Доступен (http://mail-archives.apache.org/mod_mbox/tika-user/201207.mb...) релиз Apache Tika 1.2 (http://tika.apache.org/1.0/index.html), набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++. Среди новшеств (http://www.apache.org/dist/tika/CHANGES-1.2.txt), добавленных в Apache Tika 1.2:
- Поддержка JAX-RS (Java API для RESTful web-сервисов) - Средства для обработки метаданных XMP - Интерграция библиотеки с поддержкой используемого в продуктах Mozilla алгоритма автоматического определения кодировок текста - Поддержка форматов файлов KML (Keyhole Markup Language), XZ и Pack200 - Улучшение извлечения контента из файлов iWork - Поддержка определения файлов FITS (Flexible Image Transport System) - Улучшение извлечения ресурсов из OLE2-документов.
URL: http://mail-archives.apache.org/mod_mbox/tika-user/201207.mb... Новость: http://www.opennet.me/opennews/art.shtml?num=34347
|