<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Релиз системы извлечения контента Apache Tika 1.0</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/81349.html</link>
    <description>Представлен (https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces19) релиз Apache Tika 1.0 (http://tika.apache.org/1.0/index.html), набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. &lt;br&gt;&lt;br&gt;&lt;br&gt;Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.&lt;br&gt;&lt;br&gt;URL: https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces19&lt;br&gt;Новость: http://www.opennet.ru/opennews/art.shtml?num=32321&lt;br&gt;</description>

<item>
    <title>Релиз системы извлечения контента Apache Tika 1.0 (hummermania)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/81349.html#7</link>
    <pubDate>Thu, 17 Nov 2011 05:46:41 GMT</pubDate>
    <description>Ковыряю непосредственно, т.к. необходим внешний движок для извлечения метаданных из приаттаченных ODF (odt,ods) файлов к докам на CouchDB. Жаль правда что на яве, хотелось бы переписать на эрланг. А так полный список feauters-ов для своего круга задач - более чем. Пригодится даже для написания анализатора того или иного формата файлов на своем языке.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы извлечения контента Apache Tika 1.0 (AntonB)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/81349.html#4</link>
    <pubDate>Wed, 16 Nov 2011 18:23:09 GMT</pubDate>
    <description>Потенциально штука интересная, надо будет познакомиться поближе.&lt;br&gt;</description>
</item>

<item>
    <title>Релиз системы извлечения контента Apache Tika 1.0 (ваноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/81349.html#2</link>
    <pubDate>Wed, 16 Nov 2011 17:24:43 GMT</pubDate>
    <description>1200 форматов? o_O&lt;br&gt;text/en-us&lt;br&gt;text/utf-8&lt;br&gt;text/cp1251&lt;br&gt;...&lt;br&gt;html/en-us&lt;br&gt;...&lt;br&gt;xhtml/en-us&lt;br&gt;...&lt;br&gt;xxxhtml/en-us&lt;br&gt;...&lt;br&gt;</description>
</item>

</channel>
</rss>
