The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Релиз системы извлечения контента Apache Tika 1.0"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы извлечения контента Apache Tika 1.0"  +/
Сообщение от opennews (??) on 16-Ноя-11, 21:17 
Представлен (https://blogs.apache.org/foundation/entry/the_apache_softwar...) релиз Apache Tika 1.0 (http://tika.apache.org/1.0/index.html), набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ.


Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

URL: https://blogs.apache.org/foundation/entry/the_apache_softwar...
Новость: http://www.opennet.me/opennews/art.shtml?num=32321

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


2. "Релиз системы извлечения контента Apache Tika 1.0"  +/
Сообщение от ваноним on 16-Ноя-11, 21:24 
1200 форматов? o_O
text/en-us
text/utf-8
text/cp1251
...
html/en-us
...
xhtml/en-us
...
xxxhtml/en-us
...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

4. "Релиз системы извлечения контента Apache Tika 1.0"  +/
Сообщение от AntonB (ok) on 16-Ноя-11, 22:23 
Потенциально штука интересная, надо будет познакомиться поближе.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Релиз системы извлечения контента Apache Tika 1.0"  +/
Сообщение от hummermania (ok) on 17-Ноя-11, 09:46 
Ковыряю непосредственно, т.к. необходим внешний движок для извлечения метаданных из приаттаченных ODF (odt,ods) файлов к докам на CouchDB. Жаль правда что на яве, хотелось бы переписать на эрланг. А так полный список feauters-ов для своего круга задач - более чем. Пригодится даже для написания анализатора того или иного формата файлов на своем языке.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру