The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Релиз системы извлечения контента Apache Tika 1.2"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз системы извлечения контента Apache Tika 1.2"  +/
Сообщение от opennews on 17-Июл-12, 17:06 
Доступен (http://mail-archives.apache.org/mod_mbox/tika-user/201207.mb...) релиз Apache Tika 1.2 (http://tika.apache.org/1.0/index.html), набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.


Среди новшеств (http://www.apache.org/dist/tika/CHANGES-1.2.txt), добавленных в Apache Tika 1.2:


-  Поддержка JAX-RS (Java API для RESTful web-сервисов)
-  Средства для обработки метаданных XMP
-  Интерграция библиотеки с поддержкой используемого в продуктах Mozilla алгоритма автоматического определения кодировок текста
-  Поддержка форматов файлов KML (Keyhole Markup Language), XZ и Pack200
-  Улучшение извлечения контента из файлов iWork
-  Поддержка определения файлов FITS (Flexible Image Transport System)
-  Улучшение извлечения ресурсов из OLE2-документов.

URL: http://mail-archives.apache.org/mod_mbox/tika-user/201207.mb...
Новость: http://www.opennet.me/opennews/art.shtml?num=34347

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Релиз системы извлечения контента Apache Tika 1.2"  +/
Сообщение от ДяДя on 17-Июл-12, 17:06 
>Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

А кто-то говорил, что библиотеку на Java можно использовать только из Java.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Релиз системы извлечения контента Apache Tika 1.2"  +/
Сообщение от Аноним (??) on 17-Июл-12, 20:40 
И главное шустро работает, по сравнению со strigi. Apache как всегда на высоте.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру