Французский интегратор, работающий в области открытого ПО, в понедельник объявил (http://www.talend.com/blog/2008/06/23/talend-open-profiler-t.../) о выходе под открытой лицензией дата-профайлера собственной разработки. В опубликованном заявлении компания отметила, что это первый открытый продукт такого рода, и что он должен позволить организациям проводить более качественный анализ, проверку и профилирование данных без необходимости приобретения проприетарного ПО.Профилирование — это эмпирический анализ определенного массива данных, основанный на анализе частоты распределения аномальных факторов и тенденций их повторения. Так, например, при работе с данными, пользователь может выявлять области, имеющие схожую структуру и отличающиеся только в незначительных деталях, или более серьезные отклонения, которые могут привести к конфликтным ситуациям. При обработке корреспонденции это может быть неполный адрес или пропущенный индекс. С другой...
URL: http://www.linuxworld.com.au/index.php?id=673107523
Новость: http://www.opennet.me/opennews/art.shtml?num=16641
А если на пальцах объяснить, что это вообще такое?
Data Mining. Выявление неявных зависимостей среди сырых данных путем статистического анализа.
Самый простой пример - www.ozon.ru. Ты купил у них пару книг (два разных заказа), они тебе уже предлагают похожую тематику... по идее, чем больше ты заказов сделаешь, тем точнее они тебе будут делать предложение.
Оно еще и не Java. Вообще шикарно :)Может быть интегрируем к себе в систему... или хоть на тестах погоняем.
Правильно: Оно еще и на Java. Вообще шикарно :)
это то как работает например last.fm