Компания Google открыла (http://google-opensource.blogspot.com/2010/11/announcing-goo...) исходные тексты Refine 2.0 (http://code.google.com/p/google-refine/), системы для обработки и приведения в порядок структурированных наборов данных, полученных из разных источников. Код написан на языке Java и распространяется в рамках лицензии BSD. Исторически система развивалась компанией Metaweb в рамках проекта Freebase Gridworks и попала в руки Google после поглощения данной компании. Из других проектов Metaweb несколько месяцев назад был открыт (http://www.opennet.me/opennews/art.shtml?num=27756) код JavaScript-платформы Acre.На первый взгляд интерфейс Refine напоминает табличный процессор, но по сути система является базой данных с возможностью прямого редактирования, изменения схемы, фильтрации, выделения актуальной информации, исправления ошибок, приведения данных к единому виду и трансформации из одного формата в другой. Система имеет очень мощные возмож...
URL: http://google-opensource.blogspot.com/2010/11/announcing-goo...
Новость: http://www.opennet.me/opennews/art.shtml?num=28642
awk
> awkКуда им, они не могут так чтобы просто и быстро. Им на жаве подавай.
А чем это от ETL систем (например Talend Open Studio) отличается ?
> позволяя выполнять выборки сходные с SQL-оператором SELECT и приводить к единому виду семантически отличающиеся, но логически идентичные элементыа как они определяют что элементы логически идентичны при разной семантике ?
Ну так код ведь открыли, можете посмотреть;)