The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Компания Google представила исходные тексты системы обработки данных Refine 2.0

12.11.2010 23:38

Компания Google открыла исходные тексты Refine 2.0, системы для обработки и приведения в порядок структурированных наборов данных, полученных из разных источников. Код написан на языке Java и распространяется в рамках лицензии BSD. Исторически система развивалась компанией Metaweb в рамках проекта Freebase Gridworks и попала в руки Google после поглощения данной компании. Из других проектов Metaweb несколько месяцев назад был открыт код JavaScript-платформы Acre.

На первый взгляд интерфейс Refine напоминает табличный процессор, но по сути система является базой данных с возможностью прямого редактирования, изменения схемы, фильтрации, выделения актуальной информации, исправления ошибок, приведения данных к единому виду и трансформации из одного формата в другой. Система имеет очень мощные возможности по фильтрации данных и чистке несоответствий, позволяя выполнять выборки сходные с SQL-оператором SELECT и приводить к единому виду семантически отличающиеся, но логически идентичные элементы.

В качестве примеров возможностей Refine по выявлению ошибок можно указать следующие действия:

  • Отобразить строки с именем пользователя, содержимое которых больше 50 символов, так как предположительно по ошибке оператора в это поле могли попасть данные с адресом пользователя;
  • Отобразить строки, в которых сумма оплаты по контракту меньше 1, так как предположительно при заполнении поля сумма была указана в тысячах долларов, вместо долларов;
  • Отобразить строки, в которых поле с описанием содержит спецсимволы, так как вероятно при импорте данных с сайта некоторые символы были неправильно перекодированы.

Примеры операций по изменению данных:

  • Для каждой строки, в которой поле с суммой оплаты по контракту меньше 1, умножить содержимое этого поля на 1000;
  • Для каждой строки, в которой в поле с именем клиента есть запятая ("фамилия, имя"), меняем содержимое на "имя фамилия".


  1. Главная ссылка к новости (http://google-opensource.blogs...)
  2. OpenNews: Компания Google открыла исходные тексты серверной JavaScript-платформы Acre
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/28642-refine
Ключевые слова: refine, google, database
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (5) RSS
  • 1.1, Аноним (-), 02:40, 13/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    awk
     
     
  • 2.6, Аноним (-), 05:28, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • –3 +/
    > awk

    Куда им, они не могут так чтобы просто и быстро. Им на жаве подавай.

     

  • 1.8, Pilat (ok), 11:55, 13/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А чем это от ETL систем (например Talend Open Studio) отличается ?
     
  • 1.9, JL2001 (ok), 18:43, 13/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > позволяя выполнять выборки сходные с SQL-оператором SELECT и приводить к единому виду семантически отличающиеся, но логически идентичные элементы

    а как они определяют что элементы логически идентичны при разной семантике ?

     
     
  • 2.11, dammer (ok), 23:44, 15/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Ну так код ведь открыли, можете посмотреть;)
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру