The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

СУБД Dolt, позволяющая манипулировать данными в стиле Git, opennews (??), 07-Мрт-21, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


56. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Аноним (56), 07-Мрт-21, 22:24 
Сначала я подумал "о, круто, какая свежая идея", а потом подумал ещё и понял, что фигня. И вот почему.

Откат в любой базе данных подразумевает откат на некое консистентное состояние, в котором бизнес (именно бизнес!) транзакции завершены и подтверждены. Ну там платежка например ушла в банк и есть подтверждение, что она принята в работу. Или платежка точно не ушла и не уйдёт автоматически, если случится откат на предыдущий бэкап.

Чтобы решить эту задачу, не нужно городить никаких (псевдо) гитов, это делается логикой самого приложения.

Ответить | Правка | Наверх | Cообщить модератору

58. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +1 +/
Сообщение от ыы (?), 07-Мрт-21, 22:54 
Мне вот тоже непонятно  чем выборка по актуальному признаку при физическом отсутствии лишних данных (состояние базы в некий момент времени) лучше выборки тем же данным при наличии еще других данных в таблице?

Ну кроме размера области поиска конечно :)

Ответить | Правка | Наверх | Cообщить модератору

93. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Crazy Alex (ok), 08-Мрт-21, 09:26 
Допустим, у вас датасет плюс-минус один, но может пополняться. А состояний, в которых он используется - много, и часть из них можно обновить, часть - нет. В приложении это реализовать можно, но здесь это уже сделали за вас, ещё и внешние инстурменты управления дали.

Для всяких исследований со статистикой мне это сходу нравится, выше про датасеты для нейронок вон упоминали... вот что-то подобное.

Ответить | Правка | Наверх | Cообщить модератору

101. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от ыы (?), 08-Мрт-21, 09:35 
> А состояний, ... - много,

Это просто дурно спроектированная база данных и ветер в консерватории программиста написавшего систему.

Ответить | Правка | Наверх | Cообщить модератору

82. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 08-Мрт-21, 03:53 
> Сначала я подумал "о, круто, какая свежая идея", а потом подумал ещё и понял, что фигня. И вот почему.

Угу, и git не нужен, потому что бизнесу он бесполезен.

Ответить | Правка | К родителю #56 | Наверх | Cообщить модератору

100. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +1 +/
Сообщение от Аноним (-), 08-Мрт-21, 09:35 
> Угу, и git не нужен, потому что бизнесу он бесполезен.

После того как я увидел ТОПА ТРАНСНАЦИОНАЛЬНОЙ КОРПОРАЦИИ сцуко регающегося на гитхабе с аргументом "там тусуется много кастомеров и они используют это!" - я в этом почему-то совсем не уверен.

Ответить | Правка | Наверх | Cообщить модератору

120. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Аноним (56), 08-Мрт-21, 16:29 
Это вы уж сами придумали.

Тут проблема не в конкретном гите, а в том, что будет в базе при манипуляциях в таблицах.

Как мне видится, обсуждаемая идея имеет смысл в очень узкой области применений, а именно, если таблицы друг с другом не связаны и их можно модифицировать независимо друг от друга. Примеры коллеги привели. В статистику поиграть допустим, уберем данные такие-то, потом другие. Ну да, удобно сохранять состояние при таких экспериментах.

А если (я всё про платежи) некое сообщение фигурирует в 20 таблицах (ну там история модификаций, передача по документообороту, уведомления всякие, взаимодействие с внешними приложениями), то как тут форкать и мержить отдельные записи в таблицах? Я, хоть дерись, не понимаю, как обеспечить консистентность данных в таком случае. Тут только откат помогает и ручная выверка.

Ответить | Правка | К родителю #82 | Наверх | Cообщить модератору

121. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 08-Мрт-21, 17:11 
> Как мне видится, обсуждаемая идея имеет смысл в очень узкой области применений, а именно, если таблицы друг с другом не связаны и их можно модифицировать независимо друг от друга. Примеры коллеги привели. В статистику поиграть допустим, уберем данные такие-то, потом другие. Ну да, удобно сохранять состояние при таких экспериментах.

"Узкой" области применений?! Data science растёт как на дрожжах, и я бы не назвал её узкой областью. Уже, конечно, чем бухгалтерия, но не узкая. Впрочем, даже если и узкая область, и что с того? Узкие области не заслуживают того, чтобы иметь собственные инструменты, и пускай они пользуются инструментами для них слабо пригодными, и как хотят так и выкручиваются?

Да и вообще, sqlite очень удобен иногда вместо файлов на диске, и не из-за того, что он relational, а просто как способ быстро искать данные в каком-то датасете. Можно придумать свой формат хранения, хранить там в десятках (сотнях/тысячах/...) файлов, или в один файл упаковать, но с этим возни много. А sqlite позволяет свалить всё в кучу, и потом оттуда выуживать то, что надо, причём с таким удобным синтаксисом для выборки, который в редком языке программирования можно найти. Мне разве что R в голове приходит как пример языка, который может поконкурировать с SQL в плане удобства создания выборки данных. Но в R, прежде чем работать с данными, их надо сначала загрузить с диска, а загружать их откуда? Из гигантского csv? Или может из SQL базы?

> А если (я всё про платежи) некое сообщение фигурирует в 20 таблицах
> (ну там история модификаций, передача по документообороту, уведомления всякие, взаимодействие
> с внешними приложениями), то как тут форкать и мержить отдельные записи
> в таблицах? Я, хоть дерись, не понимаю, как обеспечить консистентность данных
> в таком случае. Тут только откат помогает и ручная выверка.

В новости предложен список возможных применений этому dolt: "в DoltHub можно найти различные БД со статистикой о коронавирусе, коллекциями аннотированных данных для систем машинного обучения, языковыми лексическими базами, коллекциями изображений, наборами для классификации объектов и информацией о принадлежности IP-адресов". То есть, как я понимаю, даже не возможных, а реальных применений. Здесь нет ни слова про бухгалтерию.

И при этом, да, я не очень понимаю проблемы. С форком вообще я не вижу никаких проблем даже потенциально, сколько бы там таблиц не было. А с мергом... Какие там могут быть проблемы? Ну, кроме тех, которые возникают и при мерге текстовых файлов?

Ответить | Правка | Наверх | Cообщить модератору

134. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Аноним (56), 09-Мрт-21, 01:26 
> С форком вообще я не вижу никаких проблем даже потенциально

Сообщение набрано и отправлено, квиток от внешней системы ещё не получен, и тут, опачки, форк. Квиток приходит в другую ветку. Восстановили предыдущее состояния, а там квитка нет, и сообщение уехало второй раз. А на той стороне муфлоны его провели дважды, и списали, например вместо двух миллионов денег четыре. Ахрененно.

Я ж говорю, всё это хорошая вещь, но для специфических применений. Ну вот накидали в базу картинок и вертим туда сюда. Испортить довольно сложно, когда это вещь в себе. Но чтоит подвязать внешние взаимодействия...

Ответить | Правка | Наверх | Cообщить модератору

136. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 09-Мрт-21, 04:07 
>> С форком вообще я не вижу никаких проблем даже потенциально
> Сообщение набрано и отправлено, квиток от внешней системы ещё не получен, и
> тут, опачки, форк. Квиток приходит в другую ветку. Восстановили предыдущее состояния,
> а там квитка нет, и сообщение уехало второй раз. А на
> той стороне муфлоны его провели дважды, и списали, например вместо двух
> миллионов денег четыре. Ахрененно.

То же самое будет и с сорцами в git, ежели ты, проводя серию связанных изменений, форкнешь сорцы посередине серии, и продолжишь серию в одной из веток. В другой будут скорее всего некомпилируемые сорцы. Это фича, а не баг.

Ответить | Правка | Наверх | Cообщить модератору

137. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  –1 +/
Сообщение от Аноним (56), 09-Мрт-21, 09:06 
От форков сорцов в гит ни горячо, ни холодно, потому что это никак не влияет на реальность.
Ответить | Правка | Наверх | Cообщить модератору

138. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 09-Мрт-21, 09:15 
> От форков сорцов в гит ни горячо, ни холодно, потому что это
> никак не влияет на реальность.

Ты про реальность, с точки зрения бизнеса? Когда программист потратил рабочий день, на то, чтобы понять почему оно не компилируется -- это вообще-то денег стоит.

Ответить | Правка | Наверх | Cообщить модератору

144. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Аноним (56), 09-Мрт-21, 17:30 
От того, что у программиста не компилируется, реальности пофигу.
Ответить | Правка | Наверх | Cообщить модератору

145. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 10-Мрт-21, 00:03 
> От того, что у программиста не компилируется, реальности пофигу.

От того, что проводки не проводятся реальности тоже пофигу.

Ответить | Правка | Наверх | Cообщить модератору

147. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Аноним (56), 11-Мрт-21, 09:04 
Да-да, интересно, как будет брызгать слюною конкретный Ordu, когда его платежи (или ему платежи, например зарплата) где-то потеряются. Ну там форкнули, туда сюда не та ветка, мы разбираемся, приходите через месяц. Или два.
Ответить | Правка | Наверх | Cообщить модератору

148. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 11-Мрт-21, 11:03 
Всегда меня озадачивало, как люди могут жить в своём информационном пузырьке и не представлять себе, что бывает что-то снаружи его.
Ответить | Правка | Наверх | Cообщить модератору

89. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Crazy Alex (ok), 08-Мрт-21, 09:21 
Речь не об однократном откате, а о том, что для разных ситуаций "правильное" (консистентное, конечно) состояние - разное.

Зачем это надо - вопрос другой, но особого криминала не вижу - допустим, проводим какие-то статистические исследования или там психологию - батареи тестов, тупящие респонденты, что-то не вовремя данные получили, одна анкетка в один результат считается, дгугая - в три, и так далее. Иметь возможность форкать и мержить датасеты в этом плане было бы удобно, и действительно ровно так же, как и исходники под гитом, и с теми же плюшками - всё в принципе хранится в одном месте, но нормально аннотировано и есть инструменты для работы со всем деревом форков. Так-то и исходники можно в куче каталогов хранить и ручками или скриптами копировать - но неудобно.

Вот идея в том, чтобы эту логику (видать относительно чатсо используемую в каких-то контекстах)  вытащить вовне, а не делать каждый раз в приложении. А заодно - дать возможность нормально это администрировать извне - приложение может вообще не знать, что там за форки (благо, оно ещё и mysql-совместимое).

Ответить | Правка | К родителю #56 | Наверх | Cообщить модератору

103. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +1 +/
Сообщение от ыы (?), 08-Мрт-21, 09:38 
> особого криминала не вижу
> проводим какие-то статистические исследования или там психологию - батареи тестов, тупящие респонденты,

При исследовании -  подмена данных ради хорошего результата- это все таки криминал :)

Ответить | Правка | Наверх | Cообщить модератору

112. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Ordu (ok), 08-Мрт-21, 11:39 
Без этой подмены ничего не работает. В сыром датасете всегда куча мусора. И его надо вычищать. Другое дело, что, если по-хорошему, это всё должно документироваться и описываться, чтобы читающие результаты исследования могли бы сами судить, насколько эта чистка повлияла на результат.
Ответить | Правка | Наверх | Cообщить модератору

132. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от Аноним (-), 08-Мрт-21, 23:52 
> Без этой подмены ничего не работает. В сыром датасете всегда куча мусора.

"Если факты не подтверждают теорию, от них нужно избавиться!" (cледствие из законов мерфи)

Ответить | Правка | Наверх | Cообщить модератору

124. "СУБД Dolt, позволяющая манипулировать данными в стиле Git"  +/
Сообщение от CrazyAlex (?), 08-Мрт-21, 19:53 
Во-первых, всегда есть первичная обработка - выкинуть сильные выбросы, явный мусор в ответах и подобное.

Во-вторых речь не о подгонке, а о том, что ты, допустим, собрал какой-то набор, стал обрабатывать, отдал кому-то результаты на посмотреть, тут тебе тормоза анкеты приволокли, ты их в датасет добавил - хочется иметь удобные средства переключения между тем, что уже обработано и обновлённым набором. Потом следующая пачка пачка пришла - ты их добавил в базу, смержил - и легко переключаешься между отдельными наборами и общим. И так далее. В общем, простота манипуляций - это хорошо.

Ответить | Правка | К родителю #103 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру