The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Выпуск кластерной ФС Lustre 2.17"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Выпуск кластерной ФС Lustre 2.17"  +/
Сообщение от opennews (?), 31-Дек-25, 11:37 
Опубликован релиз кластерной файловой системы Lustre 2.17, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов.  Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты.  Код проекта распространяется под лицензией GPLv2...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=64533

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

2. Сообщение от aname (ok), 31-Дек-25, 11:47   –9 +/
Непонятно, это лучше BTRFS, или нет?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8, #10, #12

4. Сообщение от Аноним (4), 31-Дек-25, 11:55   +/
Непонятно а как это на локалхосте поднять...
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #5, #9, #24

5. Сообщение от Фонтимос (?), 31-Дек-25, 12:47   +9 +/
Если непонятно, значит не нужно
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

7. Сообщение от chemistmailemail (ok), 31-Дек-25, 12:54   +/
Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было....

Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность...

Легко, но нафиг не надо.

По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад  использовал, петабайтов не было, но грузовик жестких дисков был заюзан.

Ответить | Правка | Наверх | Cообщить модератору

8. Сообщение от Аноним (8), 31-Дек-25, 13:28   +1 +/
Это другое. Она надстройка над обычными ФС.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

9. Сообщение от Аноним (8), 31-Дек-25, 13:29   +2 +/
Наделать кучу виртуалок и над ними поднять.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #19

10. Сообщение от faa (?), 31-Дек-25, 14:20   +/
Это что-то типа NFS, только круче.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #20

11. Сообщение от faa (?), 31-Дек-25, 14:21   +/
Lustre еще используется на суперкомпьютерах.
Ответить | Правка | Наверх | Cообщить модератору

12. Сообщение от Аноним (12), 31-Дек-25, 14:25   –2 +/
ZFS Ван лав
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #23

13. Сообщение от Аноним (12), 31-Дек-25, 14:33   –8 +/
Все кому нужно распределенное хранилище с действительно важными данными не используют опенсорсное без гарантии. Они используют решения на ос RAIDIX.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #17, #26

14. Сообщение от morphe (?), 31-Дек-25, 14:40   +2 +/
Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #22

17. Сообщение от онанист (?), 31-Дек-25, 16:28   +3 +/
какая глупая реклама
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

19. Сообщение от Аноним (19), 31-Дек-25, 19:42   +/
и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #21

20. Сообщение от Анонимemail (20), 31-Дек-25, 19:56   +/
Человек попытался объяснить незнайке простыми словами, а другой незнайка обиделся на человека.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

21. Сообщение от Анонимemail (20), 31-Дек-25, 19:58   +/
Итог будет зависеть от того, как Вы настроите репликацию в Lustre.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19

22. Сообщение от daemontux (?), 31-Дек-25, 20:03   +/
Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #29

23. Сообщение от Аноним (23), 31-Дек-25, 21:30   +1 +/
Архаика...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

24. Сообщение от kusb (?), 31-Дек-25, 22:23   +/
Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #25

25. Сообщение от kusb (?), 31-Дек-25, 22:23   +1 +/
Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #28

26. Сообщение от warlockemail (??), 01-Янв-26, 00:12   +1 +/
Как будто неопенсорсное даёт какие-то гарантии...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13 Ответы: #27

27. Сообщение от Аноним (28), 01-Янв-26, 00:21   +/
Ты просто не понимаешь что такое коммерческая поддержка.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

28. Сообщение от Аноним (28), 01-Янв-26, 00:23   +/
Хранители рутрекера и держатели кластеров редких торрентами поддерживают.    
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

29. Сообщение от none (??), 01-Янв-26, 11:27   +/
Короткий ответ: Ceph не для этого был придуман.

Заранее извинияюсь за сильное упрощение и прошу умных людей не сильно пинать меня за упущения.

Длинный ответ требует постановку задачи, для чего придумывали кластерные файловые системы:

Вот, например, у вас есть небольшой вычислительный кластер, скажем, узлов (серверов) на 200-300. Занимаетесь вы обработкой данных физических экспериментов или какой-нибудь сейсморазведкой. Т.е. у вас не модельные данные, а вполне себе зарегистрированные цифровые результаты каких-то физических процессов. Их тоже не очень много, ну, скажем, примерно петабайт. Из которых 4/5 - это результаты предыдущих обсчётов, а 200T - это тот датасет, с которым сейчас _активно_ работает кластер. Софт, с которым вы работаете, написан не вами, а какой-то другой группой разработчиков, которые собаку съели на физике и оптимизировали некие "решатели" под разные архитектуры CPU/GPU. Софт работает с обычной файловой структурой, создаёт кучу индексов, поддерживает собственный внутренний формат БД для работы с данными, читает данные, визуализирует их, пишет логи и результаты параллельно со всех серверов в одном дереве файлов. Данные терять нельзя, производительность _имеет значение_, как по задержкам, так и по пропускной способности. Дополнительное требование: в следующем году расширить систему хранения на 30%.

И вот, вооружившись собственным мозгом и интернетом, вы начинаете изучать вопрос: а как "большие дяди" решают такие задачки. На выбор: Lustre, BeeGFS, pNFS (Panasas или NetApp), вычёркиваете Intel DAOS, т.к. она блочная, вычёркиваете Exellero, по той же причиние, смотрите в сторону VAST Data и прикидываете в уме ценник на коробочное решения.

Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.

Давайте, грубо, посмотрим на цепочку открытия некоторого файла с данными, в качестве примера:

В случае Ceph:
- Приложение хочет открыть некий файл (/distributed/data/path/to/file) и дёргает ядро.
- Ядро смотрит, что за этот кусок отвечает NFS клиент.
- NFS клиент в составе ядра обращается к одному из серверов NFS Ganesha
- Запрос пошёл по сети.
- ядро на NFS сервере (который Ganesha), перебросило данные  из пространства ядра в процесс Ganesha.
- NFS Ganesha запрос получил.
- Дёрнул RadosGW (для простоты они на одной машине)
- RadosGW дёрнул сервер метаданных Ceph.
- В этот момент опять произошло переключение контекста.
- Запрос пошёл по сети.
- Сервер метаданных ответил какие бакеты Ceph надо забрать из OST, в которых будут метаданные файлов.
- RadosGW отправляет запрос/запросы по сети на полученные OST. Опять с переключением контекста.
- запросы пошли по сети, ждём приезда данных (бакеты фиксиорованно размера, какого, кстати?)
- Ждём, когда все данные приедут и мы отдадим их Ganesha. Ещё одно переключение контекста.
- Данные приехали и Ganesha мысленно поставил себе галочку, что с данным файлом работают. Проверяет какие у него права доступа, заблокирован ли он кем-то ещё и если всё в порядке, то возвращает клиенту некий дескриптор открытого файла.
- Клиент NFS радостно рапортует, что файл открыт.

Дальше мы хотим прочитать кусок данных из файла. Вся цепочка повторяется, но с удлиннением, вместо метаданных файла, мы будем получать некоторую кучку бакетов, которые потом будем через NFS передавать клиенту, запоминая по дороге, где находится текущий указатель на чтение.

Как это будет происходить в Luste/BeeGFS:
- Приложение хотет открыть файл и дёргает ядро.
- Ядро понимает, что за этот путь в виртуальной файловой системе отвечает клиент Lustre (который тоже в составе ядра) и сразу дёргает его.
- Клиент Lustre не покидая пространства ядра, делает запрос к серверу метаданных
- Запрос уходит по сети сразу из ядра.
- Получает ответ, что файл открыт, если права пользователей позволяют, т.к. сервер метаданных хранит не только карту блоков содержимого файлов, но и права доступа, владельца и все остальные атрибуты.
- Клиент Lustre сообщает ядру, что файл открыт.
- Ядро возвращает приложению: файл открыт.

В случае чтения какого-то блока из файла:
- Клиент просит сместиться внутри файла на 100Gb и прочитать блок данных размером 10M.
- Ядро дёргает клиента Lustre (который всё тот же модуль ядра).
- Клиент Lustre запрашивает у сервера метаданных какие сервера OST отвечают за этот диапазон.
- Запрос уходит в сеть из ядра (нет переключения контекста).
- Сервер метаданных проверяет блокировки этого диапазона и, если противопоказаний нет, то возвращает список и номера блоков.
- Клиент Lustre (не покидая пространства ядра) параллельно запрашивает нужные блоки у серверов OST.
- Запросы уходят по сети (кстати, это может быть Infiniband с RDMA, что ещё немного сокращает задержки)
- Получив данные он либо оставляет их в кэше и делает memory map для приложения, либо копирует данные в пространство приложения (тут происходит переключение контекста), в зависимости от того, как именно приложение просило открыть себе файл и как читает данные.

Ну и напоследок. Наступает новый финансовый год. Планов - громадьё. Руководство, в своей бесконечной мудрости, решает, что надо бы расширить кластер и увеличить объём хранения данных процентов эдак на 30%. Закупает железо. А все проекты идут и активно работают. Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру