forum.opennet.ru - "Выпуск кластерной ФС Lustre 2.17" (36)

"Выпуск кластерной ФС Lustre 2.17"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Выпуск кластерной ФС Lustre 2.17"	+/–
Сообщение от opennews (?), 31-Дек-25, 11:37
Опубликован релиз кластерной файловой системы Lustre 2.17, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты. Код проекта распространяется под лицензией GPLv2... Подробнее: https://www.opennet.me/opennews/art.shtml?num=64533
Ответить \| Правка \| Cообщить модератору

Оглавление

Непонятно, это лучше BTRFS, или нет , aname (ok), 11:47 , 31-Дек-25, (2) –11

Это другое Она надстройка над обычными ФС , Аноним (8), 13:28 , 31-Дек-25, (8) +1
Это что-то типа NFS, только круче , faa (?), 14:20 , 31-Дек-25, (10)
ZFS Ван лав, Аноним (12), 14:25 , 31-Дек-25, (12) –3

Архаика , Аноним (23), 21:30 , 31-Дек-25, (23) +1

Непонятно а как это на локалхосте поднять , Аноним (4), 11:55 , 31-Дек-25, (4) –1

Если непонятно, значит не нужно, Фонтимос (?), 12:47 , 31-Дек-25, (5) +9
Наделать кучу виртуалок и над ними поднять , Аноним (8), 13:29 , 31-Дек-25, (9) +2

и что будет, если одна, или несколько виртуалок будут загашены выйдут из строя , Аноним (19), 19:42 , 31-Дек-25, (19)

Итог будет зависеть от того, как Вы настроите репликацию в Lustre , Аноним (21), 19:58 , 31-Дек-25, (21)

Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то, kusb (?), 22:23 , 31-Дек-25, (24)

Например облачный кластер на балконе и несколько оптических проводочков идёт к н, kusb (?), 22:23 , 31-Дек-25, (25) +1

Хранители рутрекера и держатели кластеров редких торрентами поддерживают , Аноним (28), 00:23 , 01-Янв-26, (28)
10гб с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год , Аноним (34), 15:18 , 01-Янв-26, (34)

Я смотрю, это просто поражение мозга какое-то писать разлельно не там, где это, Я (??), 18:13 , 02-Янв-26, (50)

Это имеет смысл только если тебе надо слить в один накопитель несколько накопите, torvn77 (ok), 13:50 , 01-Янв-26, (32)
dnf install lustre-testscd usr lib64 lustre testsbash llmount sh, Аноним (38), 22:43 , 01-Янв-26, (38)

Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было , chemistmail (ok), 12:54 , 31-Дек-25, (7)
Lustre еще используется на суперкомпьютерах , faa (?), 14:21 , 31-Дек-25, (11)
Архитектурно выглядит очень похоже на ceph, но в чём преимущества Я так понял б, morphe (?), 14:40 , 31-Дек-25, (14) +3

Поддерживаю этого оратора, тоже хотелось бы понять - в чем разница и почему бы , daemontux (?), 20:03 , 31-Дек-25, (22) +1

Короткий ответ Ceph не для этого был придуман Заранее извинияюсь за сильное упр, none (??), 11:27 , 01-Янв-26, (29)

Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м се, Аноним (34), 15:50 , 01-Янв-26, (36)

Извините, повторюсь Ceph не для этого был придуман Именно то, что ceph работает, none (??), 17:33 , 01-Янв-26, (37)

не для того, но заявления о том что какаято там фс может сотни тысяч петабайт, э, Аноним (34), 23:22 , 01-Янв-26, (46)

а так же отсутсвием когерентности кешей - как у nfs серверов, а уж тем более nfs, Аноним (38), 22:48 , 01-Янв-26, (41)
Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS я тут вообще не по, morphe (?), 23:10 , 01-Янв-26, (42)

Окей, пардон, надо было загуглить, RadosGW действительно имеет NFS интерфейс, од, morphe (?), 23:14 , 01-Янв-26, (43)
Если коротко - то CephFS работает именно так, как ты описал работу люстры Однако, morphe (?), 23:41 , 01-Янв-26, (48)

Примерно никак, Ceph очень слабо централизован, посмотри на архитектуру CRUSH OS, morphe (?), 23:18 , 01-Янв-26, (44)
Посмотрел вообще что за зверь такой этот NFS в RadosGW - и как я и подумал, это , morphe (?), 00:03 , 02-Янв-26, (49)

Рассказывать про запись данных на ceph не буду, но там появятся такие милые серд, none (??), 11:44 , 01-Янв-26, (30)

Если ты доверяешь своему железу - то можешь не ждать двух реплик, это ж не то чт, morphe (?), 23:21 , 01-Янв-26, (45)

не похоже на ceph от слова совсем самое простое - разный механизм востановления , Аноним (38), 22:46 , 01-Янв-26, (39)

Мне кажется ты и другой комментатор тоже про NFS и RadosGW говорите, а не про Ce, morphe (?), 23:27 , 01-Янв-26, (47) –1

не похоже на ceph от слова совсем самое простое - разный механизм восстановления, Аноним (38), 22:46 , 01-Янв-26, (40)

Сообщения [Сортировка по ответам | RSS]

2. Сообщение от aname (ok), 31-Дек-25, 11:47 –11 +/–

Непонятно, это лучше BTRFS, или нет?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8, #10, #12

4. Сообщение от Аноним (4), 31-Дек-25, 11:55 –1 +/–

Непонятно а как это на локалхосте поднять...

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #5, #9, #24, #32, #38

5. Сообщение от Фонтимос (?), 31-Дек-25, 12:47 +9 +/–

Если непонятно, значит не нужно

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

7. Сообщение от chemistmail (ok), 31-Дек-25, 12:54 +/–

Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было....
Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность...
Легко, но нафиг не надо.
По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад  использовал, петабайтов не было, но грузовик жестких дисков был заюзан.

Ответить | Правка | Наверх | Cообщить модератору

8. Сообщение от Аноним (8), 31-Дек-25, 13:28 +1 +/–

Это другое. Она надстройка над обычными ФС.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

9. Сообщение от Аноним (8), 31-Дек-25, 13:29 +2 +/–

Наделать кучу виртуалок и над ними поднять.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #19

10. Сообщение от faa (?), 31-Дек-25, 14:20 +/–

Это что-то типа NFS, только круче.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

11. Сообщение от faa (?), 31-Дек-25, 14:21 +/–

Lustre еще используется на суперкомпьютерах.

Ответить | Правка | Наверх | Cообщить модератору

12. Сообщение от Аноним (12), 31-Дек-25, 14:25 –3 +/–

ZFS Ван лав

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #23

14. Сообщение от morphe (?), 31-Дек-25, 14:40 +3 +/–

Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #22, #39, #40

19. Сообщение от Аноним (19), 31-Дек-25, 19:42 +/–

и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #21

21. Сообщение от Аноним (21), 31-Дек-25, 19:58 +/–

Итог будет зависеть от того, как Вы настроите репликацию в Lustre.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19

22. Сообщение от daemontux (?), 31-Дек-25, 20:03 +1 +/–

Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #29, #30

23. Сообщение от Аноним (23), 31-Дек-25, 21:30 +1 +/–

Архаика...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

24. Сообщение от kusb (?), 31-Дек-25, 22:23 +/–

Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #25

25. Сообщение от kusb (?), 31-Дек-25, 22:23 +1 +/–

Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #28, #34

28. Сообщение от Аноним (28), 01-Янв-26, 00:23 +/–

Хранители рутрекера и держатели кластеров редких торрентами поддерживают.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

29. Сообщение от none (??), 01-Янв-26, 11:27 +/–

Короткий ответ: Ceph не для этого был придуман.
Заранее извинияюсь за сильное упрощение и прошу умных людей не сильно пинать меня за упущения.
Длинный ответ требует постановку задачи, для чего придумывали кластерные файловые системы:
Вот, например, у вас есть небольшой вычислительный кластер, скажем, узлов (серверов) на 200-300. Занимаетесь вы обработкой данных физических экспериментов или какой-нибудь сейсморазведкой. Т.е. у вас не модельные данные, а вполне себе зарегистрированные цифровые результаты каких-то физических процессов. Их тоже не очень много, ну, скажем, примерно петабайт. Из которых 4/5 - это результаты предыдущих обсчётов, а 200T - это тот датасет, с которым сейчас _активно_ работает кластер. Софт, с которым вы работаете, написан не вами, а какой-то другой группой разработчиков, которые собаку съели на физике и оптимизировали некие "решатели" под разные архитектуры CPU/GPU. Софт работает с обычной файловой структурой, создаёт кучу индексов, поддерживает собственный внутренний формат БД для работы с данными, читает данные, визуализирует их, пишет логи и результаты параллельно со всех серверов в одном дереве файлов. Данные терять нельзя, производительность _имеет значение_, как по задержкам, так и по пропускной способности. Дополнительное требование: в следующем году расширить систему хранения на 30%.
И вот, вооружившись собственным мозгом и интернетом, вы начинаете изучать вопрос: а как "большие дяди" решают такие задачки. На выбор: Lustre, BeeGFS, pNFS (Panasas или NetApp), вычёркиваете Intel DAOS, т.к. она блочная, вычёркиваете Exellero, по той же причиние, смотрите в сторону VAST Data и прикидываете в уме ценник на коробочное решения.
Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.
Давайте, грубо, посмотрим на цепочку открытия некоторого файла с данными, в качестве примера:
В случае Ceph:
- Приложение хочет открыть некий файл (/distributed/data/path/to/file) и дёргает ядро.
- Ядро смотрит, что за этот кусок отвечает NFS клиент.
- NFS клиент в составе ядра обращается к одному из серверов NFS Ganesha
- Запрос пошёл по сети.
- ядро на NFS сервере (который Ganesha), перебросило данные  из пространства ядра в процесс Ganesha.
- NFS Ganesha запрос получил.
- Дёрнул RadosGW (для простоты они на одной машине)
- RadosGW дёрнул сервер метаданных Ceph.
- В этот момент опять произошло переключение контекста.
- Запрос пошёл по сети.
- Сервер метаданных ответил какие бакеты Ceph надо забрать из OST, в которых будут метаданные файлов.
- RadosGW отправляет запрос/запросы по сети на полученные OST. Опять с переключением контекста.
- запросы пошли по сети, ждём приезда данных (бакеты фиксиорованно размера, какого, кстати?)
- Ждём, когда все данные приедут и мы отдадим их Ganesha. Ещё одно переключение контекста.
- Данные приехали и Ganesha мысленно поставил себе галочку, что с данным файлом работают. Проверяет какие у него права доступа, заблокирован ли он кем-то ещё и если всё в порядке, то возвращает клиенту некий дескриптор открытого файла.
- Клиент NFS радостно рапортует, что файл открыт.
Дальше мы хотим прочитать кусок данных из файла. Вся цепочка повторяется, но с удлиннением, вместо метаданных файла, мы будем получать некоторую кучку бакетов, которые потом будем через NFS передавать клиенту, запоминая по дороге, где находится текущий указатель на чтение.
Как это будет происходить в Luste/BeeGFS:
- Приложение хотет открыть файл и дёргает ядро.
- Ядро понимает, что за этот путь в виртуальной файловой системе отвечает клиент Lustre (который тоже в составе ядра) и сразу дёргает его.
- Клиент Lustre не покидая пространства ядра, делает запрос к серверу метаданных
- Запрос уходит по сети сразу из ядра.
- Получает ответ, что файл открыт, если права пользователей позволяют, т.к. сервер метаданных хранит не только карту блоков содержимого файлов, но и права доступа, владельца и все остальные атрибуты.
- Клиент Lustre сообщает ядру, что файл открыт.
- Ядро возвращает приложению: файл открыт.
В случае чтения какого-то блока из файла:
- Клиент просит сместиться внутри файла на 100Gb и прочитать блок данных размером 10M.
- Ядро дёргает клиента Lustre (который всё тот же модуль ядра).
- Клиент Lustre запрашивает у сервера метаданных какие сервера OST отвечают за этот диапазон.
- Запрос уходит в сеть из ядра (нет переключения контекста).
- Сервер метаданных проверяет блокировки этого диапазона и, если противопоказаний нет, то возвращает список и номера блоков.
- Клиент Lustre (не покидая пространства ядра) параллельно запрашивает нужные блоки у серверов OST.
- Запросы уходят по сети (кстати, это может быть Infiniband с RDMA, что ещё немного сокращает задержки)
- Получив данные он либо оставляет их в кэше и делает memory map для приложения, либо копирует данные в пространство приложения (тут происходит переключение контекста), в зависимости от того, как именно приложение просило открыть себе файл и как читает данные.
Ну и напоследок. Наступает новый финансовый год. Планов - громадьё. Руководство, в своей бесконечной мудрости, решает, что надо бы расширить кластер и увеличить объём хранения данных процентов эдак на 30%. Закупает железо. А все проекты идут и активно работают. Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22 Ответы: #36, #41, #42, #44, #49

30. Сообщение от none (??), 01-Янв-26, 11:44 +/–

Рассказывать про запись данных на ceph не буду, но там появятся такие милые сердцу ожидания, пока данные лягут в две из трёх реплик (мы же помним, что терять данные нельзя и храним 3 реплики).
Вот кстати, отдельная задачка - посчитать стоимость хранения за минимальный "строительный блок" для расширения на 100Tb, с учётом всех OST, RadosGW, серверов NFS и тремя репликами данных.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22 Ответы: #45

32. Сообщение от torvn77 (ok), 01-Янв-26, 13:50 +/–

>Непонятно а как это на локалхосте поднять...
Это имеет смысл только если тебе надо слить в один накопитель несколько накопителей на разных хостах и их так много что тебе их никак не собрать на одном сервере.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

34. Сообщение от Аноним (34), 01-Янв-26, 15:18 +/–

10гб/с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год назад, работает и выдает заявленную скорость. Так что соорудить собственное облачко не сложно и не дорого

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25 Ответы: #50

36. Сообщение от Аноним (34), 01-Янв-26, 15:50 +/–

> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?
Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м серверов отключенных на обслуживание, к тому же сеф работает в пространстве пользователя и любой его процесс может быть тупо убит, в отличии от ядерных процессов с которыми сделать нельзя ничего, кроме как ребутать всю ноду.
Честное слово не представляю что за софт такой который работает на кластере, но требует общую фс и локальный доступ к файлам, звучит какбудто ктото сильно сьэкономил на софте и выдал (родил) эдакого инвалида, с ручками, но без ножек.
В современном мире, в современной мете программирования, все должно жить в контейнерах, каждый из которых может быть отдельным миникластером с собственными очередями и нодами, прекрасно понимаю что в докер можно запихать далеко не все, прекрасно понимаю что накладные расходы могут быть чудовищными, особенно если поднимают это люди не оченьто шарящие...но так будет, да уже есть...
найти колкового токаря, который на старом советском станке выточит детель с нужной точностью не проблема, но вот найти толпу таких токарей, которые выточат сотни тысяч деталей с той же точностью невозможно, и выход один, менять советские станки на чпу, чтобы любой школоло мог пару кнопок нажать и получить результат, конечно такой станок будет дороже и медленнее, наверное, но это те самые накладные расходы и на дистанции оно отобьется по денгам и рискам чем платить элитным сотрудникам которые знают магию вне хогвардса как из ржавого ведра и линейки ...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29 Ответы: #37

37. Сообщение от none (??), 01-Янв-26, 17:33 +/–

Извините, повторюсь: Ceph не для этого был придуман.
Именно то, что ceph работает в пространстве пользователя - это большая потеря производительности. Вы пытаетесь применить "свой молоток" не к тем "гвоздям".
Это не маленький B2C бизнес. В большинстве случаев - это даже не бизнес, а исследования. Сравнение с токарем, на мой взгляд, не очень подходит. Скорее таки Ceph тут будет выглядеть "садовой тележкой" в том месте, где нужны "карьерные самосвалы".

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #36 Ответы: #46

38. Сообщение от Аноним (38), 01-Янв-26, 22:43 +/–

dnf install lustre-tests
cd /usr/lib64/lustre/tests
bash llmount.sh

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

39. Сообщение от Аноним (38), 01-Янв-26, 22:46 +/–

не похоже на ceph от слова совсем.
самое простое - разный механизм востановления после сбоя.
ceph надеется на сетевые реплики.
lustre работает как сетевая журналируемая fs и надеется что backend - уже с рейдом.
Остальное уже вопросы стабильности и маштабируемости (не слышал что бы ceph работал с 15-50к клиентов)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #47

40. Сообщение от Аноним (38), 01-Янв-26, 22:46 +/–

не похоже на ceph от слова совсем.
самое простое - разный механизм восстановления после сбоя.
ceph надеется на сетевые реплики.
lustre работает как сетевая журналируемая fs и надеется что backend - уже с рейдом.
Остальное уже вопросы стабильности и маштабируемости (не слышал что бы ceph работал с 15-50к клиентов)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

41. Сообщение от Аноним (38), 01-Янв-26, 22:48 +/–

>Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.
а так же отсутсвием когерентности кешей - как у nfs серверов, а уж тем более nfs клиентов.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

42. Сообщение от morphe (?), 01-Янв-26, 23:10 +/–

> Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.
Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS я тут вообще не понял каким боком, потому что RadosGW это S3, а не NFS
Оно далеко не так топорно работает как ты описал, в CephFS у тебя есть сервера метаданных MDS, и сервера дисков (блочное хранилище rados) OSD
Клиенту нужно стучать в MDS для получения информации о структуре ФС, а для изменения файлов он уже может стучать напрямую во все OSD согласно CRUSH карте, тут нет никакой централизации, промежуточных серверов, и уж тем более NFS

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29 Ответы: #43, #48

43. Сообщение от morphe (?), 01-Янв-26, 23:14 +/–

> Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS
> я тут вообще не понял каким боком, потому что RadosGW это
> S3, а не NFS
Окей, пардон, надо было загуглить, RadosGW действительно имеет NFS интерфейс, однако это точно не то что рекомендуется кому-либо использовать, судя по всему это просто встроенный адаптер наподобие S3-FUSE, лол

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #42

44. Сообщение от morphe (?), 01-Янв-26, 23:18 +/–

> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?
Примерно никак, Ceph очень слабо централизован, посмотри на архитектуру CRUSH/OSD что там используется для объектного хранилища, и как устроены сервера MDS для CephFS
Только эти сервисы нужны для cephfs клиентов, при перебалансировке нагружаются только отдельные OSD, и ceph достаточно хорошо нагрузку по ним распределяет чтобы не было такого что все реплики всех объектов оказались плохо доступны

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

45. Сообщение от morphe (?), 01-Янв-26, 23:21 +/–

Если ты доверяешь своему железу - то можешь не ждать двух реплик, это ж не то чтобы что-то необычное, неужели lustre по дефолту позволяет потерять единственную актуальную реплику?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30

46. Сообщение от Аноним (34), 01-Янв-26, 23:22 +/–

не для того, но заявления о том что какаято там фс может сотни тысяч петабайт, это смешно, потому что никому не надо, прямо сейчас перед вами отличный пример, виртуализация железа проиграла, все эти супер кластеры от вмваре больше никому не нужны, их заменили садовые тележки от прокмокса, ну не полностью, но тренд очевиден,..не знаю нужны ли комуто карьерные самосвалы, разрабатывать двигатель, кузов, решать проблемы с логистикой негабаритных частей, чтобы он отработал Х времени, и снова решать кучу проблем чтобы его починить,..в чем проблема заменить его сотней тележек.
и линукс и виндовс вознамерились выбросить С, и писать все на расте, потому что нету достаточного кол-ва людей способных управлять памятью. А уж упихивание в контейнеры превратилось в какойто фетиш.
да, наверное, люстра это очень круто и быстро, но лично мне доводилось сталкиваться с тем, что изза сбойного диска, приходилось ребутать ноду, потому что ядро не хотело удалять связанные ресурсы nfs, хотя аппаратно горячная замена поддерживается. Аппаратные рейды, ктото пользуется ими сейчас? да они позволяют не потерять данные, но заменить диск это долгая история с перезагрузками всей ноды, ждать сутки пока аппаратный рейд синронизирует диски и позволит загрузить систему, ну комон. ( есть конечно всякие проприетарные megaraid'ы, только они протухли уже)
Крупному бизнесу эти танцы с ядерными бубнами нафиг не нужны, крупный бизнес заплатит один раз в 2 раза больше чтобы все работало в 2 раза быстрее, и чтобы в дальнейшем платить половину джунам которые все это админят, а не каким то там экспертам по фс которой никто не умеет пользоваться, крупный бизнес любит капитальное строительство и любит набивать себе цену. А покупка сервака это как раз капиталка, а зп нет.
В общем, я не пытаюсь утверждать что сеф самый лучший, но обьективно лучше нет ничего, и его работа в пространстве пользователя это плюс, а не минус, да медленнее, но зато предсказуемее. Я очень надеюсь что будущее за ним, а не за s3, который вообще http.
так то в ядро можно и графику затащить и вообще все что угодно и у полутора землекопов это будет даже хорошо работать, только у всех остальных это будет виндовс 98, который в любой момент может колом встать.
Согласитесь, ядро для локалхоста, кластеризация там лишняя, тащить туда шифрование, авторизацию, права доступа, зачем, чтобы изза ошибки одного василия все встало колом, нее.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #37

47. Сообщение от morphe (?), 01-Янв-26, 23:27 –1 +/–

> не похоже на ceph от слова совсем.
> самое простое - разный механизм востановления после сбоя.
> ceph надеется на сетевые реплики.
> lustre работает как сетевая журналируемая fs и надеется что backend - уже
> с рейдом.
Мне кажется ты и другой комментатор тоже про NFS и RadosGW говорите, а не про CephFS
У CephFS файловая система (реализованная на MDS) тоже журналируемая (метаданные), а сами данные бечатся в OSD, который либо работает с голым диском и имеет WAL (bluestore), либо тоже файловая система с опциональным журналированием (filestore)
Короче никто не надеется на сетевые реплики, но по дефолту обычно всегда стоит ожидание что несколько реплик доступны, это да.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #39

48. Сообщение от morphe (?), 01-Янв-26, 23:41 +/–

Если коротко - то CephFS работает именно так, как ты описал работу люстры.
Однако клиент CephFS присутствует в mainline ядре, а клиент люстры - out-of-tree модуль

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #42

49. Сообщение от morphe (?), 02-Янв-26, 00:03 +/–

> - NFS Ganesha запрос получил.
> - Дёрнул RadosGW (для простоты они на одной машине)
Посмотрел вообще что за зверь такой этот NFS в RadosGW - и как я и подумал, это встроенный адаптер S3-FUSE, чтобы на клиенте не ставить FUSE прослойку, а смонтировать вместо неё NFS сервер
NFS сервер тут однако не внешний процесс, а просто ещё один протокол предоставляемый RadosGW, сервер ganesha in-process, никого ему дёргать не надо
> Each NFS RGW instance is an NFS-Ganesha server instance embedding a full Ceph RGW instance.
> Therefore, the RGW NFS configuration includes Ceph and Ceph Object Gateway-specific configuration in a local ceph.conf, as well as NFS-Ganesha-specific configuration in the NFS-Ganesha config file, ganesha.conf.
Что собственно и делает его лучше чем внешний S3-FUSE

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

50. Сообщение от Я (??), 02-Янв-26, 18:13 +/–

Я смотрю, это просто поражение мозга какое-то писать разлельно "не" там, где это не нужно. Неужели самому не видно, что в данном случае пишется "несложно" и "недорого"? Или реально мозг поражён чем-то?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #34

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

2. Сообщение от aname (ok), 31-Дек-25, 11:47	–11 +/–
Непонятно, это лучше BTRFS, или нет?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #8, #10, #12

4. Сообщение от Аноним (4), 31-Дек-25, 11:55	–1 +/–
Непонятно а как это на локалхосте поднять...
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #5, #9, #24, #32, #38

5. Сообщение от Фонтимос (?), 31-Дек-25, 12:47	+9 +/–
Если непонятно, значит не нужно
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4

7. Сообщение от chemistmail (ok), 31-Дек-25, 12:54	+/–
Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было.... Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность... Легко, но нафиг не надо. По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад использовал, петабайтов не было, но грузовик жестких дисков был заюзан.
Ответить \| Правка \| Наверх \| Cообщить модератору

8. Сообщение от Аноним (8), 31-Дек-25, 13:28	+1 +/–
Это другое. Она надстройка над обычными ФС.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2

9. Сообщение от Аноним (8), 31-Дек-25, 13:29	+2 +/–
Наделать кучу виртуалок и над ними поднять.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4 Ответы: #19

10. Сообщение от faa (?), 31-Дек-25, 14:20	+/–
Это что-то типа NFS, только круче.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2

11. Сообщение от faa (?), 31-Дек-25, 14:21	+/–
Lustre еще используется на суперкомпьютерах.
Ответить \| Правка \| Наверх \| Cообщить модератору

12. Сообщение от Аноним (12), 31-Дек-25, 14:25	–3 +/–
ZFS Ван лав
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2 Ответы: #23

14. Сообщение от morphe (?), 31-Дек-25, 14:40	+3 +/–
Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #22, #39, #40

19. Сообщение от Аноним (19), 31-Дек-25, 19:42	+/–
и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #9 Ответы: #21

21. Сообщение от Аноним (21), 31-Дек-25, 19:58	+/–
Итог будет зависеть от того, как Вы настроите репликацию в Lustre.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #19

22. Сообщение от daemontux (?), 31-Дек-25, 20:03	+1 +/–
Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14 Ответы: #29, #30

23. Сообщение от Аноним (23), 31-Дек-25, 21:30	+1 +/–
Архаика...
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #12

24. Сообщение от kusb (?), 31-Дек-25, 22:23	+/–
Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4 Ответы: #25

25. Сообщение от kusb (?), 31-Дек-25, 22:23	+1 +/–
Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #24 Ответы: #28, #34

28. Сообщение от Аноним (28), 01-Янв-26, 00:23	+/–
Хранители рутрекера и держатели кластеров редких торрентами поддерживают.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #25

29. Сообщение от none (??), 01-Янв-26, 11:27	+/–
Короткий ответ: Ceph не для этого был придуман. Заранее извинияюсь за сильное упрощение и прошу умных людей не сильно пинать меня за упущения. Длинный ответ требует постановку задачи, для чего придумывали кластерные файловые системы: Вот, например, у вас есть небольшой вычислительный кластер, скажем, узлов (серверов) на 200-300. Занимаетесь вы обработкой данных физических экспериментов или какой-нибудь сейсморазведкой. Т.е. у вас не модельные данные, а вполне себе зарегистрированные цифровые результаты каких-то физических процессов. Их тоже не очень много, ну, скажем, примерно петабайт. Из которых 4/5 - это результаты предыдущих обсчётов, а 200T - это тот датасет, с которым сейчас _активно_ работает кластер. Софт, с которым вы работаете, написан не вами, а какой-то другой группой разработчиков, которые собаку съели на физике и оптимизировали некие "решатели" под разные архитектуры CPU/GPU. Софт работает с обычной файловой структурой, создаёт кучу индексов, поддерживает собственный внутренний формат БД для работы с данными, читает данные, визуализирует их, пишет логи и результаты параллельно со всех серверов в одном дереве файлов. Данные терять нельзя, производительность _имеет значение_, как по задержкам, так и по пропускной способности. Дополнительное требование: в следующем году расширить систему хранения на 30%. И вот, вооружившись собственным мозгом и интернетом, вы начинаете изучать вопрос: а как "большие дяди" решают такие задачки. На выбор: Lustre, BeeGFS, pNFS (Panasas или NetApp), вычёркиваете Intel DAOS, т.к. она блочная, вычёркиваете Exellero, по той же причиние, смотрите в сторону VAST Data и прикидываете в уме ценник на коробочное решения. Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками. Давайте, грубо, посмотрим на цепочку открытия некоторого файла с данными, в качестве примера: В случае Ceph: - Приложение хочет открыть некий файл (/distributed/data/path/to/file) и дёргает ядро. - Ядро смотрит, что за этот кусок отвечает NFS клиент. - NFS клиент в составе ядра обращается к одному из серверов NFS Ganesha - Запрос пошёл по сети. - ядро на NFS сервере (который Ganesha), перебросило данные из пространства ядра в процесс Ganesha. - NFS Ganesha запрос получил. - Дёрнул RadosGW (для простоты они на одной машине) - RadosGW дёрнул сервер метаданных Ceph. - В этот момент опять произошло переключение контекста. - Запрос пошёл по сети. - Сервер метаданных ответил какие бакеты Ceph надо забрать из OST, в которых будут метаданные файлов. - RadosGW отправляет запрос/запросы по сети на полученные OST. Опять с переключением контекста. - запросы пошли по сети, ждём приезда данных (бакеты фиксиорованно размера, какого, кстати?) - Ждём, когда все данные приедут и мы отдадим их Ganesha. Ещё одно переключение контекста. - Данные приехали и Ganesha мысленно поставил себе галочку, что с данным файлом работают. Проверяет какие у него права доступа, заблокирован ли он кем-то ещё и если всё в порядке, то возвращает клиенту некий дескриптор открытого файла. - Клиент NFS радостно рапортует, что файл открыт. Дальше мы хотим прочитать кусок данных из файла. Вся цепочка повторяется, но с удлиннением, вместо метаданных файла, мы будем получать некоторую кучку бакетов, которые потом будем через NFS передавать клиенту, запоминая по дороге, где находится текущий указатель на чтение. Как это будет происходить в Luste/BeeGFS: - Приложение хотет открыть файл и дёргает ядро. - Ядро понимает, что за этот путь в виртуальной файловой системе отвечает клиент Lustre (который тоже в составе ядра) и сразу дёргает его. - Клиент Lustre не покидая пространства ядра, делает запрос к серверу метаданных - Запрос уходит по сети сразу из ядра. - Получает ответ, что файл открыт, если права пользователей позволяют, т.к. сервер метаданных хранит не только карту блоков содержимого файлов, но и права доступа, владельца и все остальные атрибуты. - Клиент Lustre сообщает ядру, что файл открыт. - Ядро возвращает приложению: файл открыт. В случае чтения какого-то блока из файла: - Клиент просит сместиться внутри файла на 100Gb и прочитать блок данных размером 10M. - Ядро дёргает клиента Lustre (который всё тот же модуль ядра). - Клиент Lustre запрашивает у сервера метаданных какие сервера OST отвечают за этот диапазон. - Запрос уходит в сеть из ядра (нет переключения контекста). - Сервер метаданных проверяет блокировки этого диапазона и, если противопоказаний нет, то возвращает список и номера блоков. - Клиент Lustre (не покидая пространства ядра) параллельно запрашивает нужные блоки у серверов OST. - Запросы уходят по сети (кстати, это может быть Infiniband с RDMA, что ещё немного сокращает задержки) - Получив данные он либо оставляет их в кэше и делает memory map для приложения, либо копирует данные в пространство приложения (тут происходит переключение контекста), в зависимости от того, как именно приложение просило открыть себе файл и как читает данные. Ну и напоследок. Наступает новый финансовый год. Планов - громадьё. Руководство, в своей бесконечной мудрости, решает, что надо бы расширить кластер и увеличить объём хранения данных процентов эдак на 30%. Закупает железо. А все проекты идут и активно работают. Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #22 Ответы: #36, #41, #42, #44, #49

30. Сообщение от none (??), 01-Янв-26, 11:44	+/–
Рассказывать про запись данных на ceph не буду, но там появятся такие милые сердцу ожидания, пока данные лягут в две из трёх реплик (мы же помним, что терять данные нельзя и храним 3 реплики). Вот кстати, отдельная задачка - посчитать стоимость хранения за минимальный "строительный блок" для расширения на 100Tb, с учётом всех OST, RadosGW, серверов NFS и тремя репликами данных.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #22 Ответы: #45

32. Сообщение от torvn77 (ok), 01-Янв-26, 13:50	+/–
>Непонятно а как это на локалхосте поднять... Это имеет смысл только если тебе надо слить в один накопитель несколько накопителей на разных хостах и их так много что тебе их никак не собрать на одном сервере.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4

34. Сообщение от Аноним (34), 01-Янв-26, 15:18	+/–
10гб/с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год назад, работает и выдает заявленную скорость. Так что соорудить собственное облачко не сложно и не дорого
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #25 Ответы: #50

36. Сообщение от Аноним (34), 01-Янв-26, 15:50	+/–
> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится? Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м серверов отключенных на обслуживание, к тому же сеф работает в пространстве пользователя и любой его процесс может быть тупо убит, в отличии от ядерных процессов с которыми сделать нельзя ничего, кроме как ребутать всю ноду. Честное слово не представляю что за софт такой который работает на кластере, но требует общую фс и локальный доступ к файлам, звучит какбудто ктото сильно сьэкономил на софте и выдал (родил) эдакого инвалида, с ручками, но без ножек. В современном мире, в современной мете программирования, все должно жить в контейнерах, каждый из которых может быть отдельным миникластером с собственными очередями и нодами, прекрасно понимаю что в докер можно запихать далеко не все, прекрасно понимаю что накладные расходы могут быть чудовищными, особенно если поднимают это люди не оченьто шарящие...но так будет, да уже есть... найти колкового токаря, который на старом советском станке выточит детель с нужной точностью не проблема, но вот найти толпу таких токарей, которые выточат сотни тысяч деталей с той же точностью невозможно, и выход один, менять советские станки на чпу, чтобы любой школоло мог пару кнопок нажать и получить результат, конечно такой станок будет дороже и медленнее, наверное, но это те самые накладные расходы и на дистанции оно отобьется по денгам и рискам чем платить элитным сотрудникам которые знают магию вне хогвардса как из ржавого ведра и линейки ...
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #29 Ответы: #37

37. Сообщение от none (??), 01-Янв-26, 17:33	+/–
Извините, повторюсь: Ceph не для этого был придуман. Именно то, что ceph работает в пространстве пользователя - это большая потеря производительности. Вы пытаетесь применить "свой молоток" не к тем "гвоздям". Это не маленький B2C бизнес. В большинстве случаев - это даже не бизнес, а исследования. Сравнение с токарем, на мой взгляд, не очень подходит. Скорее таки Ceph тут будет выглядеть "садовой тележкой" в том месте, где нужны "карьерные самосвалы".
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #36 Ответы: #46

38. Сообщение от Аноним (38), 01-Янв-26, 22:43	+/–
dnf install lustre-tests cd /usr/lib64/lustre/tests bash llmount.sh
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4

39. Сообщение от Аноним (38), 01-Янв-26, 22:46	+/–
не похоже на ceph от слова совсем. самое простое - разный механизм востановления после сбоя. ceph надеется на сетевые реплики. lustre работает как сетевая журналируемая fs и надеется что backend - уже с рейдом. Остальное уже вопросы стабильности и маштабируемости (не слышал что бы ceph работал с 15-50к клиентов)
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14 Ответы: #47

40. Сообщение от Аноним (38), 01-Янв-26, 22:46	+/–
не похоже на ceph от слова совсем. самое простое - разный механизм восстановления после сбоя. ceph надеется на сетевые реплики. lustre работает как сетевая журналируемая fs и надеется что backend - уже с рейдом. Остальное уже вопросы стабильности и маштабируемости (не слышал что бы ceph работал с 15-50к клиентов)
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14

41. Сообщение от Аноним (38), 01-Янв-26, 22:48	+/–
>Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками. а так же отсутсвием когерентности кешей - как у nfs серверов, а уж тем более nfs клиентов.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #29

42. Сообщение от morphe (?), 01-Янв-26, 23:10	+/–
> Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками. Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS я тут вообще не понял каким боком, потому что RadosGW это S3, а не NFS Оно далеко не так топорно работает как ты описал, в CephFS у тебя есть сервера метаданных MDS, и сервера дисков (блочное хранилище rados) OSD Клиенту нужно стучать в MDS для получения информации о структуре ФС, а для изменения файлов он уже может стучать напрямую во все OSD согласно CRUSH карте, тут нет никакой централизации, промежуточных серверов, и уж тем более NFS
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #29 Ответы: #43, #48

43. Сообщение от morphe (?), 01-Янв-26, 23:14	+/–
> Речь шла про CephFS, RadosGW это S3 интерфейс для ceph, и NFS > я тут вообще не понял каким боком, потому что RadosGW это > S3, а не NFS Окей, пардон, надо было загуглить, RadosGW действительно имеет NFS интерфейс, однако это точно не то что рекомендуется кому-либо использовать, судя по всему это просто встроенный адаптер наподобие S3-FUSE, лол
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #42

44. Сообщение от morphe (?), 01-Янв-26, 23:18	+/–
> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится? Примерно никак, Ceph очень слабо централизован, посмотри на архитектуру CRUSH/OSD что там используется для объектного хранилища, и как устроены сервера MDS для CephFS Только эти сервисы нужны для cephfs клиентов, при перебалансировке нагружаются только отдельные OSD, и ceph достаточно хорошо нагрузку по ним распределяет чтобы не было такого что все реплики всех объектов оказались плохо доступны
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #29