URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 107308
[ Назад ]

Исходное сообщение
"Выпуск кластерной ФС Lustre 2.8"
Отправлено opennews , 28-Мрт-16 10:00

Состоялся (http://lists.lustre.org/pipermail/lustre-discuss-lustre.org/...) релиз кластерной файловой системы Lustre 2.8 (http://lustre.org/), используемой в большей части крупнейших (http://top500.org) Linux-кластеров, содержащих десятки тысяч узлов. Масштабируемость на столь крупных системах достигается благодаря многокомпонентной архитектуре. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS, MDT), управляющие серверы (MGT, MGS), серверы хранения объектов (OSS), серверы размещения объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты (код клиента входит в состав штатного ядра Linux).
<center><a href="http://opensfs.org/wp-content/uploads/2013/10/LustreComponen... src="https://www.opennet.me/opennews/pics_base/0_1459145226.gif&q... style="border-style: solid; border-color: #606060; border-width: 1px;max-width:100%;" title="" border=0></a></center>

В новом выпуске завершена работа по обеспечению возможности задействования нескольких серверов хранения метаданных MDT (Metadata Targets), выполненная при поддержке организации OpenSFS (http://www.opensfs.org/), основанной группой производителей кластерных систем, заинтересованных в развитии и независимой поддержке файловой системы Lustre. В частности, добавлена поддержка асинхронного подтверждения операций в распределённом пространстве имён (DNE, Distributed Namespace) с привлечением нескольких узлов MDT. Появилась поддержка функций удалённого переименования и удалённого управления жесткими ссылками.

Из других улучшений (http://wiki.lustre.org/Release_2.8.0) можно отметить поддержку SELinux в клиенте Lustre, улучшение производительности и эффективности выполнения четвёртой фазы проверки целостности ФС в утилите LFSCK, поддержку работы серверов и клиентов на системах с Red Hat Enterprise Linux 7.x, возможность выполнения клиентом операций множественного изменения метаданных из многопоточных приложений.

URL: http://lists.lustre.org/pipermail/lustre-discuss-lustre.org/...
Новость: http://www.opennet.me/opennews/art.shtml?num=44115

Содержание

Выпуск кластерной ФС Lustre 2.8,Аноним, 10:00 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,feem, 10:35 , 28-Мрт-16
  - Выпуск кластерной ФС Lustre 2.8,Аноним, 15:56 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,Аноним, 11:02 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,Аноним, 11:25 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,sabakka, 12:09 , 28-Мрт-16
  - Выпуск кластерной ФС Lustre 2.8,Аноним, 15:18 , 28-Мрт-16
Выпуск кластерной ФС Lustre 2.8,Аноним, 12:18 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,feem, 12:31 , 28-Мрт-16
  - Выпуск кластерной ФС Lustre 2.8,Аноним, 12:46 , 28-Мрт-16
    - Выпуск кластерной ФС Lustre 2.8,Аноним, 09:53 , 30-Мрт-16
  - Выпуск кластерной ФС Lustre 2.8,Аноним, 13:37 , 28-Мрт-16
    - Выпуск кластерной ФС Lustre 2.8,feem, 16:16 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,Stax, 14:20 , 28-Мрт-16
  - Выпуск кластерной ФС Lustre 2.8,le9i0nx, 15:49 , 28-Мрт-16
    - Выпуск кластерной ФС Lustre 2.8,Stax, 16:09 , 28-Мрт-16
      - Выпуск кластерной ФС Lustre 2.8,name, 18:01 , 28-Мрт-16
  - Выпуск кластерной ФС Lustre 2.8,Лютый жабист, 06:20 , 29-Мрт-16
    - Выпуск кластерной ФС Lustre 2.8,Stax, 15:10 , 29-Мрт-16
      - Выпуск кластерной ФС Lustre 2.8,Аноним, 12:47 , 01-Апр-16
  - Выпуск кластерной ФС Lustre 2.8,Аноним, 14:00 , 30-Мрт-16
    - Выпуск кластерной ФС Lustre 2.8,Stax, 22:26 , 30-Мрт-16
      - Выпуск кластерной ФС Lustre 2.8,Аноним, 12:48 , 01-Апр-16
Выпуск кластерной ФС Lustre 2.8,Аноним, 15:17 , 28-Мрт-16
- Выпуск кластерной ФС Lustre 2.8,Anonymous7, 20:39 , 28-Мрт-16
Выпуск кластерной ФС Lustre 2.8,Аноним, 12:00 , 29-Мрт-16

Сообщения в этом обсуждении

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 10:00

Для хранения мелких файлов подходит?

"Выпуск кластерной ФС Lustre 2.8"
Отправлено feem , 28-Мрт-16 10:35

Толсто

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 15:56

"толсто" устарело как и "баян"

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 11:02

А у вас больше тысячи нод?

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 11:25

Звучит как "какой компьютер из TOP500 лучше всего подходит для сидения вконтактике?"

"Выпуск кластерной ФС Lustre 2.8"
Отправлено sabakka , 28-Мрт-16 12:09

> Для хранения мелких файлов подходит?
канешн, в all-flash конфигурации ;)

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 15:18

в all flash? это по новой методичке от Интела ?:)

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 12:18

Я почему спросил, например cephfs ещё сырая и для хранения мелких файлов не подходит, как и файлов вообще.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено feem , 28-Мрт-16 12:31

ceph то как раз из всех открытых кластерных систем одна из самых стабильных и более менее все хорошо с производительностью(хотя люстра конечно побыстрее будет). Очень много коммерческих решений сейчас на ней делают компании.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 12:46

suse коммерческие решения на btrfs продаёт, но почему-то пользоваться тем бртфсом дураков мало находится

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 30-Мрт-16 09:53

> мало находится
Благодаря фэйсбуку btrfsом пользуется вся планета.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 13:37

я не про ceph, а cephfs - задача хранить множество мелких ts файлов для hls.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено feem , 28-Мрт-16 16:16

вы сами то поняли что написали

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Stax , 28-Мрт-16 14:20

Пользуясь случаем, тоже спрошу у местных экспертов. Похожая задача, мелкие/средние файлы (от нуля байт до 20 мб, полный разброс); сотни миллионов, в день возникают десятки/сотни тысяч новых, все нужно считывать (+ регулярно считывать старые). Доступ на запись через REST API, на чтение крайне желательно через NFS, но на крайняк REST API покатит (особенности кэширования - файл обычно считывается несколько раз в течении короткого времени, кэширование NFS в ОС работает лучше, чем webdav+squid для кэширования). Файлы (в случае успешной запси) более никогда не модифицируются.
Ну, типичные требования - чтобы непрерывно держало нагрузку без простоев, несколько реплик от потери данных, эффективная off-site репликация/бэкап (чтобы быстро понимало, какие изменения переслать, а-ля zfs send). Чудес производительности не требуется, типичная нагрузка сейчас 20-30 Мб/с (но практически постоянно). Требования корректности (ответить "на живых репликах объекта нет" в крайнем случае можно, вернуть объект с битыми данными нельзя).
Пробовали cephfs (с раздачей по nfs), не понравилось, в первую очередь восстановление при проблемах с нодами/сетью. Много различных неприятных эффектов, пришлось отказаться. Желательно что-то такое, что даже при временном отделении нод друг от друга с последующим соединением не побьет данные и не потребует трудоемкого восстановления с простоем.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено le9i0nx , 28-Мрт-16 15:49

CEPH S3 как вариант
http://docs.ceph.com/docs/master/radosgw/s3/

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Stax , 28-Мрт-16 16:09

Гмм а он будет легче в плане восстановления?
Сейчас уточнил, у нас был не cephfs, а ceph block device + xfs на нем + nfs на чтение (там, где писали была возможность подключить этот block device, а вот там, где читают - возможности нет).
Еще желательно сжатие. Файлы сжимаются хорошо (zfs сейчас показывает коэффициент 2.44). ceph требует исключительно btrfs в качестве фс под ним для сжатия, так? Но btrfs это свои глюки - пробовали с ним, очень быстро пришлось поменять на xfs.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено name , 28-Мрт-16 18:01

Странно, в вашем случае именно RadosGW и нужен. использовать Ceph+RBD+xfs+nfs как-то странно
про сжатие, что мешает сделать это на фронт-енде
https://www.hastexo.com/resources/hints-and-kinks/hosting-we.../

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Лютый жабист , 29-Мрт-16 06:20

А зачем для этой задачи ФС? Просто складывать в NOSQL (Cassandra самая лютая, но можно и MongoDB).

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Stax , 29-Мрт-16 15:10

Эти слова бесконечно далеки от конечного решения. Во-первых, с Cassandra связываться не будем - под такую нагрузку внедрять подобный NoSQL можно только вместе с людьми, которые будут его поддерживать. Mongo тут вообще не в тему - она не соответствует исходным требованиям, если их внимательно прочесть.
Есть Hadoop и Hbase, но в голом виде их использовать также нельзя. Во-первых хранить много мелких объектов раздельно как "файлы" на Hadoop нельзя, он для этого не предназначен. Нужно их объединять группами в архивы и прочее, там свои заморочки. Т.к. файлы должны размазываться равномерно, архивы нужно постоянно менять, могут выплыть заморочки. Мы плотно работаем с HBase и хорошо представляем, сколько неприятностей кроется, если идти по этому пути :) Решаемых, но время, время...
В HBase класть так просто тоже не выйдет. Слишком неравномерный размер объектов, слишком большой разброс. См. https://www.quora.com/Is-HBase-appropriate-for-indexed-blob-... и еще https://issues.apache.org/jira/browse/HBASE-11339
Hadoop/Hbase это такие штуки, которые могут начать себя КРАЙНЕ плохо вести, если с ними делать неправильные вещи. Поэтому делать что попало не стоит.
Вообще какая-то прослойка над Hadoop - это вероятное решение, но пока неясно, какая именно и что проще внедрить.
Решения с POSIX layer, при всем оверхеде, которые они несут, привлекательны тем, что строго разделяют проблемы самого хранения от проблем его использования. Т.к. с последним уже все отлажено, все проблемы, которые могут возникнуть - проблемы самого хранилища.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 01-Апр-16 12:47

> с Cassandra связываться не будем
т.е., scylladb тоже не катит?

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 30-Мрт-16 14:00

мб, это http://leo-project.net/leofs/ ?

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Stax , 30-Мрт-16 22:26

Любопытно :)
Выглядит вкусно, eventual consistency, конечно, штука опасная, но в этом конкретном случае проблем не представляет.
Спасибо, посмотрим.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 01-Апр-16 12:48

Ещё glusterfs есть, но когда я его щупал (очень давно), это был лютый глючный пц, м.б. после перехода к rh его допилили до чего-то пристойного.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 28-Мрт-16 15:17

Хоть бы картинку новую вставили. А то так и позорятся с рисунком времен 1.4

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Anonymous7 , 28-Мрт-16 20:39

Мысленно дорисуй еще парочку MDS.

"Выпуск кластерной ФС Lustre 2.8"
Отправлено Аноним , 29-Мрт-16 12:00

> Из других улучшений можно отметить поддержку SELinux в клиенте Lustre
Такое улучшение что клиент может поймать deadlock, причем Intel это не волнует.

> улучшение производительности
Тесты показывают падение производительности по сравнению с 2.5
> и эффективности выполнения четвёртой фазы проверки целостности ФС в утилите LFSCK,
Уже перестала ловить deadlock на OSS ?
> поддержку работы серверов и клиентов на системах с Red Hat Enterprise Linux 7.x,
Зашибись - но 7.x был с времен 2.6.
> возможность выполнения клиентом операций множественного изменения метаданных из многопоточных приложений.
Спорное улучшение - хорошо работает когда у тебя MDT не догружен, плохо когда работает когда клиентов много. Требует очень много памяти на recovery. Если раньше можно было в 12G уложиться - теперь на сервера меньше 64G ставить смысла нету.
Хвала Интел!