Компания-поставщик облачных решений Joyent (http://www.joyent.com) открыла (http://www.joyent.com/2011/08/joyent-announces-smartos-with-.../) исходные коды новой ОС для облачных вычислений SmartOS (http://smartos.org), сочетающей в себе такие технологии как файловая система ZFS, механизм динамической отладки DTrace, механизм виртуализации уровня ОС Solaris Zones и гипервизор для запуска виртуальных машин KVM. Система должна составить конкуренцию аналогичным решениям от компаний VMWare, Red Hat, Citrix и Microsoft.SmartOS представляет собой операционную систему, основанную на ядре illumos (https://www.illumos.org), форке ядра OpenSolaris, созданном сообществом разработчиков после поглощения Sun компанией Oracle. В состав SmartOS также включен набор инструментов уровня пользователя от сообщества GNU и система управления пакетами pkgsrc, разработанная сообществом NetBSD. Специально для SmartOS для ядра OpenSolaris/illumos был портирован гиперв...
URL: http://www.joyent.com/2011/08/joyent-announces-smartos-with-.../
Новость: http://www.opennet.me/opennews/art.shtml?num=31516
Вот, глядишь, толковый конкурент линуксу нарисуется, в отличие от разнообразных BSD с миниксами. Что было бы очень неплохо, конечно - на серверах линукс чувствует себя слишком уж спокойно, а развитию сие не способствует.
Во-во. Сколько уже btrfs и LXC пилят-пилят, все никак допилить не могут. Надо бы этим хлопцам перца под хвост.А проект получается интересный. Надеюсь, не заглохнет.
Кстати, хорошо, что CDDL тоже копилефт, а то ведь могли так сорцов и не увидеть.
а btrfs и не допилят
> а btrfs и не допилятОткуда дровишки?
Его Оракл пилил как альтернативу ZFS. А после покупки Санок он им уже нахер не нуже -- есть свой кошерный ZFS.
>Его Оракл пилил как альтернативу ZFS. А после покупки Санок он им уже нахер не нуже -- есть свой кошерный ZFS.Вы так говорите, как будто btrfs развивается исключительно ораклом и никому кроме него не нужна.
оракл пилил (и пилит) бтр как подложку для своих решений, для которых кстати zfs не подходит чуть более чем полностью.
именно поэтому бтр сделали экстентной, за что его кстати и критиковали по началу, потому что не верили, что из этого что-то выйдет.
но алгоритм получился как ни странно эффективным.в общем у бтр гораздо больше шансов не только выйти (и "обогнать"), но портироваться в солярку на спарки.
(лениво) а ZFS и портироваться не надо...А если всерьёз - то это тоже случай, когда конкуренция явно на пользу. Тем более, что и ZFS, и btrfs сейчас, в общем-то, не сдохнут и без Оракла.
>(лениво)да похрену как.
>а ZFS и портироваться не надо...да она вообще не нужна. ораклу от неё ни копья и даже вставить не куда.
ни в эксадату, ни в люстру...
это санки позиционировались совсем в другой сегмент, а ораклу это нинать.>Тем более, что и ZFS, и btrfs сейчас, в общем-то, не сдохнут и без Оракла.
верно конечно.
Но я говорил именно о применяемых технологиях. бтр - экстентная фс. А эта плюшка уж очень интересна сама по себе и для оракла, и для пользователей (меня например, чтобы не обобщать)
А что экстенты дают, собственно?
для оракла?
Их субд выделяет табличное пространство экстентами, следовательно они могут этот код переложить на уровень ядра, а не дублировать в юзерспейсе.
А для меня - вся фс основана на деревьях. Грубо говоря - ваша фс не просто проиндексирована, там только индексы объектов и есть. Подробнее -
https://btrfs.wiki.kernel.org/index.php/Trees
зыж
подчеркну - объекты.
Как это может использоваться:
>Ceph — распределённая сетевая файловая система.
>Object storage devices (OSDs) which actually store the content of files. Ideally, OSDs store their data on a local btrfs filesystem, though other local filesystems can be used instead.http://en.wikipedia.org/wiki/Ceph
в общем потенциал огромен.
В отличие от zfs, которую так и не смогли скрестить с люстрой.
> В отличие от zfs, которую так и не смогли скрестить с люстрой.С чего это вы взяли?
ZFS вполне удачно скрестили с Люстрой, когда её DMU был user-mode. Теперь DMU у Люстры -- kernel-mode, ща допилят и её.
Но это для 2.0, конечно. Подробнее -- здесь: http://wiki.lustre.org/index.php/ZFS_and_Lustre
когда ща?
ваш пруф протух и не менялся гораздо раньше этого:
>Приостановка активности Oracle, связанной с кластерной ФС Lustreда и подобные комменты вы писали минимум год назад (могли бы не утруждаться и давть на них ссылки).
http://www.opennet.me/opennews/art.shtml?num=29237
а до 2.0, не смешите меня - эта аббревиатура начинается со слова linux не просто так.
> Приостановка активности Oracle, связанной с кластерной ФС LustreЭто вы очень хороший пруф привели. Спасибо вам за него большое.
Как видите, приостановка участия Oracle в чём бы то ни было не влечёт особенных проблем. Не верите? Почитайте текст новости, которую комментируете. :)))
> а до 2.0, не смешите меня - эта аббревиатура начинается со слова linux не просто так.
Много что начинается со слова "Linux". Мы прощаем Линуксоидам их ЧСВ -- пусть пихают, куда хотят.
мисье не осилил гугл?
ну простим ему.. простим.. стареет.
и видит только то что хочет видеть.
Открой глаза мисье!
http://www.olcf.ornl.gov/wp-content/events/lug2011/4-13-2011...ну а дальше
http://www.google.ru/search?ls=en&q=whamcloud+lustre+zfsсобственно lustre on zfs это один из проектов Whamcloud.
RTFM однако.
> А что экстенты дают, собственно?Возможность вынести большой кусок файла в сторону, описав выносок компактной и эффективной в обработке структурой. Кстати это вполне хорошо вписывается и в логику CoW, как раз. Ну а блочные ФС - педалят метаданные на каждый блок относительно небольшого размера (в zfs максимум 128Кб). Что и обеспечивает их тормознутость. У больших файлов - много блоков. Значит придется лопатить много метаданных. А это будет медленно (какая неожиданность).
zfs это btrfs это совершенно разные технологии, zfs не совсем хорошо подходит для баз данных для которых и делается btrfs, zfs больше подходит для высоконадежных хранилищ с гибким управлением ресурсами
> для высоконадежных хранилищ с гибким управлением ресурсамиФикус в том что btrfs это тоже сможет. Там все для этого есть.
Месье это сам проверял или Рабинович напел? ZFS прекрасно подходит под БД. ZFS - экстентная ФС. ZFS _настраивается_ (слыхал такое слово, анон?) под ЛЮБЫЕ задачи - если представляешь себе, как вообще работает ФС.К слову, на Экзадатах-2 используется именно ZFS. ВНЕЗАПНО так.
> ZFS - экстентная ФС.По факту то что там есть - всего лишь блоки переменного размера, максимум 128К. В нормальных реализациях именно экстентов, максимальный размер куска-экстента намного больше. Что и повышает эффективность: маленький кусочек метаданных может описывать большой кусок файла, что снижает накладные расходы на метаданные и работу с ними. А с блоками приходится лопатить метаданные для каждого блока, а блоков - много. Поэтому блочные ФС тормозные. ZFS - блочный переросток, не более.
btrfs используется в Meego для быстрого восстановления настроек и проч - простым копированием snapshot-a файловой системы. Так что там как минимум еще Интел/Нокия заинтересованы...
> btrfs используется в Meego для быстрого восстановления настроек и проч - простым
> копированием snapshot-a файловой системы. Так что там как минимум еще Интел/Нокия
> заинтересованы...нокия уже заинтересована только в продуктах дяди билли.
ну если во FreeBSD получится перенести этот порт kvm, то чем не конкурент будет:) интересно, насколько реально портировать? если в солярку перетащили, значит не настолько kvm и линуксизированный, как говорили многие.
> ну если во FreeBSD получится перенести этот порт kvm, то чем не
> конкурент будет:) интересно, насколько реально портировать? если в солярку перетащили,
> значит не настолько kvm и линуксизированный, как говорили многие.здрасьте, четыре года как уж: http://wiki.freebsd.org/FabioChecconi/PortingLinuxKVMToFreeBSD
>> ну если во FreeBSD получится перенести этот порт kvm, то чем не
>> конкурент будет:) интересно, насколько реально портировать? если в солярку перетащили,
>> значит не настолько kvm и линуксизированный, как говорили многие.
> здрасьте, четыре года как уж: http://wiki.freebsd.org/FabioChecconi/PortingLinuxKVMToFreeBSDну, статус проекта пока еще очень далек до чего-то стабильного. Может быть порт на солярис чем-то делу поможет:)
линуксу еще расти и расти до конкуренции с солярисом, лет 15 форы у последнего есть
> линуксу еще расти и расти до конкуренции с солярисом, лет 15 форы у последнего естьА линукс в курсе? :)
ну и как они могут изначально CDDL код лицензировать под GPL?
>ну и как они могут изначально CDDL код лицензировать под GPL?Не тупите. CDDL - ведро, GPL - окружение. Не нужно ничего перелицензировать.
А разве KVM был изначально под CDDL?
> А разве KVM был изначально под CDDL?А он наверняка поставляется отдельным модулем, как ZFS для Linux.
>> А разве KVM был изначально под CDDL?
> А он наверняка поставляется отдельным модулем, как ZFS для Linux....""Joyent kernel internals veteran Max Bruning [...] copied the KVM bits from the stable Linux 2.6.34 source""...
Малацы же! ...или нет?
---
И ещё "они" ж, вроде, в этих своих зонах Win* уже запускали. Или я всё перепутал?
в зонах даже не все линуксы идут, а недавно вообще выкинули эту поддержку (или я что-то напутал?). Винда и подавно в зонах работать не будет.
> в зонах даже не все линуксы идут, а недавно вообще выкинули эту
> поддержку (или я что-то напутал?). Винда и подавно в зонах работать
> не будет.Как в зонах могут идти ВСЕ линуксы, если ABI у них РАЗНЫЙ? В зонах работал и работает (да, ты напутал - и конкретно, видно, что сам ты с этим не работал, а только читал). Что до винды - не зарекайся, а? Sun имел WABI - Windows Binary Application Interface - задолго до выхода чикаки. Сюрприз, а? И винду 3.11 можно было виртуально крутить в солярисе.
А в солярке ядро принципиально модульное; zfs там тоже отдельным модулем. И драйверы сетевух и разных контроллеров от производителей тоже такими же модулями, независимо от лицензии. Так что не думаю, что есть лицензионные проблемы с тем, что один из дополнительных модулей под gpl; если его исходники не объединены с исходниками остального ядра, то все нормально.У линукса есть лицензионная проблема с импортом zfs из-за того, что в ветку основного ядра его не затащишь - а в солярке и тащить никуда не надо, сидит себе отдельно под GPL и никаких проблем.
А у KVM'а порт даже под винду был :) Правда не знаю, допилили до юзабельности или нет.
> А у KVM'а порт даже под винду был :) Правда не знаю,
> допилили до юзабельности или нет.С таким апстримом-то? Академики-студенты запустили какой-нибудь hello world, потом забросили этот ужос и забухали на радостях [что забросили].
Если был бы LGPL, то да, проблем быть не должно. А просто GPL подкидывает много гемора
А енто заинсталлить можно? Выглядит интересно, давно хочу с дебиана на солярку перейти. Точнее на иллюмос.
Вы уж определитесь, с линукса Вы переходите на иллюмос или с дебиана на смартос)
ну illumos же вроде как только ядро?
Ладно, я имел ввиду установить SmartOS. Хотя я так понимаю можно поставить OpenIndiana, поставить dtrace / kvm и получить то же самое?
>ну illumos же вроде как только ядро?И linux тоже только ядро.
>Ладно, я имел ввиду установить SmartOS. Хотя я так понимаю можно поставить OpenIndiana, поставить dtrace / kvm и получить то же самое?Не то же самое. В SmartOS, похоже, нет графического интерфейса.
> А енто заинсталлить можно? Выглядит интересно, давно хочу с дебиана на солярку
> перейти. Точнее на иллюмос.Если хочется apt-а, то лучше на Nexent-у.
Там .deb и apt.
> Там .deb и apt.Только пакеты древние как окаменелости мамонта. "Маленькое" отличие. От других.
>ZFS позволяет отказаться использования выделенного SANэто как так?
>>ZFS позволяет отказаться использования выделенного SAN
> это как так?В солярке есть COMSTAR-провайдер с zvol-бэкендами (предоставляемыми ZFS томами) - высокопроизводительный target для iSCSI, FC и FCoE, реализующий в общем-то все, что может хотеться от хорошей SAN железки.
и что? это отменяет физический уровень - iSCSI, FC и FCoE?
да и винты таки где-то располагать нужно. не к стенке же скотчем лепить.
Ну и складывая эти 2+2 получаешь отличный маркетинг - если где и сэкономишь, то только на встроенном рэйде этих хранилищь, но потратишься на доп.память/процы/лицензии для зфс.
а да:
>В солярке есть COMSTAR-провайдер с zvol-бэкендами (предоставляемыми ZFS томами) - высокопроизводительный target для iSCSI, FC и FCoEв большой солярке от оракла её пока нет. другими словами, на сколько это всё "высокопроизводительный" и "надёжный" - бабка вилами по воде.
Тут вон нжинкс до сих пор рекомендуют на зфс для отчаянных. а ведь это всего-лишь веб-сервант!
> а да:
>>В солярке есть COMSTAR-провайдер с zvol-бэкендами (предоставляемыми ZFS томами) - высокопроизводительный target для iSCSI, FC и FCoE
> в большой солярке от оракла её пока нет. другими словами, на сколько
> это всё "высокопроизводительный" и "надёжный" - бабка вилами по воде.
> Тут вон нжинкс до сих пор рекомендуют на зфс для отчаянных. а
> ведь это всего-лишь веб-сервант!На ЗФС под БЗД. Есть существенная разница между нативной ПРОДУКТИВНОЙ зфс на соляре и ее портом на БЗД. Смекаешь?
Illumos и - лицензии для зфс? Я чего-то не понимаю?
нексентастор - ограничение в 16Тб.
Не слышали?
А сабж - ещё посмотреть надо. там может без поддержки вообще в комерции использовать и низя, и не разумно.
> нексентастор - ограничение в 16Тб.
> Не слышали?
> А сабж - ещё посмотреть надо. там может без поддержки вообще в
> комерции использовать и низя, и не разумно.Без поддержки использовать в коммерции ничего не разумно. Включая линаксы. Никакая цена "БЕСПЛАТНО" не окупает рисков. Чью шкурку прибьют к стене гвоздями 100 в случае потери БД? Красноглазого нищеброда?
> в случае потери БД? Красноглазого нищеброда?Ну если нищеброд не делал бэкапы и у него на ровном месте пропадают БД - за дело прибьют, значит. Одним криворучкой меньше :). При том можно подумать что если заплатить за саппорт то это решит все проблемы с тупыми и криворукими локальными админами.
В смысле, физический уровень? Нет, вы втыкаете в сервер с соляркой хорошую ethernet карту для iscsi, FC-HBA для FC и соответствующую железку и свитчи для FCoE. И раздаете по ним через COMSTAR, для всех остальных ваш сервер с соляркой - такой замечательный SAN.По деньгам это весьма выгодно. На минуточку, кто из производителей SAN-железок предоставляет эффективный гибридный сторейжд (с кэшем из нескольких SSD) + кэшем в памяти, скажем, на 96 или 192 гига? И сколько стоит такое решение от тех, кто такое предоставляет? Или вы хотите сравнивать эту железку с примитивной корзинкой для ЖД с ethernet/iscsi и FC портами - а вы представляете разницу в IOPS'ах под большой долговременной загрузкой между этими решениями? Она там на порядок будет.
(а по цене, посмотрите на цену гигабайта дополнительной оперативки или SSD-кэша у EMC, скажем - это одна из немногих компаний, которая предоставляет такие решения. Прикиньте, во что вам обойдется дополнительный гигабайт оперативки или SSD для солярис-решения, и вопрос о цене отпадет)
А в SAN на базе солярки это у вас будет. И работать будет очень быстро и хорошо, а благодаря zfs-бэкенду - еще и очень надежно.
>В смысле, физический уровень? Нет, вы втыкаете в сервер с соляркой хорошую ethernet карту для iscsi, FC-HBA для FCb получаете скорость не соизмеримую с FC.
к говорится, ваш К.О.
Вы получаете отличную производительность и по IOPS, и по пропускной способности, если сама система настроена нормально и правильно и у вас хорошая карточка FC 4G или 8G. С 2G будут проблемы, да.А К.О. лучше бы приводил цифры или пруфлинки, если какой-то эксперимент вдруг показал скорость, недостойную FC.
Или, по вашему, в SAN-массиве FC карта богами сделана? Уверяю вас, там точно такая же карточка с таким же чипом и такими же шинами к ней, как та, что вы можете поставить в сервак.
>если сама система настроена нормально и правильно и у вас хорошая карточка FC 4G или 8G. С 2G будут проблемы, да.ну если FС, то вопрос - а винты вы как подключать будете?
каробка аднака нужна. свитчи опять же.
ах да, в коробке может не быть аппаратного рэйда - это да. Но сама коробка должна иметь отказоустойчивость? Если да, то + 2 БП + УПС. А архивироваться? Если да, то....И в результате получается, что экономим только на встроенном рэйде и... и всё.
Но тут же докупаем память/цпу/лизензии в основной сервант, потому что теперь он это берёт на свои плечи.
Результат - платишь примерно то же самое, но теперь другому вендору.
И об этом я как раз и писал.
*устало* прочтите выше. Если вы считаете каждую копейку, FC это не для вас, и солярка вас тут не спасет (хотя iSCSI дешевле). А если вы вкладываете денег, то решение на базе соляриса позволяет иметь большой ARC кэш в оперативке и огромный SSD кэш второго уровня (гибридное хранилище), позволяя иметь колоссальные IOPS'ы для 90% данных, с которыми идет работа в решении за $10k, а не $50k и выше, сколько будет вам стоить решение от "больших" производителей SAN с такими же кэшами для достижения такого уровня IOPS.Насчет "платишь примерно то же самое" - я вам написал выше, что нужно гуглить. Так и быть, приведу один пример: http://blog.zorinaq.com/?e=37 стоимость solid-state кэширующего модуля на 256 Гб для Netapp - $40,000. Также можете выяснить, сколько стоит добавить 32 Гб RAM для кэша в Netapp или EMC (и сколько стоят модели, поддерживающие такие расширения). Не стесняйтесь, погуглите :)
Если вас устраивает производительность пачки винчестеров в рейде, я рад за вас. Но поверьте, есть очень много задач, где требуется, чтобы диск работал "быстрее, быстрее, намного быстрее". И тут многоуровневые кэши - просто спасение. И вот когда это "быстрее, очень быстро" нужно позарез, а $200k нет, есть только $20k, вспоминаешь о том, что на солярисе можно сделать очень неплохой SAN.
>*устало* прочтите выше. Если вы считаете каждую копейку, FC это не для вас,о чём и речь *не менее устало*
> и солярка вас тут не спасет (хотя iSCSI дешевле). А если вы вкладываете денег, то решение на базе соляриса позволяет иметь большой ARC кэш в оперативке и огромный SSD кэш второго уровня (гибридное хранилище)...1) у меня аппаратный рэйд построен на 4-х ядерном ксеоне, так что....
2) лично проводил тест тсп-си/би тд - никакого прироста ссд не дала, более того, заметно сократилась производительность.
3) ткните пальцем в zfs в оракловой эксадате.
Зыж
> позволяя иметь колоссальные IOPS'ы для 90% данных, с которыми идет работа в решении за $10k, а не $50k и выше, сколько будет вам стоить решение от "больших" производителей SAN с такими же кэшами для достижения такого уровня IOPS.а вот и терминология - "колоссальные", а вот и копейки "$10k, а не $50k и выше".
и всё - сплошь маркетинг, ибо и не колоссальные и не 10-50к, а 40-50к. и это - в лучшем случае, потому что вся инфраструктура - таже, и "32 Гб RAM для кэша в Netapp" не играет и половину своей роли, когда чекпоинты (читать фсинк) каждые 3с принудительно и тд, и тп.
SSD не даст прирост моментально. Прирост будет по мере работы, накопления статистики и увеличения эффективности кэша.Вот вам картинка http://www.zfsbuild.com/2010/07/30/testing-the-l2arc/ - несколько часов под интенсивным бенчмарком; в реальной жизни эффект от SSD может проявиться через несколько дней работы.
Насчет чекпоинтов - почитайте про zil writeback cache, если вы возьмете массив SSD (массив желательно, т.к. скорость общей записи в систему будет ограничен скоростью записи на это устройство, одиночные SSD могут не устроить, плюс тут почти обязателен рейд-зеркало, требуется высокая надежность) - весь записываемый поток данных будет проходить через него и по мере разгребания сбрасываться на диски, и fsync не будет обязан доходить до винчестеров, если данные сохранены на SSD - им оттуда пропасть некуда. Хотя не в любой задаче это нужно - немало где записываемых данных не так много, чтобы страдать из-за фсинков, все эти кэши (в памяти, и L2ARC на SSD) нужны для IOPS'ов при чтении. Для записи кэширование нужно только по минимуму, сверх этого эффекта от него не будет.
>SSD не даст прирост моментально. Прирост будет по мере работы, накопления статистики и увеличения эффективности кэша.полный тест тсп-си шёл всю ночь.
Я не знаю, что этот тест делает. Если TCP-C упирается в коммиты транзакций, от кэширующего SSD L2ARC будет мало проку, нужны хорошие SSD в zil writeback cache.На тесте, который упирается в read IOPS, вы будете видеть эффект производительности, если есть основная выборка, с которой идет работа, которая по размерам сравнима с RAM + L2ARC SSD (меньше или не сильно больше). Если все правильно, IOPS'ы вырастут на порядок. Оценить, хватает ли емкости ARC-кэша можно наблюдая за статистикой ghost'ов. Это если вкратце, а вообще в деталях нужно смотреть.
О чем и речь.
А когда я делаю рэйд из 30 витов, то скорость этого рэйда больше скорости ссд.
да и кэш в железке 32 гига.
И разница с этим рэйдом и без < 10к
Вот так-то
> если сама система настроена нормально и правильноТак вот ты какой, энтерпрайзный слакваризм...
EMC покупают ещё и за то, что можно поменять одно на другое без местного колдуна, и за то, что зуб дают. Затем тихо ненавидят за расценки на подходящие сменные диски ;-)
Ну зачем же сразу так, слакваризм. Есть Sun Storagetek :) В котором все из коробки или настраивается/диагностируется "красиво". Просят всего ничего, $50k за железку, которую отдельно можно за $10-15k собрать :) Все равно дешевле, чем EMC и NetApp с такими же кэшами для получения аналогичных IOPS.. $40k за платку с SSD, ха..
Серьезная заявка. Надо пощупать
KVM пилится в основном RedHat-ом и ДЛЯ ядра линукс. Все это- какой-то там illumos с KVM не более чем игрушка, которая работает на двух с половиной хостах.