Компания Яндекс, с целью привлечения внимания к своим открытым проектам, начала (http://clubs.ya.ru/company/replies.xml?item_no=30753) наполнение в сервисе GitHub группы репозиториев Yandex-OpenSource (https://github.com/yandex-opensource). По утверждению представителя Яндекс, в компании развивается много открытых приложений, библиотек и готовых решений, которые как правило остаются в тени и особо не афишируются. Теперь, подобные проекты будут постепенно переноситься в репозитории GitHub и их можно будет окинуть взглядом через группу Yandex-OpenSource (https://github.com/yandex-opensource).
В настоящее время в GitHub перенесены следующие проекты:- PIRE (https://github.com/dprokoptsev/pire) (Perl Incompatible Regular Expressions) - библиотека с реализацией регулярных выражений, оптимизированных для выполнения большого числа проверок для огромных объемов текста. Код PIRE был разработан для поискового робота и отличается очень высокой производительностью. Библиотека также пре...
URL: http://clubs.ya.ru/company/replies.xml?item_no=30753
Новость: http://www.opennet.me/opennews/art.shtml?num=28625
Интересно было бы PIRE поковырять. Но откуда ж на все время взять.. :(
У тя диск такой есть? Чтоб читал со скоростью 756,32 МБ/сек?
ZFS стрип на 3 обычных SATA дисков с lzjb компрессией на текстовых данных столько примерно и даёт.
> ZFS стрип на 3 обычных SATA дисков с lzjb компрессией на текстовых
> данных столько примерно и даёт.Куда он даёт!!!
SATA на блинах, пусть даже на 10.000 rpm ну максимум 120Мб/с,
да хрен сними, пускай будет даже 200 Мб/с. :)
Ну и допустим, что есть у тебя идеальное, которого не может быть,
распаралеливание 3-х потоков по 200Мб/с. это всего 600Мб/с.Так что пальцы тут не надо гнуть - ZFS-стрип, lzjb, ..., FreeBSD забыл дописать. :)
SAS/SASII via FiberChanel - тогда поговорим.
Ну ладно, так уж и быть RAID из SSD
Вы еще забыли компрессию текстовых данных. Логи так вообще раз в 10 ужимаются как минимум, итого получаем 1200 Мб/с с одного диска
> Вы еще забыли компрессию текстовых данных. Логи так вообще раз в 10
> ужимаются как минимум, итого получаем 1200 Мб/с с одного дискаБлин, ну вы выжимали такие скорости?
Именно от, ну например, cat file | sed -e 'blah-blah-blah'.
А то Яндых напишет, а доступ к файлу будет занимать 2 секунды,
зато когда откроет, закэширует что можно и пустит в канал,
тогда да, выходим на терабайт в сек, а при повторном обращении к
кэшу, улетим до двух терабаб.
pavlinux, ты ограничен в воображении, серьезно.
Те скорости которые описаны - это скорости прогона в оперативной памяти.
С какой скоростью, и главное откуда! ты запихаешь данные в оперативку, это сугубо твое личное дело.
> Именно от, ну например, cat file | sed -e 'blah-blah-blah'.Да, именно оттуда.
http://ru.wikipedia.org/wiki/RAID
RAID 0 - не?
> http://ru.wikipedia.org/wiki/RAID
> RAID 0 - не?Оно. Только увеличение скорости не пропорционально увеличению количества дисков.
> Оно. Только увеличение скорости не пропорционально увеличению количества дисков.На нормальных системах пропорциональное, пока контроллер и шина справляются.
(не) уважаемый. 24 SSD от самсунга в RAID0 дают более 2 гигабайт в секунду.
учите матчасть.З.Ы. учитывая, что вы - фома неверующий, рекомендую поискать в инете соответствующую видюху, где наглядно это показано.
З.З.Ы. Сссыль в студию? - гуглите сами.
> SATA на блинах, пусть даже на 10.000 rpm ну максимум 120Мб/с,
> да хрен сними, пускай будет даже 200 Мб/с. :)
> Ну и допустим, что есть у тебя идеальное, которого не может быть,
> распаралеливание 3-х потоков по 200Мб/с. это всего 600Мб/с.Да, 120 MB/s один диск, три ~350.
> Так что пальцы тут не надо гнуть - ZFS-стрип, lzjb, ...,
> FreeBSD забыл дописать. :)Разумеется FreeBSD, еще б я серьёзные вещи на ляликсе поднимал :))
Так вот - читай внимательнее, умник. После декомпрессии 350MB/s с дисков превращаются во вполне себе 700-750MB/s поток (при этом cpu загружен на 20% максимум). Если бы мне его надо было погрепать, pire бы идеально подошел.
> SAS/SASII via FiberChanel - тогда поговорим.
> Ну ладно, так уж и быть RAID из SSDSSD не всегда быстрее по пропускной способности. У них просто seek'ов нет.
А что, данные теперь можно только с дисков читать?
В тексте очепятка: тестовый файл не 500Гб, а 500Мб, тест mmap()-ит этот файл и прогоняется по нему несколько раз. За первый прогон файл оказывается закешированным в памяти и после этого скорость не зависит от дисков, только от частоты скорости процессора и (в меньшей степени) пропускной способности памяти. Вот тогда достигается 750Мб/c.
Молодцы Яндекс! Всегда в них верил.
Да, mirror.yandex.ru и почта у них рулят в рунете. Недавно перевёл на Яндекс свой E-mail, с mail.ru, просто чёрное и белое. Надо было сразу на Яндексе создавать.
> Да, mirror.yandex.ru и почта у них рулят в рунете. Недавно перевёл на
> Яндекс свой E-mail, с mail.ru, просто чёрное и белое. Надо было
> сразу на Яндексе создавать.Я это понял еще 6 лет назад.
Сейчас мало что изменилось у mail.ru (у меня там есть доп. рабочий ящик ради уведомлений по смс).
> Да, mirror.yandex.ruЭто да, главное тем что по IPv6 доступно.
> и почта у них рулят в рунете
Ну халявная почта в принципе не может рулить, но для нищебродов свозможно.
> Ну халявная почта в принципе не может рулить, но для нищебродов свозможно.Это для пользователей халявная.
А для яндекса/мейла/гугля - очень даже не халявная.
Они вкладывают в почту/антиспам/антивирус/хранилище/итд столько денег, сколько не вкладывает другая компания для своей "платной корпоративной почты".
Сказать-то что хотел?
> Сказать-то что хотел?Бред говорите - так, понятно?)
Нет, не понятно. Сколько бы они в нее не вкладывали, она остаётся обычной халявной почтой, ничем не рулящей и от остальных не отличающейся.
> Нет, не понятно. Сколько бы они в нее не вкладывали, она остаётся
> обычной халявной почтой, ничем не рулящей и от остальных не отличающейся.Много вы платите за почтовый ящик на корпоративном почтовом сервере?)
Та же халявная почта.
PIRE супер! Рвет гугловый RE2 в несколько раз на простых регулярках.
Еще бы питоновские биндинги...
Ну а что мешает написать самому? :) Я уже подумываю о биндингах к D.
Хочется увидеть их замечательную систему мониторинга, про которую они так хорошо рассказали на Highload++. Хотя бы концепт: идея отличная.Обещали выложить.
а не zabbix ли там???Если да, то чего его ждать... zabbix.com.
> Хочется увидеть их замечательную систему мониторинга, про которую они так хорошо
> рассказали на Highload++. Хотя бы концепт: идея отличная.ахаха. эта замечательная система мониторинга называется Zabbix.
см. http://download.yandex.ru/company/experience/rit2008/highloa... .
Ванильный Zabbix это не система мониторинга, а сервер сбора и вывода информации, которым единственное что можно поглядеть это красивые графики нагрузки на камень, и увидеть что все плохо уже когда все плохо, т.н. пороговый мониторинг. Даже для того, чтобы мониторить более-менее сложную систему нужно воротить UserParameters.У яндекса был доклад о технике предупреждения аварии, фактически это будет просто набор скриптов, который по минимальной раскалибровке системы говорит "пороговому" Zabbix'у о том, что скоро придёт пушистый серверный зверёк. Так вот эти самые скрипты с фееричной техникой а-ля предупреждение землетресений и хотелось бы увидеть.
Заббикс у них стоит.
Ба, pire уже в портах фри.
> Ба, pire уже в портах фри.Дима (amdmi3@), а ты часом не 1 из девелоперов?:)
Правда уже в портах: http://www.freshports.org/devel/pire/
> Правда уже в портах: http://www.freshports.org/devel/pire/там не написано учавствовал ли Дима в этом проекте. порт сделать не сильно и сложно.
Нет, но это писали ребята из моего отдела.
> Нет, но это писали ребята из моего отдела.Вы работаете в Яндексе?
был приятно удивлен поддержкой маемо.
мне не стыдно за наш поисковик.
В чем поддержка Maemo?Они вон выложили яндекс-карты, а потом выпилили. :(
В преддверии внедрения "некошерного" Exchange'a в компании (увы и ах) особенно заинтересовало SMTP-proxy взамен того сервера-монстра что вырос из постфикса =)
> В преддверии внедрения "некошерного" Exchange'a в компании (увы и ах) особенно заинтересовало
> SMTP-proxy взамен того сервера-монстра что вырос из постфикса =)Монстра?! Уж что-то, а postfix никак не монстр - очень легковесный и гибкий MTA с понятным у удобным конфигом. У меня он на всех машинах стоит, в т.ч. на роутере с 16MB памяти и замечательно работает.
Теперь-то мне понятно что в АГС 17 и АГС 30 мочит нормальные сайты.
Какая, .... , разница сколько мегабайт в секунду ????
> Какая, .... , разница сколько мегабайт в секунду ????Вам может и никакой, а я видел вполне колоритные примеры где PCRE показал себя с лучшей стороны :). Особенно прикольно выглядит например в ирц сети на Unreal IRCD. Когда кто-то сильно умный из иркопов влупляет сложное правило для антиспама, а потом ... потом вся сетка с кучей серверов прикольно встает раком. Выглядит незабываемо - одной командой нагибается уйма машин :)
> Теперь-то мне понятно что в АГС 17 и АГС 30 мочит нормальные
> сайты.
> Какая, .... , разница сколько мегабайт в секунду ????Ха-ха, очередной разорённый сеошник? Поделом.
у меня друг недавно тут был на собеседовании в Яндекс (в головном офисе, что на улице Льва Толстого, что в районе м. Парк культуры). друг - Oracle DBA со стажем работы 4 года в телекоме, OCP, все дела.короче собеседование мой друган прошёл, но ему в результате предложили зарплату 60 тысяч (а он на тот момент уже получал 75, но решил посмотреть какие сейчас (по завершению кризиса) есть предложение на рынке и походить по собеседованиям).
на вопрос "А чего так мало?" ему ответили c предыханием что-то вроде "Зато вы будете раотать в Яндекс!". вообщем друган в итоге устроился в Альфа-банк. пока всем доволен (:
>[оверквотинг удален]
> офисе, что на улице Льва Толстого, что в районе м. Парк
> культуры). друг - Oracle DBA со стажем работы 4 года в
> телекоме, OCP, все дела.
> короче собеседование мой друган прошёл, но ему в результате предложили зарплату 60
> тысяч (а он на тот момент уже получал 75, но решил
> посмотреть какие сейчас (по завершению кризиса) есть предложение на рынке и
> походить по собеседованиям).
> на вопрос "А чего так мало?" ему ответили c предыханием что-то вроде
> "Зато вы будете раотать в Яндекс!". вообщем друган в итоге устроился
> в Альфа-банк. пока всем доволен (:Чтобы получать больше, надо наверное и знать что-нибудь побольше чем Oracle DBA, не?
Насколько мне известно, в Яндексе нужны многоплановые специалисты. И если Альфабанк готов выкидывать больше 75к за один Oracle это их дело.
работник яндекса детектед )
Oracle DBA со стажем 4 года и 60тыщ по-момоему несовместимые вещи. Да и по мнению рынка тоже. (hh.ru и т.п.)
> работник яндекса детектед )
> Oracle DBA со стажем 4 года и 60тыщ по-момоему несовместимые вещи. Да
> и по мнению рынка тоже. (hh.ru и т.п.)Что значит несовместимые? Как раз совместимые, и hh.ru как раз с этим согласен. А если кроме оракла человек действительно ничего не знает, то 60 это уже непомерно много, 40 максимум. Да и не думаю что в Яндексе oracle используют, все-таки компания серьёзная.
жостско ты их. :) и да, мне в стародавние начала 200х предлагали в майлру без всяких Oracle DBA на бОльшие деньги
Ваш друг вас наобманул. Для начала не бывает DBA с опытом работы 4 года и зарплатой всего в 75 тысяч. Ну и да, в яндексе все DBA получают значительно больше. Работал там 2 года, теперь уехал в США.
Бывает. За последние 5 лет люди поняли что на управляющие должности имеет смысл брать людей хоть немного шарящих в IT, если бизнес на это IT завязан - а им уже маркетоидную лапшу на уши не навешаешь. И базу будут выбирать по объективным критериям, а значит поделиям oracle ничего не светит. И уж тем более не светит тем, кто называет себя DBA, потому что DBA с опытом работы 4 года - значит админил две таблички в рогах и копытах, а потом больше бабла захотел. Если человеку платят больше 50круб, это DBA у него стоит где-то ближе к концу немаленького списка умений.
Скорее всего истина где-то рядом. DBA DBA рознь, не зависимо от опыта работы. Как и БД БД рознь.
А Phantom, про который рассказывали на YaC-2010, видимо, так и не допилили. Обещали ведь, что прикрутят поддержку FastCGI и откроют.
Xiva (is name) only USSR :)