URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID9
Нить номер: 6911
[ Назад ]

Исходное сообщение
"Группировка огромного списка"
Отправлено Pontiy.Pilat , 06-Ноя-07 08:18

Есть список ip-адресов и трафику для каждого адреса. список в простом текстовом файле.
формат: [IP-адрес] [Bytes]
Проблема в том, что размер списка несколько миллионов строк.
Как лучше реализовать группировку IP-адресов с сумированием Байтов.
Ложить всё в массив... я думаю это безумство :-)

Содержание

Группировка огромного списка,newser, 09:36 , 06-Ноя-07
- Группировка огромного списка,Аноним, 00:50 , 07-Ноя-07
Группировка огромного списка,jd, 04:03 , 07-Ноя-07
Группировка огромного списка,Pontiy.Pilat, 07:42 , 07-Ноя-07
Группировка огромного списка,AMDmi3, 19:13 , 07-Ноя-07

Сообщения в этом обсуждении

"Группировка огромного списка"
Отправлено newser , 06-Ноя-07 09:36

>Есть список ip-адресов и трафику для каждого адреса. список в простом текстовом
>файле.
>формат: [IP-адрес] [Bytes]
>Проблема в том, что размер списка несколько миллионов строк.
>Как лучше реализовать группировку IP-адресов с сумированием Байтов.
>Ложить всё в массив... я думаю это безумство :-)
СУБД

"Группировка огромного списка"
Отправлено Аноним , 07-Ноя-07 00:50

Можно простым файлом обойтись :)
Так как ip адресов конечно (2^32) можно использовать их все как массив.
то есть 4 байта ip использовать как (unsigned long int) индекс :)
Сам массив хранить в файле.
То есть, ip адресу 0.0.0.0 соотв индекс (смещение 0), 0.0.0.1 смещение 1.
Правда файл получится 32 гигабайта. Но наверно разреженный, так что не страшно :)

"Группировка огромного списка"
Отправлено jd , 07-Ноя-07 04:03

>Проблема в том, что размер списка несколько миллионов строк.
>Ложить всё в массив... я думаю это безумство :-)
На самом деле, важно не сколько строк, а сколько в них разных адресов.
Так что использовать какую-нибудь разновидность массива (например std::map из C++/STL) может оказаться не такой уж и плохой идеей. Если нужна только сумма трафика для каждого адреса.

"Группировка огромного списка"
Отправлено Pontiy.Pilat , 07-Ноя-07 07:42

Думаю лучше сделать в СУБД (как посоветовал newser).
Масштабируемость получается больше. Потому что рано или поздно будет затребовано деление трафика по портам/адресам и самое эффективое пихать всё в БД.

"Группировка огромного списка"
Отправлено AMDmi3 , 07-Ноя-07 19:13

>всё в массив... я думаю это безумство :-)
нахрена в массив? Читаем файл построчно, в памяти храним только таблицу IP - сумма байт для встретившихся IP. Логично использовать хэш.
На C++ - std::hash_map и прога из двух десятков строчек.
На Perl - стандартный хэш и прога из четырех строк.