Хочу начать отбирать письма для обучения bayes, вопрос - письма(спам и не спам) должны быть без заголовков(любых), без вложений ,да?Есть ли где-нибудь архивы с уже отобранным, отборным спамом, для обучения?
> Хочу начать отбирать письма для обучения bayes, вопрос - письма(спам и не
> спам) должны быть без заголовков(любых), без вложений ,да?Есть ли где-нибудь архивы
> с уже отобранным, отборным спамом, для обучения?Вообще, строго говоря, почта для обучения должна быть специфичной для данного конкретного домена. Я как-то имел глупость обучить байес в одной конторе на спаме, накопленном в другой конторе. Но так получилось, что первая контора была образовательная, и занималась обучением, семинарами и тренингами, а вторая производила автоматику для отопительного оборудования. Что вышло из этого, думаю, понятно :) Пришлось сносить байес второй конторы в ноль, снижать порог чувствительности и накапливать спам силами юзеров, которые были поставлены перед обязанностью сортировать почту вручную. Но через неделю уже было достаточно материала для запуска sa-learn, порог срабатывания повышен, и фальш-позитивы/негативы быстро сошли на нет.