
- •Спам
- •Определение
- •Эволюция доставки спама
- •Прямые почтовые рассылки
- •Открытые релеи
- •IP пулы
- •Логи использования socks- серверов
- •Метод CONNECT
- •SMTP-релей или прокси на взломанном компьютере
- •Брандмауэр
- •Прозвон
- •Хитрые алгоритмы от прозвона
- •Администраторы
- •Спаммерский софт
- •Уловки спаммерского софта
- •Возможность
- •Разделения спаммерского труда
- •Отношения между спаммерскими
- •SMTP-сервер и SSL
- •Новый протокол
- •Как победить?
- •Задача спам-фильтрации
- •Исходные данные для анализа
- •Ошибки первого и второго рода
- •Приоритет при настройке алгоритма
- •Интегральный показатель качества
- •Характер писем
- •Реакция фильтра на обнаруженный спам
- •Полуспам
- •Обратная связь
- •Технические приемы на уровне протокола
- •Алгоритмы
- •Байесовская фильтрация по словам
- •Генетические алгоритмы и ручное
- •Обнаружение повторов и признак массовости
- •Интегрирующие системы
- •Точки применения фильтра
- •Реклама по электронной почте
- •Реклама
- •Спам
- •Заключение
- •Ссылки

Новый протокол
Новый протокол придумать наверное можно. Но работать он будет только в том случае, если на него одновременно перейдут все почтовые системы. Иначе те, кто на него перейдет, окажутся изолированными от тех, кто не перешел.

Как победить?
антиспаммерское ПО
системы обратной связи
согласование действий провайдеров

Задача спам-фильтрации
разделить входящий поток сообщений на спам и нормальную почту
• Spam и Ham

Исходные данные для анализа
IP-адрес сервера отправителя
Оформление и стиль писем, заголовки, форматирование, характерные обороты
Статистика слов в письмах
Контрольные суммы («сигнатуры») текстов писем

Ошибки первого и второго рода
Ошибка
первого
рода
Ошибка
второго
рода
•пропуск спама, то есть пропуск спамового письма. Иными словами – недостаточная полнота метода
•Ошибка второго рода – ложные срабатывания, когда не-спам ошибочно относят к спаму. Иными словами – точность метода

Приоритет при настройке алгоритма
Обычное требование для спам-детектора – уложиться в несколько промилле. Считается, что лучше дать пользователю прочитать несколько спамовых писем, чем скрыть от него настоящее письмо.

Интегральный показатель качества
Процент детектированного спама есть мера полноты
Процент ложных срабатываний
– мера неточности
При точности, близкой к 100%, качество будет примерно равно полноте

Характер писем
ошибки второго рода зависит от характера поступающих в почтовый ящик писем и индивидуальных предпочтений пользователя: люди, обсуждающие в почте многомиллионные сделки, реагируют на ошибки второго рода гораздо более болезненно, чем сервис поддержки пользователей и, тем более, читатели рассылки анекдотов

Реакция фильтра на обнаруженный спам
письмо отвергается почтовым сервером; при этом, если оно на самом деле было «законным» письмом, отправитель получит сообщение об этом;
письмо помещается в специальную папку; пользователь имеет шанс заглянуть в эту папку и увидеть там ошибочно отфильтрованное письмо;
письмо «удаляется», как будто его и не было; никто ни о чем не знает.

Полуспам
Рассылки, от которых трудно отписаться, но на которые вы тем не менее подписывались.
Подписки, возникающие при регистрации, без вашего ведома.
Многочисленные квитанции глупых антиспамерских и антивирусных программ.
Автоответчики.
Рассылки, совершаемые спамерами при помощи веб-форм из публичных, совершенно неспамерских веб-сервисов, тем не менее слабо защищенных от вторжения.