
Характеристика
Данный метод прост (алгоритмы элементарны), удобен (позволяет обходиться без «черных списков» и подобных искусственных приемов), эффективен (после обучения на достаточно большой выборке отсекает до 95—97 % спама, и в случае любых ошибок его можно дообучать). В общем, есть все показания для его повсеместного использования, что и имеет место на практике — на его основе построены практически все современные спам-фильтры.
Впрочем, у метода есть и принципиальный недостаток: он базируется на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах, и неэффективен, если данное предположение неверно. Впрочем, как показывает практика, такой спам даже человек не в состоянии определить «на глаз» — только прочтя письмо и поняв его смысл. Существует метод Байесова отравления (англ.), позволяющий добавить много лишнего текста, иногда тщательно подобранного, чтобы «обмануть» фильтр.
Еще один не принципиальный недостаток, связанный с реализацией — метод работает только с текстом. Зная об этом ограничении, спамеры стали вкладывать рекламную информацию в картинку. Текст же в письме либо отсутствует, либо не несёт смысла. Против этого приходится пользоваться либо средствами распознавания текста («дорогая» процедура, применяется только при крайней необходимости), либо старыми методами фильтрации — «черные списки» и регулярные выражения (так как такие письма часто имеют стереотипную форму).
Грейлистинг
Серые списки (англ. Greylisting) — способ автоматической блокировки спама, основанный на том, что «поведение» программного обеспечения, предназначенного для рассылки спама, отличается от поведения обычных серверов электронной почты. Если почтовый сервер получателя отказывается принять письмо и сообщает о «временной ошибке», сервер отправителя обязан позже повторить попытку. Спамерское программное обеспечение в таких случаях, обычно, не пытается этого делать.
Бо́льшая часть электронной почты в Интернете пересылается с помощью протокола SMTP. Этот протокол предусматривает, что сервер, который должен принять письмо, может сообщить о возникновении вре́менной ошибки. Это означает, что в данный момент сервер не может принять письмо, например, из-за слишком большой нагрузки, недостатка места на диске и тому подобного, но в будущем ситуация может измениться, и письмо будет принято.
Сервер, который использует технологию серых списков, первоначально отклоняет любое письмо от неизвестного отправителя, сообщая о временной ошибке. В базу данных записывается информация об этой попытке, которая, обычно, включает в себя следующие данные (или некоторые из них):
IP-адрес сервера, который пытается послать письмо;
адрес отправителя;
адрес получателя.
Если это была попытка послать спам, то этим, скорее всего, всё и закончится. Если же в дальнейшем будет сделана ещё одна попытка послать то же самое письмо (как и должно быть по протоколу SMTP), сервер, использующий серые списки, обнаружит в своей базе данных соответствующую запись и примет письмо. Для увеличения надёжности метода накладывается дополнительное ограничение: после первой попытки должно пройти не менее определённого промежутка времени. Все последующие письма от того же отправителя тому же получателю, посланные через тот же сервер, будут приняты без задержки, потому что в базе данных уже есть нужная запись.
Преимущества
Настройка серых списков требует лишь небольших затрат труда от администратора сервера и совсем никаких усилий от пользователей электронной почты.
Реализация серых списков почти не использует ресурсов сервера.
Низкая вероятность ложных срабатываний, когда отклоняется письмо, не являющееся спамом.
Недостатки
Сервер отправляющей стороны должен быть готов переслать письмо в случае вре́менной ошибки, что может быть не так в случае нестандартных реализаций почтовых серверов. Таким образом, могут ошибочно отсеиваться рассылки с новостных сайтов и тому подобное.
В стандарте SMTP рекомендуется, чтобы интервалы между повторными попытками послать письмо были не меньше 30 минут. Это означает, что письмо, отосланное с большинства почтовых серверов, дойдёт до адресата не раньше чем через полчаса (а то и позже), что может быть неприемлемо в случае срочной корреспонденции. Этот недостаток компенсируется тем, что задержка вносится только при посылке первого письма с ранее неизвестного адреса. Однако база данных известных адресов, как правило, время от времени очищается от устаревших записей. Если какой-либо корреспондент пишет письма редко, то письма от него всегда будут приходить с задержкой.
Крупные почтовые службы используют несколько серверов, с разными IP-адресами, и возможна ситуация, когда несколько серверов по очереди пытаются отправить одно и то же письмо (с интервалами в 30 минут). Это может привести к очень большим задержкам при доставке писем.
Спамерские программы могут совершенствоваться. Поддержка повторной посылки сообщения реализуется довольно легко и в значительной степени нивелирует данный вид защиты.