
- •ОБЗОР
- •Причины появления уязвимостей в сетях связи
- •Виды мошенничества в сетях связи
- •Обзор FMS решений
- •RAID FMS
- •FraudTrace
- •SENTRY Fraud Management
- •Обзор методов кластеризации
- •ПОСТАНОВКА ЗАДАЧИ
- •Модуль СПАЙДЕР-FMS
- •Назначение разрабатываемого ПО
- •Описание входных данных
- •Описание выходных данных
- •АНАЛИЗ ЗАДАЧИ
- •Анализ входных данных
- •Кластеризация данных методом k-средних
- •РАЗРАБОТКА ПО
- •Разработка модульной структуры
- •Разработка кода
- •Выбор языка программирования
- •Модуль CDR Filter
- •Модуль RS Parser
- •Модуль Number Mask Builder
- •Модуль RS Tree
- •Модуль RS Utils
- •Модуль Call Counts Maker
- •Модуль Labeled Call Counts Maker
- •Модуль Main
- •ТЕСТИРОВАНИЕ
- •Модульное тестирование
- •Модуль Number Mask Builder
- •Интеграционное тестирование
1.3.3SENTRY Fraud Management
Разработана компанией Connectiva Analytics and Insigths (Индия). Осо-
бенности продукта[6]:
•Охват наиболее распространенных фрод-сценариев вне зависимости от окружения и сетевых технологий;
•Наличие модульной системы сбора исходных данных, для работы которой не требуется стороннее ПО;
•Наличие единого графического интерфейса пользователя для конфигурации, управления данными, составления отчетов;
•Наличие инструментов для проведения глубокого анализа данных пользователей услуг, подозреваемых во фроде: шаблоны вызовов, используемые сети и т.д.
1.4 Обзор методов кластеризации
Кластеризациия - это разбиение множества объектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по некоторой метрике p, а объекты разных кластеров существенно отличались. На рис. 1.3 изображена кластеризация начального множества (a) на два кластера (b), на четыре кластера (c) и на шесть кластеров (d) [7].
18

Рис. 1.3 – Кластеризация
Для решения задачи кластеризации данных используется множество алгоритмов, к наиболее широко применяемым можно отнести следующие группы: иерархические, центроидные, основанные на плотности.
Иерархические методы кластеризации объединяют объекты в кластеры, основываясь на расстоянии между ними. Для измерения расстояния используются различные метрики, например, Евклидово расстояние, т.е. длина прямой, соединяющей две точки на плоскости. Каждый кластер характеризуется расстоянием минимальным, максимальным или средним расстоянием между составляющими его объектами. Алгоритмы этого типа осуществляют многоуровневое распределение объектов по кластерам, результаты распределения изображаются в виде дендрограмм. Под дендрограммой обычно понимается дерево, то есть граф без циклов, построенный по матрице мер близости. Дендрограмма позволяет изобразить взаимные связи между объектами из заданного множества.
Пример дендрограммы показан на рис. 1.5, исходные данные примера приведены на рис. 1.4
19

Рис. 1.4 – Исходные данные
Рис. 1.5 – Пример дендрограммы
При построении дендрограммы использовалось Евклидово расстояние и исходные данные могут быть представлены в виде восьми кластеров (расстояние d = 0), четырех кластеров (расстояние d = 1), двух кластеров (расстояние d = 2) и одного кластера (расстояние d = 4.47214)
20

В центроидной кластеризации объекты объединяются на основании их расстояний до центроидов, специальных объектов, которые характеризуют каждый кластер, при этом центроиды могут не принадлежать исходному множеству. Примеры центроидной кластеризации с исходными данными, использованными в предыдущем примере (рис.1.4) представлены ниже.
Рис. 1.6 – Пример центроидной кластеризации. k = 2.
Рис. 1.7 – Пример центроидной кластеризации. k = 3.
21

На рис.1.6, рис.1.7 для обозначения объектов кластеров используются разные фигуры. Серыми окружностями отмечены центроиды кластеров.
В алгоритмах, основанных на плотности, кластер определяется как область с наиболее высокой плотностью объектов в сравнении с остальным множеством. При объединении точек в кластеры зачастую происходят потери удаленных от кластеров точек, такие точки считаются шумом. Пример кластеризации плотностным алгоритмом DBSCAN приведен на рис.1.8.
Рис. 1.8 – Пример кластеризации, основанной на плотности
22