6
.pdfЛабораторная работа
Применение самоорганизующихся карт Кохонена для задач
кластеризации
Обучающийся должен получить следующие знания, умения и навыки:
изучить понятие нейронных сетей и самоорганизующихся карт Кохонена;
изучить кластеризацию с помощью самоорганизующихся карт Кохонена в аналитическом пакете Deductor Academic
Результатом выполнения задания является отчет, содержащий информацию по следующему заданию:
Реализовать кластеризацию с помощью самоорганизующихся карт Кохонена. Исходные данные должны иметь не менее 300 наблюдений.
Проанализировать изменения в результатах кластеризации в зависимости от способа разделения исходного множества на тестовое и обучающее и параметров метода, параметров карты Кохонена, настройки параметров обучения, настройки параметров остановки обучения. Реализация метода в ПП «Deductor Studio» представлена в методических указаниях. Обучающийся может реализовать метод в R или Python (задание повышенной сложности).
Данные можно найти в следующих источниках:
https://www.kaggle.com/datasets
http://www.gks.ru/
Для реализации можно выбрать любой из способов: ПП «Deductor Studio», R, Python.
Если вы выполняете работу в ПП «Deductor Studio», тогда результатом выполнения задания являются проект в формате *ded, исходный файл с данными, и отчет, содержащий следующую информацию: ход выполнения работы с описанием и скриншотами выполнения, результаты выполнения
(интерпретация полученных результатов, выводы по анализу изменения классификации в зависимости от различных параметров.
Если вы выполняете работу с использованием R или Python, тогда
результатом выполнения задания являются рабочие файлы реализации,
1
исходный файл с данными, и отчет, содержащий следующую информацию:
ход выполнения работы с описанием и скриншотами выполнения, результаты выполнения (интерпретация полученных результатов, выводы по анализу изменения классификации в зависимости от различных параметров.
В отчете необходимо указать ссылку на исходные данные.
Для успешной защиты лабораторной работы студенты должны предоставить проект (например, папка с рабочими файлами Deductor,
исходные данные к модели в формате *txt) и отчет к нему, ответить на заданные вопросы преподавателя.
Требования к оформлению отчета:
Способ выполнения текста должен быть единым для всей работы. Шрифт
– Times New Roman, кегль 14, межстрочный интервал – 1,5, размеры полей: левое – 30 мм; правое – 10 мм, верхнее – 20 мм; нижнее – 20 мм.
Сокращения слов в тексте допускаются только общепринятые.
Абзацный отступ (1,25) должен быть одинаковым во всей работе.
Нумерация страниц основного текста должна быть сквозной. Номер страницы на титульном листе не указывается. Сам номер располагается внизу по центру страницы или справа.
Методические указания к выполнению
Для выполнения данного задания необходимо скачать программный продукт с сайта https://basegroup.ru/deductor/download. С методическими рекомендациями по работе в приложении (Руководство аналитика Deductor 5.3) можно ознакомиться на сайте https://basegroup.ru/deductor/manual/guide- analyst-530.
Теоретическая справка
Самоорганизующиеся карты Кохонена - мощный самообучающийся механизм кластеризации, позволяющий отобразить результаты в виде компактных и удобных для интерпретации двумерных карт.
2
Данный обработчик используется для поиска закономерностей в больших массивах данных. Это позволяет проводить разведочный анализ данных,
отличающийся от классических статистических процедур, в ходе которых проверяется некоторый набор выдвинутых гипотез.
Основные преимущества алгоритма:
устойчивость к зашумленным данным;
быстрое и неуправляемое обучение;
возможность визуализировать многомерные входные данные.
Примеры применения
Разведочный анализ данных. Карта Кохонена способна распознавать кластеры в данных, а также устанавливать близость классов. Таким образом,
пользователь может улучшить свое понимание структуры данных, чтобы затем уточнить модель. Если в данных распознаны классы, то их можно обозначить, после чего сеть сможет решать задачи классификации.
Прогнозирование поведения клиента. Если построить карту Кохонена,
содержащую кластеры для каждой группы клиентов по степени их лояльности, то с ее помощью можно предсказывать ожидаемое поведение клиентом и применять к ним соответствующую маркетинговую политику.
Обнаружение аномалий. Карта Кохонена распознает кластеры в обучающих данных и относит все данные к тем или иным кластерам. Если после этого карта встретится с набором данных, непохожим ни на один из известных образцов, то она не сможет классифицировать такой набор и тем самым выявит его аномальность.
Описание алгоритма
Алгоритм функционирования самоорганизующихся карт представляет собой один из вариантов кластеризации многомерных векторов – алгоритм проецирования с сохранением топологического подобия. Т. е. если были значительно удалены друг от друга в исходном пространстве, то и на карте они будут значительно удалены друг от друга.
3
Преимуществом самоорганизующихся карт Кохонена является то, что при обучении используется метод обучения без учителя, то есть результат обучения зависит только от структуры входных данных.
Рассмотрим самоорганизующиеся карты Кохонена на примере сегментации клиентов телекоммуникационной компании.
Постановка задачи: сегментация абонентов. Руководство филиала региональной телекоммуникационной компании, предоставляющей на рынке услуги мобильной связи, поставило задачу сегментации абонентской базы.
Целями сегментации являются: построение профилей абонентов путем выявления их схожего поведения в частоте, длительности и времени звонков,
а также ежемесячных расходов; оценка наиболее и наименее доходных сегментов.
Эта информация может в дальнейшем использоваться для: разработки маркетинговых акций, направленных на определенные группы клиентов;
разработки новых тарифных планов; оптимизации расходов по адресной рассылке о новых услугах и тарифах; предотвращения оттока клиентов другие компании. Данные, взятые из биллинговой системы за несколько месяцев, представляют собой таблицу со следующими полями (табл. 1). Были отобраны только активные абоненты, которые регулярно пользовались услугами сотовой связи в течение последних нескольких месяцев. Данные находятся в файле mobile.txt.
Таблица 1 – Исходные данные (описание)
№ |
Поле |
Описание |
Тип |
|
|
|
|
1 |
Возраст |
Возраст клиента |
целый |
|
|
|
|
2 |
Среднемесячный расход |
Сколько в среднем денег в месяц тратит |
вещественный |
|
|
абонент на мобильную связь |
|
3 |
Средняя продолжительность |
Сколько в среднем минут на |
вещественный |
|
разговора |
исходящие звонки тратит абонент за месяц |
|
4 |
Звонков днем за месяц |
Количество исходящих звонков в |
целый |
|
|
утреннее и дневное время |
|
5 |
Звонков вечером за месяц |
Количество исходящих звонков в |
целый |
|
|
вечернее время |
|
|
|
|
|
6 |
Звонков ночью за месяц |
Количество исходящих звонков в ночное |
целый |
|
|
время |
|
7 |
Звонки в другие города |
Количество исходящих звонков в |
целый |
|
|
другие города |
|
|
|
|
4 |
8 |
Звонки в другие страны |
Число исходящих международных |
целый |
|
|
звонков |
|
9 |
Доля звонков на |
- |
вещественный |
|
стационарные телефоны |
|
|
|
|
|
|
10 |
Количество SMS |
Число исходящих SMS сообщений в месяц |
целый |
|
|
|
|
11 |
Код |
Идентификационный номер абонента |
вещественный |
|
|
|
|
Рассмотрим последовательность решения бизнес-задачи сегментации абонентов с помощью подход а, который основан на алгоритме Кохонена,
которая состоит из двух шагов: кластеризация объектов алгоритмом Кохонена;
ВDeductor Studio сети и карты Кохонена реализованы в обработчике Карта Кохонена, где содержатся сам алгоритм Кохонена и специальный визуализатор Карта Кохонена.
ВDeductor канонический алгоритм Кохонена дополнен рядом возможностей, а именно:
Алгоритм Кохонена применяется к сети Кохонена, состоящих из ячеек, упорядоченных на плоскости. По умолчанию размер карты равен
16х12, что соответствует 192 ячейкам. В выходном наборе данных алгоритм Кохонена формирует поля Номер ячейки и Расстояние до центра ячейки.
Ячейки карты с помощью специальной дополнительной процедуры объединяются в кластеры. Эта процедура – алгоритм k-means, причем имеется возможность автоматически определять количество кластеров. В
выходном наборе данных алгоритм k-means формирует поля Номер кластера
иРасстояние до центра кластера.
Каждый входной признак может иметь весовой коэффициент от 0
до 100%, последний влияет на расчет евклидового расстояния между векторами.
Сценарий проекта имеет название - Сегментация абонентов.ded, файл находится в папке с демо-примерами (рис.1). Рассмотрим построение сценария более подробно.
5
Рисунок 1 – Открытие демо-примера «Сегментация абонентов»
Импортируем в Deductor набор данных из файла Абоненты.txt (рис. 2-8).
Рисунок 2 – Импорт данных (шаг1)
6
Рисунок 3 – Импорт данных (шаг2)
Рисунок 4 – Импорт данных (шаг3)
7
Рисунок 5 – Импорт данных (шаг4)
Настроим тип данных для полей: Среднемесячный расход, Средняя продолжительность разговора, Доля звонков на стационарные телефоны -
вещественный; для всех остальных – целый (рис. 6).
Рисунок 6 – Импорт данных (шаг 5)
8
Рисунок 7 – Импорт данных (шаг 6)
Рисунок 8 – Импорт данных: результат Проведем статистический анализ данных (рис. 9-12).
Рисунок 9 – Статистическая оценка данных (шаг 1)
9
Рисунок 10 – Статистическая оценка данных (шаг 2)
Рисунок 11 – Статистическая оценка данных (шаг 3)
10