Скачиваний:
32
Добавлен:
02.05.2014
Размер:
1.44 Mб
Скачать

2.1.3 Кластерный анализ с применением карт Кахонена

Для решения задачи кластеризации использовались самоорганизующиеся карты Кохонена с применением нейросетевого пакета SOMap analyzer 1.0.

Self-Organizing Maps (SOM)– это самоорганизующиеся структуры, основанные на нейросети Кохонена, которые представлены в виде двухмерной сетки, в узлах которой находятся нейроны.

Структура сети Кохонена представлена на рисунке 2.6. Сеть имеет 8 входов по количеству признаков, по которым ведется кластеризация, и 1 выход, который выдает номер кластера. Сеть однослойная (слой Кохонена). Каждый нейрон слоя Кохонена с помощью своих весовых коэффициентов запоминает координаты ядра кластера и отвечает за отнесение объектов к этому кластеру. Интерпретатор выбирает максимальное значение среди всех выходов и выдает номер этого выхода, который является номером кластера.

Рисунок 2.6 – Структура сети Кохонена

В качестве источника данных используем созданную обучающую выборку. Параметры обучения, параметры визуализации представлены на рисунке 2.7

Рисунок 2.7 – Информация о карте

Для построения карт открываем окно с картами по обучающей выборке и выбираем нужные компоненты. Результаты построения представлены на рисунке 2.8.

Рисунок 2.8 – Карты по обучающей выборке

В результате анализа карт было выявлено 5 кластеров (таблица 2.7)

Таблица 2.7

Результаты кластерного анализа

Класс

Значение признака

1

2

3

4

5

CPU Frequency

высокое

высокое

высокое

среднее

низкое

Bus Frequency

высокое

среднее

высокое

среднее

низкое

L1 Cache

высокое

среднее

высокое

среднее

низкое

L2 Cache

высокое

высокое

высокое

среднее

низкое

Technology

низкое

низкое

высокое

среднее

высокое

Multiplication

высокое

высокое

высокое

среднее

низкое

Critical Temperature

низкое

низкое

низкое

среднее

высокое

Cost

высокое

среднее

высокое

среднее

среднее

Статистика по каждому классу в отдельности представлена на следующих рисунках 2.9 – 2.13

Рисунок 2.9 – Статистика по 1-ому кластеру

Рисунок 2.10 – Статистика по 2-ому кластеру

Рисунок 2.11 – Статистика по 3-ому кластеру

Рисунок 2.12 – Статистика по 4-ому кластеру

Рисунок 2.13 – Статистика по 5-ому кластеру

Окно со статистикой показывает следующие статистические показатели:

  • минимальное значение;

  • максимальное значение;

  • среднее значение;

  • стандартное отклонение (дисперсия);

  • количество элементов.

2.1.3 Построение деревьев решений

Система See5/C5.0 предназначена для анализа больших баз данных содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работы See5/C5.0 выражается в виде деревьев решений и множества if – then – правил.

Задача See5/C5.0 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При этом See5/C5.0 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть поставлено в соответствие некоторое множество логистических правил.

Целевой признак Class принимает три значения: 1 – первый класс, 2 – второй класс, 3 – третий класс, 4 – четвертый класс, 5 – пятый класс. Затем описывается совокупность признаков: CPU Frequency – частота процессора, BusFrequency– частота шины,L1Cache– размер кэша первого уровня,L2Cache– размер кэша второго уровня,Technology– технология,Multiplication– умножение,CriticalTemperature– критическая температура.

Файл имен переменных data.names выглядит следующий образом:

class.

class : 1,2,3,4,5

CPUFrequency : continuous

BusFrequency : continuous

L1Cache : continuous

L2Cache : continuous

Technology : continuous

Multiplication : continuous

CriticalTemperature : continuous

Cost : continuous

Создаем файл данных data.data, которые будет использоваться для работы See5 (Приложение Б).

На первом этапе обработки данных обычно используются параметры системы, установленные по умолчанию. Результаты построения начального дерева решений приведены в таблице 2.8

Таблица 2.8

Результаты построения дерева решений

Дерево решений

Извлеченные правила

L1Cache > 16:

:...CriticalTemperature <= 75: 4(17)

: CriticalTemperature > 75: 5 (3)

L1Cache <= 16:

:...Technology > 0.09: 1 (9)

Technology <= 0.09:

:...BusFrequency <= 533: 2 (10)

BusFrequency > 533: 3 (10)

Rule 1: (9, lift 4.9)

L1Cache <= 16

Technology > 0.09

-> class 1 [0.909]

Rule 2: (10, lift 4.5)

BusFrequency <= 533

Technology <= 0.09

-> class 2 [0.917]

Rule 3: (10, lift 4.5)

BusFrequency > 533

L1Cache <= 16

Technology <= 0.09

-> class 3 [0.917]

Rule 4: (17, lift 2.7)

L1Cache > 16

CriticalTemperature <= 75

-> class 4 [0.947]

Rule 5: (3, lift 13.1)

CriticalTemperature > 75

-> class 5 [0.800]

Результаты классификации

Decision Tree

----------------

Size Errors

5 0( 0.0%)

(a) (b) (c) (d) (e) <-classified as

---- ---- ---- ---- ----

9 (a): class 1

10 (b): class 2

10 (c): class 3

17 (d): class 4

3 (e): class 5

Файл данных data.dataсодержит 50 объектов, каждый из которых описан восемью признаками.

Дерево решений можно проинтерпретировать следующим образом: «Если размер кэша первого уровня > 16, и критическая температура <= 75, то класс 4 (17 объектов) и т.д.»

Каждая ветка дерева заканчивается указанием номера класса, к которому она приводит.

Далее приводятся характеристики сконструированного классификатора, оцениваемые по обучающей выборке. Здесь мы видим, что построенное дерево решений имеет 5 веток.

Соседние файлы в папке Курсовой проект - Интеллектуальный анализ рынка
  • #
    02.05.2014913 б17data.out
  • #
    02.05.2014834 б17data.rules
  • #
    02.05.201438 б17data.set
  • #
    02.05.2014617 б17data.tree
  • #
    02.05.201440.96 Кб19Data.xls
  • #
    02.05.20141.44 Mб32ПЗ.doc