Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
farrukhy 2 labaratory work.docx
Скачиваний:
8
Добавлен:
26.03.2016
Размер:
878.59 Кб
Скачать

Министерство образования и науки РФ

Федеральное государственное автономное образовательное учреждение высшего профессионального образования

«Национальный исследовательский ядерный университет «МИФИ»

ФАКУЛЬТЕТ КИБЕРНЕТИКИ И ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ

ИНСТИТУТ ФИНАНСОВОЙ И ЭКОНОМИЧЕСКОЙ БЕЗОПАСНОСТИ

Кафедра «Финансовый менеджмент»

Отчет по лабораторной работе №2

Выполнил

Ахмаджонов Ф.М.

Группа

Р01-631М

Вариант

2

Преподаватель

Домашова Д.В.

Оценка

 

Москва 2015

СОДЕРЖАНИЕ

Постановка задачи.

  1. Для заданных данных по городам и районам Оренбургской области по пяти показателям, перечисленным ниже, провести кластеризацию агломеративными и дивизимными методами.

    X43

    число предприятий оптовой и розничной торговли

    X44

    наличие телефонных аппаратов

    X45

    ввод в действие жилых домов

    X46

    оборот розничной торговли (руб.)

    X47

    оборот общественного питания (тыс.руб.)

  2. Для каждого метода построить график средних значений показателей каждого кластера. Интерпретировать полученную кластеризацию.

  3. Сравнить методы кластеризации и выбрать наилучший. Обосновать выбор.

Выбор агломеративных методов.

В общем случае под классификацией понимается разделение рассматриваемой совокупности объектов или явлений на однородные, в определенном смысле, группы (классы), либо отнесение каждого из заданного множества объектов к одному из заранее заданных классов. Основной принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга. На первом шаге каждый объект рассматривается как отдельный класс. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятого расстояния между классами, пересчитывается матрица расстояний, размер которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.

Построим дендрограммы следующих методов:

  1. Метод «полных связей».

Метод «полных связей» так же называется методом «дальнего соседа». Расстояние между классами рассчитывается по формуле:

  1. Метод «одиночной связи».

В этом методе расстояние между классами вычисляется как минимальное расстояние между объектами этих классов:

  1. Невзвешенное попарное среднее.

Расстояние между двумя классами определяется как среднее расстояние между всеми парами объектов в них. Применяется в случаях хорошо обособленных классов и классов цепочного типа.

  1. Взвешенное попарное среднее.

Отличается от невзвешенного попарного среднего тем, что при вычислениях учитывается размер соответствующих кластеров (т.е. число объектов, содержащихся в них). Размер кластера используется как весовой коэффициент. Применяется, если предполагаются неравные размеры кластеров. Таким образом, расстояние между кластера вычисляется по формуле:

  1. Метод Уорда.

Метод оптимизирует минимальную дисперсию внутри классов, в итоге создаются классы приблизительно равных размеров. Метод стремится создавать классы малого размера.

Исходя из полученных дендрограмм, видим, что дендрограмма метода «полных связей», невзвешенного попарного среднего, взвешенного попарного среднего делят объекты похоже. Поэтому можем взять только один из них.

Метод «полных связей».

Возьмем пороговое расстояние между кластерами . Так как следующее объединение происходит приТ.е. разница между этими пороговыми значениями большая. При заданном пороговом значении объекты делятся на 5 кластера. Их состав приведен в таблице:

Номер

кластера

Количество

объектов в кластере

Состав класса

кластер 1

1

Города:Оренбург

кластер 2

5

Город: Соль-Илецк, Сорочинск.

Район: Оренбургский, Октябрьский, Новоорский

Кластер 3

8

Город: Орск, Новотроицк, Ясный, Гай, Кувандык, Бугуруслан, Бузулук, Абдулино

Кластер 4

33

Город: Медногорск.

Район: Светлинский, Курманаевский, Тюльганский, Кваркенский, Шарлыкский, Северный, Грачевский, Сорочинский, Первомайский, Илекский, Кувандыский, Бузулуский, Матвеевский, Тотцкий, Домпаровский, Беляевский, Соль-Илецкий, Ясненский, Александровский, Переволодцкий, Акбулакский, Новосергиевский, Красногвардейский, Алексеевский, Пономаревский, Саракташский, Адамовский, Ташлинский, Сакмарский, Гайский, Бугурусланский, Абдулинский

Для наших значений получим такую таблицу средних значений:

кластер/показатель

x1

x2

x3

x4

x5

Кластер 1

6,441147236

1,938112

1,999281

6,042935

6,646011

Кластер 2

0,23

-0,81

2,94

0,09

0,01

Кластер 3

0,16

1,66

0,13

0,52

0,03

Кластер 4

-0,23

-0,43

-0,38

-0,34

-0,19

И построим график средних значений для кластеров:

Интерпретация:

  1. Кластер №1 состоит из 1 элемента, г. Оренбург, для которого характерны самые высокие значения по всем показателям, кроме X3, характеризующего ввод в действие жилых домов

  2. Для кластера №2 характерно самое низкое значение X2, характеризующего наличие телефонных аппаратов и самое высокое значениеX3, характеризующего ввод в действие жилых домов

  3. Для кластера №3 характерно близкое к максимальному число телефонных аппаратов, но почти самое низкое число введенных в действие жилых домов.

  4. Для кластера №4 характерно самое низкое значение показателей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]