Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lab_5_Інтелектуальний аналіз даних.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
553.47 Кб
Скачать

Алгоритми неієрархічної кластеризації даних.

Лабораторна робота № 5

Міністерство Освіти і Науки України

Національний університет “Львівська політехніка”

Кафедра автоматизованих систем управління

Пряма сполучна лінія 2

Методичні вказівки

до лабораторної роботи № 5

Алгоритми неієрархічної кластеризації даних”

з дисципліни

Інтелектуальний аналіз даних”

для студентів базового напрямку підготовки по спеціальності

Комп’ютерні науки” (шифр 0804)

Львів-2012

Методичні вказівки до лабораторної роботи № 5 Кластеризація. Алгоритми неієрархічної кластеризації. з дисципліни Інтелектуальний аналіз даних для студентів спеціальності - шифр 0804 “Комп’ютерні науки”/ Укл. доц.Ковівчак Я.В., Львів: Національний університет “Львівська політехніка”, 2012.

Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ Протокол № ___________ від «___»___________2012 р.

Завідувач кафедрою АСУ ______________ Медиковський М. О.

Методичні вказівки обговорено та схвалено на засіданні методичної комісії базового напрямку підготовки

Протокол № ___________ від «___»___________2012 р. Лабораторна робота № 5 Алгоритми неієрархічної кластеризації даних.

Мета: Ознайомлення з алгоритмами неієрархічної кластеризації даних, їх побудовою, етапами реалізації.

Завдання: Навчитись аналітично розв’язувати задачу кластеризації вибірки об’єктів та побудувати дендрограму розв’язку задачі.

  1. Теоретична частина

Вступ

Кластерний аналіз (англ . Data clustering ) —задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних істотно суттєвих кластерів відрізнялися. Задача кластеризації відноситься до статистичної обробки. Кластерний аналіз — це багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, і яка упорядковує об'єкти в порівняно однорідні групи (кластери)(Q-кластеризація , або Q-техніка , власне кластерний аналіз). Кластер — група елементів, що характеризуються загальною спільною властивістю, головна ціль кластерного аналізу — знаходження груп схожих об'єктів у вибірці . Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, медицині, психології, хімії, біології, державному управлінні, філології, антропології, маркетингу, соціології і інших дисциплінах. Проте універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що утрудняють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.

Термін кластерний аналіз, вперше введений Тріоном (Tryon) в 1939 році, включає в себе більше 100 різних алгоритмів. Кластерний аналіз не вимагає апріорних припущень про набір даних, не накладає обмеження на подання досліджуваних об'єктів, дозволяє аналізувати показники різних типів даних (інтервальним даними, частотам, бінарним даними). При цьому необхідно пам'ятати, що змінні повинні вимірюватися в порівнянних шкалах.

Кластерний аналіз виконує наступні основні завдання :

  • Розробка типології або класифікації.

  • Дослідження корисних концептуальних схем групування об'єктів.

  • Породження гіпотез на основі дослідження даних.

  • Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних даних.

Незалежно від предмету вивчення застосування кластерного аналізу він передбачає наступні етапи:

— Відбір вибірки для кластеризації.

— Визначення безлічі змінних, по яких оцінюватимуть об'єкти у вибірці.

— Обчислення значень тієї або іншої міри схожості між об'єктами.

— Застосування вживання методу кластерного аналізу для створення груп схожих об'єктів.

— Перевірка достовірності результатів кластерного рішення .

Кластерний аналіз дозволяє скорочувати розмірність даних, робити її наочною.

Кластерний аналіз може застосовуватися до сукупності часових рядів, тут можуть виділятися періоди схожості деяких показників і визначатися групи часових рядів зі схожою динамікою.

Кластерний аналіз паралельно розвивався в декількох напрямках, таких як біологія, психологія, ін., тому у більшості методів існує по два і більше назв. Це істотно ускладнює роботу при використанні кластерного аналізу.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]