Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кластеризация.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
41.09 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«АЛТАЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Колледж Алтайского государственного университета

Отделение экономики и информационных технологий

Курсовая работа

по дисциплине «Основы алгоритмизации и программирования »

Кластерный анализ методом k средних

Выполнил студент

2 курса 252б группы

Никифоров Роман Вячеславович

_______________________

Научный руководитель

Евдокимов Евгений Андреевич

_______________________

Работа защищена

«___»_____________ 2017г.

Оценка _________________

________________________

(подпись)

Барнаул 2017

СОДЕРЖАНИЕ

Введение 3

Глава 1 Кластерный анализ 4

1.1 Основные понятия 4

1.2 Задачи и условия 6

1.3 Типология задач кластеризации 7

1.4 Примеры применения 9

Глава 2 Программа кластерного анализа 12

2.1 Выбор методологии разработки программного обеспечения. 12

2.2 Описание выбранного языка программирования. 16

Введение

В современном мире структурирование данных необходимо во множестве областей: археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии, геологии и других видах деятельности.

Цель:

Разработать программный продукт для структурирования данных методом k средних.

Задачи:

1 – исследовать метод кластерного анализа и способы его реализации.

2 – провести анализ имеющихся программных продуктов.

3 – сделать выводы и разработать концепцию своего программного продукта.

4 – реализовать свой программный продукт в среде программирования.

Структура работы: Курсовая работа состоит из двух глав. В первой главе будет проведено исследование кластерного анализа, проанализированы имеющиеся программы кластерного анализа. Во второй главе будет выбрана методология проектирования, описан выбранный язык программирования. Подробно описана программа: ее назначение, входные и выходные данные, интерфейс, функции, а также – тест

Глава 1 Кластерный анализ

1.1 Основные понятия

Кластерный анализ – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

Кластерный анализ подразумевает множество способов реализации таких как:

  1. K-средних (K–means)

  2. K-medians

  3. EM-алгоритм

  4. Алгоритмы семейства FOREL

  5. Дискриминантный анализ

K-средних – наиболее популярный метод кластеризации. Был изобретён в 1950-х годах математиком Гуго Штейнгаузом и почти одновременно Стюартом Ллойдом. Особую популярность приобрёл после работы Маккуина.

Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров.

K-medians – это вариация k-means метода кластеризации, где для определения центроида кластера вместо среднего вычисляется медиана. Это соответствует минимизации ошибки по всем кластерам в метрике с 1-нормой, вместо метрики с 2-нормой для k-means.

Соответствующая проблема k-median состоит в поиске таких k центров, что сформированные по ним кластеры будут наиболее компактными. Формально, при заданных точках данных x, k центров ci должны быть выбраны так, чтобы минимизировать сумму расстояний от каждой x до ближайшего ci.

EM-алгоритм — алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.

FOREL (Формальный Элемент) — алгоритм кластеризации, основанный на идее объединения в один кластер объектов в областях их наибольшего сгущения.

Дискримина́нтный ана́лиз — раздел вычислительной математики, представляющий набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы»). В отличие от кластерного анализа в дискриминантном анализе группы известны априори.