- •Курсовая работа
- •Глава 1 Кластерный анализ 4
- •Глава 2 Программа кластерного анализа 12
- •Введение
- •Глава 1 Кластерный анализ
- •1.1 Основные понятия
- •1.2 Задачи и условия:
- •1.3 Типология задач кластеризации:
- •1.4 Примеры применения:
- •Глава 2 Программа кластерного анализа
- •2.1 Выбор методологии разработки программного обеспечения.
- •2.2 Описание выбранного языка программирования.
- •2.3 Программа для кластерного анализа.
- •Заключение
- •Список использованных источников литературы
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«АЛТАЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Колледж Алтайского государственного университета
Отделение экономики и информационных технологий
Курсовая работа
по дисциплине «Основы алгоритмизации и программирования »
Кластерный анализ методом k средних
Выполнил студент
2 курса 252б группы
Никифоров Роман Вячеславович
_______________________
Научный руководитель
Евдокимов Евгений Андреевич
_______________________
Работа защищена
«___»_____________ 2017г.
Оценка _________________
________________________
(подпись)
Барнаул 2017
СОДЕРЖАНИЕ
Введение 3
Глава 1 Кластерный анализ 4
1.1 Основные понятия 4
1.2 Задачи и условия 6
1.3 Типология задач кластеризации 7
1.4 Примеры применения 9
Глава 2 Программа кластерного анализа 12
2.1 Выбор методологии разработки программного обеспечения. 12
2.2 Описание выбранного языка программирования. 16
Введение
В современном мире структурирование данных необходимо во множестве областей: археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии, геологии и других видах деятельности.
Цель:
Разработать программный продукт для структурирования данных методом k средних.
Задачи:
1 – исследовать метод кластерного анализа и способы его реализации.
2 – провести анализ имеющихся программных продуктов.
3 – сделать выводы и разработать концепцию своего программного продукта.
4 – реализовать свой программный продукт в среде программирования.
Структура работы: Курсовая работа состоит из двух глав. В первой главе будет проведено исследование кластерного анализа, проанализированы имеющиеся программы кластерного анализа. Во второй главе будет выбрана методология проектирования, описан выбранный язык программирования. Подробно описана программа: ее назначение, входные и выходные данные, интерфейс, функции, а также – тест
Глава 1 Кластерный анализ
1.1 Основные понятия
Кластерный анализ – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.
Кластерный анализ подразумевает множество способов реализации таких как:
K-средних (K–means)
K-medians
EM-алгоритм
Алгоритмы семейства FOREL
Дискриминантный анализ
K-средних – наиболее популярный метод кластеризации. Был изобретён в 1950-х годах математиком Гуго Штейнгаузом и почти одновременно Стюартом Ллойдом. Особую популярность приобрёл после работы Маккуина.
Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров.
K-medians – это вариация k-means метода кластеризации, где для определения центроида кластера вместо среднего вычисляется медиана. Это соответствует минимизации ошибки по всем кластерам в метрике с 1-нормой, вместо метрики с 2-нормой для k-means.
Соответствующая проблема k-median состоит в поиске таких k центров, что сформированные по ним кластеры будут наиболее компактными. Формально, при заданных точках данных x, k центров ci должны быть выбраны так, чтобы минимизировать сумму расстояний от каждой x до ближайшего ci.
EM-алгоритм — алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.
FOREL (Формальный Элемент) — алгоритм кластеризации, основанный на идее объединения в один кластер объектов в областях их наибольшего сгущения.
Дискримина́нтный ана́лиз — раздел вычислительной математики, представляющий набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы»). В отличие от кластерного анализа в дискриминантном анализе группы известны априори.
