Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Управление информационными системами (УИС) Преображенская / Функционально-стоимостный анализ (ФСА) Преображенская / Блок-схемы принятия решений.Стрелочные диаграммы.Многомерный анализ данных..docx
Скачиваний:
37
Добавлен:
04.01.2020
Размер:
530.75 Кб
Скачать

Многомерный анализ данных.

Многомерный анализ данных (multivariable analysis) – анализ данных,  собранных по нескольким переменным (например, в изучении жилищных условий – возраст, доход,  размер семьи). Изучается влияние  каждой из них, а также взаимодействия между ними. Имеется широкий диапазон доступных многомерных методов, но большинство направлено на упрощение данных таким образом, чтобы разъяснить отношения между переменными. Выбор здесь зависит от характера сведений, типа проблемы и целей анализа. 

Применение многомерных методов требует соответствующего программного обеспечения. Широко известны и распространены универсальные статистические программы STATIST1CA, SPSS, STATGRAPH, STADIA, содержащие практически весь спектр статистических методов – от простейших до самых современных.

Факторный анализ – это процедура, с помощью которой большое число переменных, относящихся к имеющимся наблюдениям, сводят к меньшему количеству независимых влияющих величин, называемых факторами. При этом в один фактор объединяются переменные, сильно коррелирующие между собой. Переменные из разных факторов слабо коррелируют между собой.

Таким образом, целью факторного анализа является нахождение таких комплексных факторов, которые как можно более полно объясняют наблюдаемые связи между переменными, имеющимися в наличии.

Факторный анализ занимается определением относительно небольшого числа скрытых (латентных) факторов, изменчивостью которых объясняется изменчивость всех наблюдаемых показателей. Факторный анализ направлен на снижение размерности рассматриваемой задачи.

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.

Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.

Задачи кластерного анализа можно объединить в следующие группы:

1. Разработка типологии или классификации.

2. Исследование полезных концептуальных схем группирования объектов.

3. Представление гипотез на основе исследования данных.

4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.

Рассмотрим процедуру иерархического кластерного анализа в пакете SPSS. Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Перед началом кластеризации все объекты считаются отдельными кластерами, в ходе алгоритма они объединяются. Вначале выбирается пара ближайших кластеров, которые объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров. Таким образом, результат работы алгоритма агрегирования зависит от способов вычисления расстояния между объектами и определения близости между кластерами. Для определения расстояния между парой кластеров могут быть сформулированы различные подходы. С учетом этого в SPSS предусмотрены следующие методы:

• Среднее расстояние между кластерами (Between-groups linkage), устанавливается по умолчанию.

• Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

• Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor).

• Расстояние между самыми далекими соседями (Furthest neighbor).

• Расстояние между центрами кластеров (Centroid clustering) или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.

• Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).

• Метод Варда.

В иерархических методах каждое наблюдение образовывает сначала свой отдельный кластер. На первом шаге два соседних кластера объединяются в один; этот процесс может продолжаться до тех пор, пока не останутся только два кластера. 

Множественно-регрессионый анализ - это предсказательный метод. Основное назначение это зная одну количественную переменную можем ли мы при помощи специального уровнения регресси предсказать значение другой колличественно переменной.

Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной.

В ходе изучения материала студенты ознакомились, как с теориёй, так и с практической частью. Практическая часть заключалась научить студентов применять данные темы в жизненных задачах.