Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АД.doc
Скачиваний:
78
Добавлен:
27.03.2016
Размер:
764.42 Кб
Скачать

Методы многомерного анализа данных

Детерминационный анализ (ДА). Основная идея ДА – это идея правила, которое можно найти по частотам совпадений или несовпадений событий. Такое правило называется "детерминацией", а математическая теория таких правил – носит название «детерминационный анализ» или ДА.

Люди находят правила (детерминации), наблюдая совпадения либо несовпадения событий. Например, если замечено, что появление A всегда сопровождается появлением B, значит, есть правило "Если A, то B", или, короче, A  B. Если A изобразить в виде одного кружка, а B – в виде другого, то кружок A полностью входит в кружок B, как показано на рисунке 6. Это и означает, что имеет место точное правило A  B:

Рис. 6. Случай, когда имеется точное правило A  B. Кружок A (красный) полностью входит в кружок B. Обрамляющий прямоугольник символизирует весь массив наблюдений.

Идея правила как детерминации тесно связана с идеей предсказания, объяснения. Знание правил позволяет успешно действовать, предвидя результат. В этом причина интереса к правилам. Пример правила, которое может заинтересовать специалиста по предвыборным технологиям: "Если кандидат сделает в таких-то условиях такое-то заявление, его рейтинг в таких-то группах повысится, а в таких-то – станет ниже". Правила – это самая естественная форма знаний, поэтому они нужны всем.

Любое правило имеет две фундаментальные характеристики – точность и полноту. Точность правила A  B это, по определению, доля случаев B среди случаев A. На рисунке 1 эта доля равна 1 (100%), что и означает, что правило A  B предельно точное. Помимо точности есть еще одна фундаментальная характеристика – полнота. Из рисунка 1 видно, что с помощью правила A  B можно предсказать лишь примерно одну четверть всех случаев появления B. Чтобы применить правило A  B, нужно сначала обнаружить A, и только после этого можно предсказать наличие B. А площадь кружка A составляет примерно одну четверть от площади кружка B. Правило AB точное, но не полное, его полнота равна примерно одной четверти (25%).

В общем случае полнота правила AB есть, по определению, доля случаев A среди случаев B. Полнота правила AB равна точности обратного правила BA, а точность правила AB равна полноте обратного правила. При перемене направления стрелки в любом правиле точность и полнота меняются местами.

Неточное правило можно сделать точным. Точных правил не так много. Большинство правил – неточные. Если правило A B неточное, кружок A не полностью входит в кружок B, как показано на рисунке 7.

Рис. 7. Случай, когда имеется неточное правило A  B. Только часть кружка A (окрашена красным) входит в кружок B.

Если в неточное правило AB добавить некоторый фактор C, может случиться, что правило ACB, которое получится в результате, будет точным. Пример такой ситуации показан на рисунке 8.

Рис. 8. В неточное правило A B добавлен фактор C. В результате получилось точное правило AC  B. Все случаи, когда имеется сочетание A и C (окрашены красным) оказались внутри кружка B.

Конечно, может случиться, что точность правила ACB будет еще менее точным, чем первоначальное правило AB. На рисунке 9 правило AC  B имеет точность, равную нулю.

Рис. 9. В неточное правило A  B добавлен фактор C.

В результате получилось правило AC  B, которое имеет точность, равную нулю. Все случаи, когда имеется сочетание A и C (окрашены серым) оказались вне кружка B.

Для обозначения того объекта, который является носителем локальной связи, вводится понятие детерминации, обозначаемой аb. Детерминация определяется как носитель локальной связи или как нечто, задаваемое двумя величинами:

точностью I (а→b) = Р(b/а) и

полнотой С (а→b) = Р (а /b) (справа стоят относительные частоты).

Факторный анализ

Одна из важных задач статистики – сделать эмпирическую информацию компактной, удобной для анализа. Одним из направлений конденсации информации является факторный анализ признаков.

Основная идея факторного анализа состоит в следующем. Индивиды обладают самыми разнообразными признаками, которые не являются независимыми. Связи между ними изучаются с помощью методов корреляционного анализа. Можно предположить, что некоторые признаки образуют группы, каждая из которых отражает определенный аспект сложного явления. При анализе системы признаков мы сталкиваемся с классификацией признаков, т. е. с выявлением групп признаков, имеющих сходный характер изменения при переходе от одного объекта к другому. В частности, ставится задача найти максимально взаимосвязанные группы признаков. Выделяемые группы – это новые, комплексные переменные, называемые факторами.

Обоснованная замена большого числа признаков, описывающих объекты наблюдения, меньшим числом комплексных характеристик (факторов) составляет сущность факторного анализа.

Подчеркнем, что факторы не сводятся к некоторым, пусть главным, основным признакам исходного набора. Каждый фактор – это группа взаимосвязанных признаков из упомянутого набора, и вся совокупность входящих в него признаков определяет содержательную интерпретацию этого фактора.

Факторный анализ позволяет не только выделить группы наиболее взаимосвязанных признаков, но и отделить несущественные признаки от существенных, оценить их информативность.

В ходе факторного анализа выделяется латентная переменная-фактор, с которой коррелируют первичные переменные. Эти корреляции называются факторными нагрузками. Кроме того, рассматривают корреляцию факторов между собой.

Кластерный анализ

Еще одним направлением конденсации информации является классификация объектов. В качестве синонимов для обозначения этой группы методов используют такие термины как «кластерный анализ», «таксономия», «автоклассификация» или (более широко) говорят об использовании методов «распознавания образов». Пусть, матрица данных включает характеристики N объектов по двум количественным признакам (например, стаж работы и зарплата). Откладывая признаки по осям координат, мы можем изобразить все объекты на плоскости в виде N точек: абсцисса – значение стажа, ордината – значение зарплаты данного объекта. В этом случае говорят, что N объектов расположены в двухмерном признаковом пространстве; (по сути, это один из способов изображения двухмерного распределения признаков). Как видно из рис.10, все объекты можно разбить на три группы таким образом, что объекты внутри групп близки между собой (это означает, что они имеют близкие характеристики и по X и по Y), а объекты из разных групп – далеки.

Рис. 10. Изображение объектов в пространстве двух признаков

Множество близких между собой точек называется кластером и при интерпретации результатов рассматривается как некоторый социальный тип. Если имеется k признаков, то говорят, что объекты расположены в k-мерном признаковом пространстве. Если признаков более чем два, то точки уже невозможно изобразить на плоскости. В этом случае группировку можно осуществить с помощью формальных методов.

Результатом работы алгоритмов обычно является разбиение множества объектов на группы в пространстве признаков, заданных исследователем, а также расчет некоторых обобщенных характеристик каждого из кластеров (центр кластера, средние, меры вариации). Существуют алгоритмы, позволяющие проводить классификацию не только в пространстве признаков, измеренных с помощью метрических шкал, но и для шкал номинальных и порядковых.

Процедуры кластерного анализа распределяются по следующим направлениям.

1. Иерархические классификации, в результате которых получают схему взаимосвязи объектов или признаков в форме дендрограммы.

2. Структурные классификации предполагают предварительное определение центров сгущений объектов в пространстве. По мере присоединения к каждому центру конкретных наблюдений характеристик центров кластеров и их количество уточняется.

Регрессионный анализ

Регрессионный анализ устанавливает формы зависимости между случайной величиной У (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

Регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлена взаимосвязь. Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.

Моделью является уравнение регрессии. В случае определения формы взаимосвязи двух признаков в регрессионном анализе изменение зависимой переменной Y зависит от изменения независимой переменной Х. При этом вопрос, какую именно переменную считать за Х, а какую принимать за Y – решает исследователь, исходя из логики изучаемого процесса. В этом принципиальное отличие корреляционного и регрессионного анализов. Важность регрессионного анализа в том, что на основе регрессионных моделей разрабатываются прогнозы развития зависимой переменной Y от изменений независимой (нескольких независимых) переменной Х. Если модель построена на основании нескольких переменных Х, то регрессия называется множественной.

Определение формы зависимости между переменными X и Y является одной из главных задач регрессионного анализа. Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:

Y = f(x) + ,

в котором f(x) называется функцией регрессии, а  – величина, учитывающая случайные воздействия. Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:

При наличии случайной составляющей i значения yi имеют определенный разброс. Поэтому нет смысла подбирать функцию регрессии, проходящую через все точки. Основное правило подбора вида функции регрессии заключается в том, чтобы все точки диаграммы рассеяния были сконцентрированы около графика этой функции.

На практике, поскольку мы располагаем выборочными данными, невозможно точно построить функцию регрессии, можно только получить ее оценку, которую обозначим как . Уравнение, включающее оценку для функции регрессии, называетсявыборочным уравнением регрессии и имеет вид: . Построив «выборочную» функцию регрессии далее необходимо проверить достоверность функции и ее параметров, а также провести оценку неизвестных значений (прогноз) зависимой переменнойY.

Простейшей, с точки зрения анализа, является линейная взаимосвязь между X и Y, которая выражается в том, что точки на диаграмме рассеяния случайным образом группируются вдоль прямой линии, имеющей наклон (вверх или вниз). Регрессионная линейная модель задается уравнением Y=a+b*X, при этом переменная Y выражается через константу (a) и коэффициент (b), умноженный на переменную X. Константу называют также свободным членом а, а угловой коэффициент – регрессионным или b-коэффициентом. В уравнении регрессии оба коэффициенты должны быть значимы, как и вся модель.

В случае рассмотрения зависимости между одной зависимой переменной У и несколькими независимыми Х1, X2, ..., Хn, говорят о множественной регрессии. В этом случае регрессионное линейное уравнение имеет вид:

У = а + b1Х1 + b2Х2 +... + bnХn,

где b1,b2, ..., bn – требующие определения коэффициенты при независимых переменных Х1, Х2, ..., Хn;

а – свободный член (константа).

Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком.

Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Коэффициент детерминации (R-квадрат) определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные.

Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера). Если величина F-критерия значима (р < 0,05), то регрессионная модель является значимой.

Достоверность отличия коэффициентов b1, b2, b3 ..., bn от нуля проверяется с помощью критерия Стьюдента. В случаях, когда р > 0,05, коэффициент может считаться нулевым, а это означает, что влияние соответствующей независимой переменной на зависимую переменную недостоверно, и эта независимая переменная может быть исключена из уравнения.

Данный метод анализа был создан для анализа количественных данных. Использовать регрессионную технику для анализа номинальной шкалы бессмысленно. Для того чтобы на основе информации, полученной по номинальной шкале, можно было построить уравнение регрессии, эту информацию необходимо преобразовать. Соответствующее преобразование носит название дихотомизации номинальных данных. Этот подход применяется очень широко, поскольку его использование как бы “открывает дверь” для применения подавляющего большинства “количественных” методов с целью анализа номинальных данных. Для этого вместо каждого номинального признака, принимающего к значений, вводим k новых дихотомических (т.е. принимающих два значения, будем обозначать эти значения 0 и 1). Применение регрессионной техники к преобразованным номинальным данным называется номинальным регрессионным анализом.