
- •Министерство образования и науки Российской Федерации Автономная некоммерческая образовательная организация высшего профессионального образования «тамбовский институт социальных технологий»
- •Учебно-методический комплекс дисциплины «Математические методы психологии» Автор: к.Пс.Н. Андреева а.А.
- •Раздел 1. Организационно-педагогическое описание учебного курса «Математические методы в психологии»
- •1.1. Назначение и цели дисциплины
- •1.2. Обязательный минимум содержание дисциплины
- •1.3. Структура дисциплины
- •1.4. Общие методические рекомендации по организации самостоятельной работы при изучении дисциплины
- •1.5. Требования к знаниям студентов и уровню их подготовки по завершению изучения дисциплины
- •1.6. Критерии оценки знаний студентов
- •Раздел 2. Тематическое содержание учебной дисциплины «Математические методы в психологии»
- •2.1. Рабочая учебная программа
- •Вопросы для подготовки к зачету по курсу
- •Раздел 3. Лекционный материал
- •3.1.Содержание лекционного материала (основной информационный блок) по темам программы учебного курса.
- •1. Первичное представление экспериментальных данных. Первичные описательные статистики.
- •2. Нормальный закон распределения. Проверка нормальности распределения.
- •Проверка гипотез с помощью статистических критериев. Содержательная интерпретация статистического решения.
- •Параметрические методы сравнения двух выборок. Сравнение дисперсий. Критерий t-Стьюдента для зависимых и независимых выборок.
- •1. Случай несвязных выборок
- •Выявление различий в уровне исследуемого признака. Оценка сдвига.
- •Выявление различий в распределении признака. Применение многофункциональных критериев к решению психологических задач.
- •Корреляция метрических переменных.
- •Применение непараметрических коэффициентов корреляции.
- •1. Математико-статистические идеи метода регрессионного анализа
- •2. Множественная линейная регрессия. Нелинейная регрессия.
- •1. Назначение, общие понятия и применение anova.
- •2. Однофакторный дисперсионный анализ anova.
- •1. Математико-статистические идеи и проблемы метода.
- •2. Использование факторного анализа в психологии
- •1. Многомерное шкалирование: назначение. Суть методов многомерного шкалирования (мш).
- •2. Меры различия.
- •3. Неметрическая модель.
- •Дискриминантный анализ: назначение.
- •Математико-статистические идеи метода. Исходные данные и результаты.
- •Кластерный анализ (ка) и система классификации исследованных объектов.
- •2. Методы кластерного анализа
- •Раздел 4. Самостоятельная работа
- •4.1. Задания для самостоятельной работы по темам
- •4.2. Примерная тематика контрольных работ и методические рекомендации по их написанию
- •Примерная тематика контрольных работ
- •Раздел 5. Литература
- •5.1. Основная литература
- •5.2. Дополнительная литература
- •Раздел 6. Тезаурус (определения основных понятий, категорий).
Математико-статистические идеи метода. Исходные данные и результаты.
Классы, на которые разбито множество объектов, можно представить как значения некоторой классифицирующей («зависимой») переменной, измеренной в шкале наименований. Дискриминантные переменные представлены в числовой шкале. Основная задача дискриминантного анализа заключается в том, чтобы по значениям дискриминантных переменных для объектов получить значения классифицирующей переменной, то есть определить классы, в которые попадают эти объекты.
Дискриминантные переменные, количество которых равно Р, можно представить себе как ортогональные оси р-мерного евклидова пространства. Тогда каждый объект будет являться точкой в этом пространстве, положение которой задано значениями дискриминантных переменных для этого объекта как его координатами. Так, если переменных две, то объект может быть изображен на плоскости в месте пересечения координат, соответствующих значениям этих двух переменных для данного объекта. Если переменных три, то объект представляет собой точку в трехмерном пространстве, и т. д.
Множество объектов в пространстве Р признаков можно представить как скопление точек. Чем более объекты похожи друг на друга по данным признакам, тем плотнее будет скопление точек. Если несколько классов объектов отличаются друг от друга по дискриминантным переменным, то их можно представить как. соответствующие классам скопления точек в некоторых областях Р-мерного пространства признаков. Чем больше объекты внутри каждого класса похожи друг на друга и отличаются от объектов из другого класса, тем меньше пересечений соответствующих классам «территорий»,
Для каждого класса в пространстве признаков можно определить положение центроида — точки, координаты которой есть средние значения дискриминантных переменных для данного класса. Центроид — это место типичных наблюдений для данного класса, его можно использовать как для описания различий между классами, так и для определения принадлежности «неизвестных» объектов к одному из классов.
Из геометрической интерпретации задачи дискриминантного анализа следует правило классификации объектов: объект приписывается к тому классу, к центроиду которого он ближе всего. Соответственно, сама задача классификации объектов сводится к определению расстояний от каждого объекта до центроидов каждого класса по известным значениям дискриминантных переменных.
В современных компьютерных программах задача классификации решается с помощью канонических дискриминантных функций. Канонические функции — это ортогональные оси, в максимальной степени различающие центроиды классов. Началом координат для канонических функций является «главный центроид» — точка, координаты которой есть средние значения всех дискриминантных переменных. Первая каноническая ось ориентирована в направлении, в котором центроиды классов различаются в максимальной степени. Если классов больше двух, то вторая ось ориентирована перпендикулярно первой в направлении максимального различия классов и т. д. Максимальное число таких функций равно числу классов за вычетом единицы. Так, для различения двух центроидов (классов) достаточно одной оси, для различения трех классов — двух канонических функций, и т.д. Таким образом, канонические функции позволяют преобразовать Р-мерное пространство исходных признаков в Q-мерное пространство дискриминантных функций (Q = G - 1, где G — число классов).
Канонические функции и дискриминантные переменные связывают стандартизированные канонические коэффициенты, которые позволяют оценить относительный вклад переменных в каждую каноническую функцию. В отличие от них, структурные коэффициенты канонических функций — это корреляции канонических функций и дискриминантных переменных. Как и факторные нагрузки в факторном анализе, структурные коэффициенты отражают связь дискриминантных переменных с каноническими функциями. Структурные коэффициенты канонических функций показывают вклад каждой дискриминантной переменной в различительную способность соответствующей функции. Таким образом, каждая каноническая функция может быть интерпретирована через переменные, вносящие в нее наибольший по абсолютной величине вклад — подобно интерпретации факторов по факторным нагрузкам в факторном анализе.
Анализ канонических функций сопровождается получением важных статистических показателей качества классификации. Основными из них являются: собственное значение канонической функции, λ-Вилкса и χ2-тест.
Собственное значение канонической функции, как и в факторном анализе, есть показатель информативности функции. Сумма всех собственных значений равна числу классов. Соответственно, собственное значение для данной канонической функции, деленное на количество классов, есть показатель ее информативности — доли суммарной дисперсии всех объектов по всем переменным, которая исчерпывается этой канонической функцией.
λ-Вилкса выполняет ту же функцию, что и в MANOVA, то есть является мерой достоверности различения классов при помощи данного набора переменных. λ-Вилкса — это мера остаточной дискриминативной способности переменных при учете данного набора канонических функций. Следовательно, чем меньше λ-Вилкса, тем лучше данная каноническая функция (или весь их набор) различает объекты. χ2-тест позволяет определить статистическую достоверность такого различения.
Значения канонических функций вычисляются для каждого объекта по формуле, которая идентична по виду линейному уравнению множественной регрессии.
Значения канонических функций вычисляются для каждого центроида и каждого объекта, в том числе — «неизвестного», для которого не известна принадлежность к классу, и интерпретируются как их координаты в пространстве канонических функций. В этом пространстве малой размерности можно получить наглядное отображение всех объектов вместе с центроидами классов.
Принадлежность объекта к классу в большинстве компьютерных программ дискриминантного анализа определяется по расстоянию этого объекта до центроида соответствующего класса в пространстве канонических функций. Объект причисляется к тому классу, к центроиду которого он ближе всего. Однако надо помнить, что если расстояние объекта до класса велико (то есть профиль объекта мало похож на среднегрупповой), то объект может быть причислен к данному классу, поскольку до остальных классов он еще дальше.
Производной от расстояния является еще одна мера классификации -апостериорная вероятность принадлежности к классу. Априорная вероятность («до опыта») принадлежности «нового» объекта к классу равна численности «известных» объектов этого класса, деленной на все «известные» объекты. Эта вероятность известна и без дискриминантного анализа, «до опыта». Апостериорная вероятность («после опыта») вычисляется исходя из расстояний данного объекта до центроидов каждого класса в предположении, что он принадлежит к одному из этих классов. Для любого объекта, следовательно, сумма этих вероятностей по всем классам равна 1. И чем меньше расстояние этого объекта до центроида класса, тем выше апостериорная вероятность его принадлежности к этому классу. Отнесение объекта к классу на основе наибольшей из вероятностей, таким образом, эквивалентно использованию наименьшего расстояния до центроида этого класса.
Вычисленные расстояния или апостериорные вероятности для известных объектов позволяют определить точность классификации и проанализировать ошибки, а для неизвестных — отнести объекты к одному из классов.
Анализ дискриминантных переменных позволяет, если это необходимо, отсеять несущественные для предсказания дискриминантные переменные. Наиболее важными показателями в этом анализе являются: критерий F-Фишера, толерантность и статистика F-удаления. Значимость каждой переменной для разделения классов определяется по F -Фишера по модели дисперсионного анализа. Толерантность равна единице минус квадрат коэффициента множественной корреляции этой переменной со всеми остальными. Если толерантность равна нулю, то эта переменная является линейной комбинацией одной или нескольких других переменных и ее нельзя включать в анализ, равно как и переменные с очень малой толерантностью (скажем, меньше 0,001). Статистика F-удаления оценивает ухудшение разделения классов при удалении данной переменной из набора. Следовательно, чем больше значение этой статистики, тем более значима данная переменная для различения классов. На величину статистики F -удаления влияет не только различительная способность самой этой переменной (как в модели дисперсионного анализа), но и ее связь с другими переменными: чем сильнее она связана с другими переменными, тем меньше статистика F-удаления, тем меньше значение данной переменной.
Компьютерные программы позволяют автоматически отсеять малозначимые для дискриминантного анализа переменные. Во-первых, программа (SPSS) автоматически исключает из анализа переменные с низкой толерантностью. Во-вторых, возможен пошаговый дискриминантами анализ. При пошаговом методе переменные удаляются из анализа или включаются в него на основе улучшения (ухудшения) качества различения классов (обычно — по λ-Вилкса). Критериями для включения и удаления переменной являются статистики F -включения и F -удаления, которые показывают степень улучшения и ухудшения различения классов при включении и удалении данной переменной. Численные значения этих статистик могут быть заданы пользователем программы.
Дополнением к задаче классификации является анализ расстоянии между классами. Программы обычно вычисляют значения F -критерия Фишера и р-уровень статистической значимости расстояния. Анализ расстояний позволяет определить, насколько существенно различаются классы по выбранным для анализа дискриминантным переменным.
Несмотря на обилие статистических критериев и показателей качества классификации, основным ориентиром для исследователя должно вес же являться сопоставление действительной классификации «известных» объектов и их классификации при помощи канонических функций. Таким образом, основным показателем качества является процент совпадения этих двух классификаций.
Дискриминантный анализ относится к наиболее сложным методам.
Тема: «Кластерный анализ»