
- •Министерство образования и науки Российской Федерации Автономная некоммерческая образовательная организация высшего профессионального образования «тамбовский институт социальных технологий»
- •Учебно-методический комплекс дисциплины «Математические методы психологии» Автор: к.Пс.Н. Андреева а.А.
- •Раздел 1. Организационно-педагогическое описание учебного курса «Математические методы в психологии»
- •1.1. Назначение и цели дисциплины
- •1.2. Обязательный минимум содержание дисциплины
- •1.3. Структура дисциплины
- •1.4. Общие методические рекомендации по организации самостоятельной работы при изучении дисциплины
- •1.5. Требования к знаниям студентов и уровню их подготовки по завершению изучения дисциплины
- •1.6. Критерии оценки знаний студентов
- •Раздел 2. Тематическое содержание учебной дисциплины «Математические методы в психологии»
- •2.1. Рабочая учебная программа
- •Вопросы для подготовки к зачету по курсу
- •Раздел 3. Лекционный материал
- •3.1.Содержание лекционного материала (основной информационный блок) по темам программы учебного курса.
- •1. Первичное представление экспериментальных данных. Первичные описательные статистики.
- •2. Нормальный закон распределения. Проверка нормальности распределения.
- •Проверка гипотез с помощью статистических критериев. Содержательная интерпретация статистического решения.
- •Параметрические методы сравнения двух выборок. Сравнение дисперсий. Критерий t-Стьюдента для зависимых и независимых выборок.
- •1. Случай несвязных выборок
- •Выявление различий в уровне исследуемого признака. Оценка сдвига.
- •Выявление различий в распределении признака. Применение многофункциональных критериев к решению психологических задач.
- •Корреляция метрических переменных.
- •Применение непараметрических коэффициентов корреляции.
- •1. Математико-статистические идеи метода регрессионного анализа
- •2. Множественная линейная регрессия. Нелинейная регрессия.
- •1. Назначение, общие понятия и применение anova.
- •2. Однофакторный дисперсионный анализ anova.
- •1. Математико-статистические идеи и проблемы метода.
- •2. Использование факторного анализа в психологии
- •1. Многомерное шкалирование: назначение. Суть методов многомерного шкалирования (мш).
- •2. Меры различия.
- •3. Неметрическая модель.
- •Дискриминантный анализ: назначение.
- •Математико-статистические идеи метода. Исходные данные и результаты.
- •Кластерный анализ (ка) и система классификации исследованных объектов.
- •2. Методы кластерного анализа
- •Раздел 4. Самостоятельная работа
- •4.1. Задания для самостоятельной работы по темам
- •4.2. Примерная тематика контрольных работ и методические рекомендации по их написанию
- •Примерная тематика контрольных работ
- •Раздел 5. Литература
- •5.1. Основная литература
- •5.2. Дополнительная литература
- •Раздел 6. Тезаурус (определения основных понятий, категорий).
2. Меры различия.
Непосредственными данными для многомерного шкалирования является информация о различиях между объектами. Эти различия должны быть определены между всеми парами объектов и иметь числовое выражение. Первое требование означает, что анализируется матрица попарных различий N x N (где N — количество изучаемых объектов). Второе условие требует измерения различия, то есть введения метрики. Существуют четыре стандартных критерия, которым должна удовлетворять мера различия, чтобы быть метрикой:
1. Симметрия. Даны два объекта: х и у. Расстояние от х до у должно быть равно расстоянию от у до х.
2. Неразличимость идентичных объектов. Расстояние между двумя идентичными объектами равно 0.
3. Различимость нетождественных объектов. Расстояние между двумя различающимися объектами не равно 0.
4. Неравенство треугольника. Даны три объекта: х, у и z. Расстояние от х до у меньше или равно сумме расстояний от х до z и от z до у (длина любой стороны треугольника меньше или равна сумме двух других сторон).
Эти очевидные требования, однако, не всегда выполняются в отношении некоторых показателей различия. Например, в случае социальных взаимных предпочтений: Петру нравится Маша, но Маше Петр не нравится. В этом случае симметрия не соблюдена, показатель не может быть метрикой, и такие данные должны быть преобразованы к симметричному виду (разумеется, с потерей информации об асимметрии).
Из критерия симметрии следует, что матрица попарных различий N x N является симметричной относительно главной диагонали. Из критерия неразличимости идентичности объектов следует, что на главной диагонали этой матрицы различий расположены нули.
Выбор меры различия является органической частью исследования, определяется его процедурой и характером получаемых данных. По процедуре исследования можно выделить три типичные ситуации: испытуемые непосредственно оценивают степень различия (близости) изучаемых объектов; имеются данные об условной или совместной встречаемости событий (объектов); имеется совокупность оценок для множества объектов — используются меры различия профилей оценок. Отметим, что для МШ чаще всего используют непосредственные оценки различий. Остальные меры различий более специфичны для кластерного анализа.
Непосредственная оценка различий
Существует большое количество достаточно хорошо разработанных процедур субъективной оиенки различия между объектами: это и прямая оценка различия пары объектов при помощи заданной шкалы (от 5 до 10 градаций) или графически, и сортировка пар по категориям различия (от идентичных до максимально различных). Основная сложность этих процедур — большое количество пар объектов, предлагаемых испытуемым для сравнения. Для N объектов должно быть оценено количество пар, равное N(N- l)/2. Например, если объектов 20, испытуемый должен оценить различия 190 пар объектов.
Самый простой способ организации предъявления всех возможных пар объектов — табличный N x N, когда испытуемый, оценивая различия, заполняет нижний (верхний) треугольник таблицы. Однако при таком предъявлении на оценку различий между объектами влияют не только сами стимулы, но и порядок их предъявления. Речь идет о так называемых пространственных и временных искажениях. Пространственные искажения — это влияние порядка следования объектов в каждой паре (второй объект в паре воспринимается иначе, чем первый). Временные искажения — это влияние порядка следования пар (пары в начале предъявления воспринимаются иначе, чем в конце ряда). Эти искажения могут быть компенсированы путем случайного упорядочивания порядка следования как объектов в паре, так и самих пар.
При большом числе объектов можно воспользоваться неполным планом, когда каждая пара оценивается не всеми испытуемыми. В неполных планах пары делятся на подмножества, и каждый испытуемый оценивает пары только в одном подмножестве. Каждое из подмножеств оценивается одинаковым числом испытуемых.
При непосредственной оценке различий сложных объектов, например, художественных произведений, людей и т. д., следует иметь в виду принципиальную многомерность таких объектов. Это может иметь своим следствием выделение таких тривиальных критериев-шкал, как рост или пол для людей, толщина или формат для книги и пр. Чтобы избежать таких ситуаций, целесообразно ограничивать контекст сравнения в соответствии с целями исследования — при помощи инструкции или процедуры предъявления пар для сравнения.
Результаты социометрии — матрицу взаимоотношений — тоже допустимо рассматривать как вариант прямой оценки различия. Ясно, что такие матрицы — несимметричные, следовательно, получаемые данные требуют предварительной оцифровки и приведения к симметричному виду.
Меры различия профилей для количественных переменных
Профиль — это набор оценок (количественных признаков) объекта, Если объекты — это испытуемые, то профилем могут быть их оценки по каким-либо тестам. Сравниваемыми объектами могут быть и сами признаки, и объекты, оцениваемые испытуемыми, например, по степени предпочтения. Тогда профилем будет совокупность индивидуальных значений соответственно для признака или оцениваемого объекта. Таким образом, меры различия профилей могут применяться к наиболее типичным психологическим данным — типа «объект-признак».
Меры взаимосвязи — самые распространенные и очевидные показатели различия в социальных науках, в том числе в психологии. Иногда, например, в программе STATISTICA, в качестве меры различия используется величина 1 - r (где r ~ коэффициент корреляции Пирсона). Чем более сходна форма профилей оценок для двух объектов или чем более согласованы изменении индивидуальных оценок для двух признаков, тем более они похожи (выше коэффициент корреляции), а указанная мера различия — ближе к нулю. Следует отметить важную особенность использования коэффициента корреляции в качестве меры различия. Если существует сильная взаимосвязь двух признаков, но она отрицательна (отрицательный коэффициент корреляции), то при анализе эти признаки будут трактоваться как сильно различающиеся. Но если поменять знак одной из переменных, они станут очень близки. Таким образом, коэффициенты корреляции могут являться адекватной мерой различия (близости) только в том случае, если все они положительны (или взяты по абсолютной величине — без учета знака).
Меры расстояния — наиболее специфичные показатели различия именно для профилей, то есть множества Р признаков, измеренных для каждого объекта. Различие между двумя объектами, выраженное мерой расстояния, показывает, насколько в среднем различаются совокупности оценок для двух объектов, или насколько в среднем удалены друг от друга профили оценок. Другая трактовка меры расстояния — геометрическая. Это расстояние между двумя точками (объектами) в пространстве, размерность которого равна числу признаков. Значения признаков для объекта трактуются как координаты, задающие его положение в этом пространстве.
Есть два способа задания расстояний, и выбор способа зависит от задачи исследования. Обычно исследователь имеет таблицу (матрицу) данных N x P, где N — строки (испытуемые, объекты), Р— столбцы (признаки, оцениваемые объекты). Если исследователя интересуют различия между объектами или испытуемыми (с точки зрения, например, их классификации), то ему необходимо задавать меры различия (расстояния) между строками. Если же ему важны основания классификации признаков, то выбираются меры различия (расстояния) между столбцами.
Существует множество мер расстояния, но наиболее часто используются две: евклидово (или его квадрат) и «метрика города».
Евклидово расстояние легко представить себе как кратчайшее расстояние (по прямой) между двумя точками (объектами) в пространстве двух, трех и более координат — в соответствии с числом признаков. Наиболее подходит эта метрика для метрических данных (в шкале интервалов или отношений).
«Метрика города» (синонимы — «Манхаттан», «городских кварталов» или city-block) — получила свое название по аналогии с длиной пути пешехода, движущегося от одного объекта к другому в городе. Пешеход вынужден обходить кварталы домов по ломаной линии. Каждый «квартал» при этом — это абсолютная разность между значениями двух объектов по одному из признаков. «Метрика города» больше подходит для неметрических данных (порядковых и, отчасти, бинарных).
Важное замечание относительно мер расстояния касается разного масштаба оценок (переменных). Если переменные представлены в разных шкалах, имеют разный масштаб (средние и стандартные отклонения о), то на расстояние больше будут влиять переменные, имеющие больший разброс (дисперсию). Чтобы уравнять влияние переменных на расстояние между объектами, целесообразно до вычисления расстояний нормировать переменные (делить на стандартное отклонение) или преобразовать их в z-оценки.
Заключая обзор мер различия, следует отметить одно обстоятельство. Наиболее частый вид данных в психологии — это множество признаков, измеренных у множества испытуемых. И наиболее вероятно, что исследователь предпочтет, выбирая многомерное шкалирование или кластерный анализ, опираться на меры различия профилей. В этой ситуации исследователь должен отдавать себе отчет в том, что получаемые показатели различия между объектами не несут никакой иной информации, кроме констатации того, что субъект А по измеренным признакам более похож на субъекта В, чем на субъекта С. А информация о том, по каким признакам различия больше, а по каким — меньше, утрачивается при вычислении расстояний. Таким образом, одни и те же значения различий между парами объектов могут быть обусловлены разницей в значениях по разным признакам. Это обстоятельство сильно затрудняет интерпретацию мер расстояния. Иначе дело обстоит, если меры различия профилей используются в отношении данных о субъективных предпочтениях, когда вычисляются меры различия между объектами предпочтения по множеству субъективных оценок (между столбцами — оцениваемыми объектами). Здесь интерпретация достаточно очевидна: объекты будут тем ближе, чем ближе в среднем их располагают субъекты при упорядочивании по степени предпочтения. Вообще говоря, если у исследователя есть выбор при планировании инструментария, для классификации объектов следует предпочесть непосредственные оценки различия, данные о предпочтениях или условные и совместные вероятности.
Меры различия профилей для номинативных переменных
Меры различия для частот — применяются в отношении данных типа «объект-признак», для которых каждый признак представляет собой абсолютную частоту некоторого события для каждого из объектов. В этом случае в качестве мер различия между объектами компьютерные программы предлагают вычислять специфические меры различия для частот (Counts Measures): хи-квадрат (Chi-square) или фи-квадрат (Phi-square). Мерахи-квадрат вычисляется по формуле дли х2-Пирсона, а мера фи-квадрат — это величина хи-квадрат, нормализованная путем деления ее на квадратный корень общей суммы частот.
Меры различия для бинарных переменных — применяются, если все переменные набора являются бинарными. Для этого случая в компьютерных программах предусмотрен широкий набор бинарных мер различия (Binary Measures). Например, в программе SPSS предлагается 6 мер для МШ и 27 (!) мер для кластерного анализа.
Приведем некоторые меры различий для бинарных переменных.
Квадрат евклидова расстояния (Squared Euclidean distancе).
Евклидово расстояние (Euclidean distance).
Коэффициент сопряженности φ-Пирсона (Phi 4-poinls correlation
Q-коэффициент Юла (Yule's Q)
Величина различии (Size difference)
Простой коэффициент совстречаемости (Simple matching).