Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Мат методы в психологии.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
1.37 Mб
Скачать

2. Меры различия.

Непосредственными данными для многомерного шкалирования является информация о различиях между объектами. Эти различия должны быть оп­ределены между всеми парами объектов и иметь числовое выражение. Первое требование означает, что анализируется матрица попарных различий N x N (где N — количество изучаемых объектов). Второе условие требует измерения различия, то есть введения метрики. Существуют четыре стандартных крите­рия, которым должна удовлетворять мера различия, чтобы быть метрикой:

1. Симметрия. Даны два объекта: х и у. Расстояние от х до у должно быть равно расстоянию от у до х.

2. Неразличимость идентичных объектов. Расстояние между двумя идентич­ными объектами равно 0.

3. Различимость нетождественных объектов. Расстояние между двумя раз­личающимися объектами не равно 0.

4. Неравенство треугольника. Даны три объекта: х, у и z. Расстояние от х до у меньше или равно сумме расстояний от х до z и от z до у (длина любой стороны треугольника меньше или равна сумме двух других сторон).

Эти очевидные требования, однако, не всегда выполняются в отношении некоторых показателей различия. Например, в случае социальных взаимных предпочтений: Петру нравится Маша, но Маше Петр не нравится. В этом слу­чае симметрия не соблюдена, показатель не может быть метрикой, и такие данные должны быть преобразованы к симметричному виду (разумеется, с потерей информации об асимметрии).

Из критерия симметрии следует, что матрица попарных различий N x N является симметричной относительно главной диагонали. Из критерия не­различимости идентичности объектов следует, что на главной диагонали этой матрицы различий расположены нули.

Выбор меры различия является органической частью исследования, опреде­ляется его процедурой и характером получаемых данных. По процедуре ис­следования можно выделить три типичные ситуации: испытуемые непосред­ственно оценивают степень различия (близости) изучаемых объектов; имеются данные об условной или совместной встречаемости событий (объектов); име­ется совокупность оценок для множества объектов — используются меры раз­личия профилей оценок. Отметим, что для МШ чаще всего используют непосредственные оценки различий. Остальные меры различий более спе­цифичны для кластерного анализа.

Непосредственная оценка различий

Существует большое количество достаточно хорошо разработанных про­цедур субъективной оиенки различия между объектами: это и прямая оценка различия пары объектов при помощи заданной шкалы (от 5 до 10 градаций) или графически, и сортировка пар по категориям различия (от идентичных до максимально различных). Основная сложность этих процедур — большое количество пар объектов, предлагаемых испытуемым для сравнения. Для N объектов должно быть оценено количество пар, равное N(N- l)/2. Например, если объектов 20, испытуемый должен оценить различия 190 пар объектов.

Самый простой способ организации предъявления всех возможных пар объектов — табличный N x N, когда испытуемый, оценивая различия, запол­няет нижний (верхний) треугольник таблицы. Однако при таком предъ­явлении на оценку различий между объектами влияют не только сами стимулы, но и порядок их предъявления. Речь идет о так называемых про­странственных и временных искажениях. Пространственные искажения — это влияние порядка следования объектов в каждой паре (второй объект в паре воспринимается иначе, чем первый). Временные искажения — это вли­яние порядка следования пар (пары в начале предъявления воспринимают­ся иначе, чем в конце ряда). Эти искажения могут быть компенсированы путем случайного упорядочивания порядка следования как объектов в паре, так и самих пар.

При большом числе объектов можно воспользоваться неполным планом, когда каждая пара оценивается не всеми испытуемыми. В неполных планах пары делятся на подмножества, и каждый испытуемый оценивает пары толь­ко в одном подмножестве. Каждое из подмножеств оценивается одинаковым числом испытуемых.

При непосредственной оценке различий сложных объектов, например, художественных произведений, людей и т. д., следует иметь в виду принци­пиальную многомерность таких объектов. Это может иметь своим следстви­ем выделение таких тривиальных критериев-шкал, как рост или пол для лю­дей, толщина или формат для книги и пр. Чтобы избежать таких ситуаций, целесообразно ограничивать контекст сравнения в соответствии с целями исследования — при помощи инструкции или процедуры предъявления пар для сравнения.

Результаты социометрии — матрицу взаимоотношений — тоже допустимо рассматривать как вариант прямой оценки различия. Ясно, что такие матри­цы — несимметричные, следовательно, получаемые данные требуют предва­рительной оцифровки и приведения к симметричному виду.

Меры различия профилей для количественных переменных

Профиль — это набор оценок (количественных признаков) объекта, Если объекты — это испытуемые, то профилем могут быть их оценки по каким-либо тестам. Сравниваемыми объектами могут быть и сами признаки, и объек­ты, оцениваемые испытуемыми, например, по степени предпочтения. Тогда профилем будет совокупность индивидуальных значений соответственно для признака или оцениваемого объекта. Таким образом, меры различия профи­лей могут применяться к наиболее типичным психологическим данным — типа «объект-признак».

Меры взаимосвязи — самые распространенные и очевидные показатели различия в социальных науках, в том числе в психологии. Иногда, например, в программе STATISTICA, в качестве меры различия используется величина 1 - r (где r ~ коэффициент корреляции Пирсона). Чем более сходна форма профилей оценок для двух объектов или чем более согласованы изменении индивидуальных оценок для двух признаков, тем более они похожи (выше коэффициент корреляции), а указанная мера различия — ближе к нулю. Сле­дует отметить важную особенность использования коэффициента корреля­ции в качестве меры различия. Если существует сильная взаимосвязь двух признаков, но она отрицательна (отрицательный коэффициент корреляции), то при анализе эти признаки будут трактоваться как сильно различающиеся. Но если поменять знак одной из переменных, они станут очень близки. Та­ким образом, коэффициенты корреляции могут являться адекватной мерой различия (близости) только в том случае, если все они положительны (или взяты по абсолютной величине — без учета знака).

Меры расстояния — наиболее специфичные показатели различия именно для профилей, то есть множества Р признаков, измеренных для каждого объек­та. Различие между двумя объектами, выраженное мерой расстояния, пока­зывает, насколько в среднем различаются совокупности оценок для двух объек­тов, или насколько в среднем удалены друг от друга профили оценок. Другая трактовка меры расстояния — геометрическая. Это расстояние между двумя точками (объектами) в пространстве, размерность которого равна числу при­знаков. Значения признаков для объекта трактуются как координаты, задаю­щие его положение в этом пространстве.

Есть два способа задания расстояний, и выбор способа зависит от задачи исследования. Обычно исследователь имеет таблицу (матрицу) данных N x P, где N — строки (испытуемые, объекты), Р— столбцы (признаки, оценивае­мые объекты). Если исследователя интересуют различия между объектами или испытуемыми (с точки зрения, например, их классификации), то ему необ­ходимо задавать меры различия (расстояния) между строками. Если же ему важны основания классификации признаков, то выбираются меры различия (расстояния) между столбцами.

Существует множество мер расстояния, но наиболее часто используются две: евклидово (или его квадрат) и «метрика города».

Евклидово расстояние легко представить себе как кратчайшее расстояние (по прямой) между двумя точками (объектами) в пространстве двух, трех и более координат — в соответствии с числом признаков. Наиболее подходит эта метрика для метрических данных (в шкале интервалов или отношений).

«Метрика города» (синонимы — «Манхаттан», «городских кварталов» или city-block) — получила свое название по аналогии с длиной пути пешехода, движущегося от одного объекта к другому в городе. Пешеход вынужден обходить кварталы домов по ломаной линии. Каждый «квартал» при этом — это абсолютная раз­ность между значениями двух объектов по одному из признаков. «Метрика города» больше подходит для неметрических дан­ных (порядковых и, отчасти, бинарных).

Важное замечание относительно мер расстояния касается разного масш­таба оценок (переменных). Если переменные представлены в разных шкалах, имеют разный масштаб (средние и стандартные отклонения о), то на рассто­яние больше будут влиять переменные, имеющие больший разброс (диспер­сию). Чтобы уравнять влияние переменных на расстояние между объектами, целесообразно до вычисления расстояний нормировать переменные (делить на стандартное отклонение) или преобразовать их в z-оценки.

Заключая обзор мер различия, следует отметить одно обстоятельство. Наи­более частый вид данных в психологии — это множество признаков, измерен­ных у множества испытуемых. И наиболее вероятно, что исследователь пред­почтет, выбирая многомерное шкалирование или кластерный анализ, опираться на меры различия профилей. В этой ситуации исследователь должен отдавать себе отчет в том, что получаемые показатели различия между объектами не не­сут никакой иной информации, кроме констатации того, что субъект А по из­меренным признакам более похож на субъекта В, чем на субъекта С. А инфор­мация о том, по каким признакам различия больше, а по каким — меньше, утрачивается при вычислении расстояний. Таким образом, одни и те же значе­ния различий между парами объектов могут быть обусловлены разницей в значе­ниях по разным признакам. Это обстоятельство сильно затрудняет интерпрета­цию мер расстояния. Иначе дело обстоит, если меры различия профилей используются в отношении данных о субъективных предпочтениях, когда вы­числяются меры различия между объектами предпочтения по множеству субъек­тивных оценок (между столбцами — оцениваемыми объектами). Здесь интер­претация достаточно очевидна: объекты будут тем ближе, чем ближе в среднем их располагают субъекты при упорядочивании по степени предпочтения. Во­обще говоря, если у исследователя есть выбор при планировании инструмента­рия, для классификации объектов следует предпочесть непосредственные оцен­ки различия, данные о предпочтениях или условные и совместные вероятности.

Меры различия профилей для номинативных переменных

Меры различия для частот — применяются в отношении данных типа «объект-признак», для которых каждый признак представляет собой абсолютную частоту некоторого события для каждого из объектов. В этом случае в качестве мер различия между объектами компьютерные программы предла­гают вычислять специфические меры различия для частот (Counts Measures): хи-квадрат (Chi-square) или фи-квадрат (Phi-square). Мерахи-квадрат вычис­ляется по формуле дли х2-Пирсона, а мера фи-квадрат — это ве­личина хи-квадрат, нормализованная путем деления ее на квадратный корень общей суммы частот.

Меры различия для бинарных переменных — применяются, если все пе­ременные набора являются бинарными. Для этого случая в компьютерных программах предусмотрен широкий набор бинарных мер различия (Binary Measures). Например, в программе SPSS предлагается 6 мер для МШ и 27 (!) мер для кластерного анализа.

Приведем некоторые меры различий для бинарных переменных.

Квадрат евклидова расстояния (Squared Euclidean distancе).

Евклидово расстояние (Euclidean distance).

Коэффициент сопряженности φ-Пирсона (Phi 4-poinls correlation

Q-коэффициент Юла (Yule's Q)

Величина различии (Size difference)

Простой коэффициент совстречаемости (Simple matching).