Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по ЭП.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
495.62 Кб
Скачать

Тема 9: Методы статистической проверки гипотез о различии и сходстве выборок

1. Таблицы сопряженности и критерий хи-квадрат

Таблицы сопряженности, или кросстабуляции, служат для описания связи двух или более номинативных переменных. Примерами номинатив­ных переменных являются пол (женский, мужской), класс (А, Б, В), местность (город, пригород, село), ответ (да, нет) и т. д.

Таблицы сопряженности непримени­мы к непрерывным переменным, однако последние можно разбить на интервалы. Так, возраст человека, который следует считать непрерывным из-за большого числа его возможных значений, можно разбить на интервалы от 0 до 19 лет, от 20 до 39 лет, от 40 до 59 лет и т. д.

В частности, представление непрерывной переменной в виде интервалов с помощью таблиц сопряженности иногда полезно для их наглядно­го представления.

Напротив, для статистического анализа перевод непрерывных (количественных) переменных в номинативные не целесообразен, так как теряет­ся существенная часть информации о различии объектов. Так, когда два человека в возрасте 39 и 40 лет попадают в соседние возрастные категории, с точки зрения анализа они ничем не будут отличаться от пары людей в возрасте 20 и 59 лет.

Таблицы сопряженности

С помощью команды частотного анализа мы можем узнать, что среди школьников 39 юношей и 61 девушка, что 33 из них увлекают­ся спортом, 37 — компьютером и 30 — искусством. Однако команда Frequencies (Частоты) не позволяет ответить на вопросы, сколько девушек увлекаются спор­том или сколько юношей — искусством. Для этого существуют таблицы сопряженности. Для ответа на этот вопрос необходимо «сопрячь», или «пересечь», подмножество учащихся определенного пола с подмножеством учащихся с определенным увлечением.

Такое сопряжение удобно представить в виде таблицы, строки которой соответствуют полу, столбцы — увлечению.

Тогда в ячейке, находящейся, например, на пересечении сторон «мужской» и столбца «искусство», мы увидим количество (частоту) юношей которые увлекаются искусством. Поскольку существуют 2 градации пола и 3 градации внешкольных увлечений (хобби), наша перекрестная таблица будет состоять из 2 х 3 - 6 ячеек. Можно составлять и сложные таблицы сопряженности включающие три и более переменные.

Если создать таблицу сопряженности пол – хобби – класс – вуз. Эта таблица будет содержать 2x3x3x4 = 72 ячейки.

При задании этих четырех номинативиых переменных программа SPSS вместо «четырехмерной» таблицы построит 12 двухмерных таблиц размерностью 2x3, «вложенных» в одну таблиц.Мы также можем сравнить подгруппы по средним значениям. Можно сравнить средние значения успеваемости юношей и девушек (пол) разных классов (класс) и т.д.

Критерий независимости хи-квадрат

Помимо частот можно вычислять ожидаемые значения для каждой ячейки таблицы. Ожидаемое значение вычисляется в предположении, что две номинативные переменные независимы друг от друга.

Пример. Пусть в комнате находится 100 человек, из которых 30 являются мужчинами, а 70 — женщинами. Если известно, что из этих 100 человек 10 увлекаются искусством, то в случае, если увлечение не зависит от пола мы будем ожидать, что из 10 увлекающихся искусством 3 являются мужчинами а 7 — женщинами.

Сопоставляя эти ожидаемые частоты с наблюдаемыми частотами, мы можем судить о том, действительно ли два номинативных признакам связаны. Чем больше расхождение наблюдаемых и ожидаемых частот, тем, более очевидно, что два признака сильнее связаны друг с другом. Целью применения критерия независимости х2 и является установление степени соответствия между наблюдаемыми и ожидаемыми значениями ячеек.