
- •Методи аналізу даних
- •Стационарные стохастические процессы
- •Математичний опис
- •[Ред.]Обсяг вибірки
- •[Ред.]Залежні і незалежні вибірки
- •[Ред.]Побудова довірчих границь і інтервалівтором
- •[Ред.]Рівень довіри
- •Графічне зображення даних
- •Разберем самый простой пример.
- •Законы распределения результатов исследования
Разберем самый простой пример.
Среди младших подростков был проведён тест для выявления самооценки. Баллы теста были переведены в три уровня: высокий, средний, низкий. Частоты распределились следующим образом:
Высокий (В) 27 чел.
Средний (С) 12 чел.
Низкий (Н) 11 чел.
Очевидно, что детей с высокой самооценкой большинство, однако это нужно доказать статистически. Для этого используем критерий Хи-квадрат.
Наша задача проверить, отличаются ли полученные эмпирические данные от теоретически равновероятных. Для этого необходимо найти теоретические частоты. В нашем случае, теоретические частоты – это равновероятноые частоты, которые находятся путём сложения всех частот и деления на количество категорий.
В нашем случае: (В + С + Н)/3 = (27+12+11)/3 = 16,6
Формула для расчета критерия хи-квадрат:
Хи-квадрат = ∑(Э - Т)² / Т
Строим таблицу:
Эмпирич. (Э) Теоретич. (Т) (Э - Т)² / Т
Высокий 27 чел. 16,6 6.41
Средний 12 чел. 16,6 1,31
Низкий 11 чел. 16,6 1,93
Находим сумму последнего столбца:
Хи-квадрат = 9,64
Теперь нужно найти критическое значение критерия по таблице критических значений. Для этого нам понадобится число степеней свободы (df)
df = (R - 1) * (C - 1), где R – количество строк в таблице, C – количество столбцов.
В нашем случае только один столбец (имеются в виду исходные эмпирические частоты) и три строки (категории), поэтому формула изменяется – исключаем столбцы.
df = (R - 1) = 3-1 = 2
Для вероятности ошибки p≤0,05 и df = 2 критическое значение хи-квадрат = 5,99.
Полученное эмпирическое значение больше критического – различия частот достоверны (хи-квадрат = 9,64; p≤0,05).
Как видим, расчет критерия очень прост и не занимает много времени. Практическая ценность критерия хи-квадрат огромна. Этот метод оказывается наиболее ценным при анализе ответов на вопросы анкет.
Разберем более сложный пример.
К примеру, психолог хочет узнать, действительно ли то, что учителя более предвзято относятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Для этого психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: «активный», «старательный», «дисциплинированный», синонимы слов так же подсчитывались. Данные о частоте встречаемости слов были занесены в таблицу:
|
«Активный» |
«Старательный» |
«Дисциплинированный» |
Мальчики |
10 |
5 |
6 |
Девочки |
6 |
12 |
9 |
Для обработки полученных данных используем критерий хи-квадрат.
Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:
|
«Активный» |
«Старательный» |
«Дисциплинированный» |
Итого: |
Мальчики |
10 |
5 |
6 |
21 |
Девочки |
6 |
12 |
9 |
27 |
Итого: |
16 |
17 |
15 |
n = 48 |
Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую суму (n).
|
«Активный» |
«Старательный» |
«Дисциплинированный» |
Итого: |
Мальчики |
(21 * 16)/48 = 7 |
(21 * 17)/48 = 7.44 |
(21 * 15)/48 = 6.56 |
21 |
Девочки |
(27 * 16)/48 = 9 |
(27 * 17)/48 = 9.56 |
(27 * 15)/48 = 8.44 |
27 |
Итого: |
16 |
17 |
15 |
n = 48 |
Итоговая таблица для вычислений будет выглядеть так:
Категория 1 |
Категория 2 |
Эмпирич. |
Теоретич. |
(Э-Т)2/Т |
Мальчики |
«Активный» |
10 |
7 |
1,28 |
|
«Старательный» |
5 |
7,44 |
0,8 |
|
«Дисциплини-рованный» |
6 |
6,56 |
0,05 |
Девочки |
«Активный» |
6 |
9 |
1 |
|
«Старательный» |
12 |
9,56 |
0,62 |
|
«Дисциплини-рованный» |
9 |
8,44 |
0,04 |
|
|
|
|
Сумма: 3,79 |
Хи-квадрат = ∑(Э - Т)² / Т
df = (R - 1) * (C - 1), где R – количество строк в таблице, C – количество столбцов.
В нашем случае хи-квадрат = 4,21; df = 2.
По таблице критических значений критерия находим: при df = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99.
Полученное значение меньше критического, а значит принимается нулевая гипотеза. Вывод: учителя не придают значение полу ребенка при написании ему характеристики.
Побудова емпіричних законів розподілу.