- •1. Введение
- •2. Основные этапы статистического анализа данных
- •3. Генеральная совокупность и выборка из нее. Репрезентативность выборки
- •4. Основные способы организации выборки
- •5. Шкалы измерений
- •6. Табулирование данных
- •7. Квантиль
- •8. Графическое представление данных
- •80 Огива всегда
- •9. Меры центральной тенденции
- •10. Меры изменчивости
- •Для получения более точной меры изменчивости, которая
- •Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).
- •11. Нормальное распределение
- •В ысота опред. , площадь под
- •12. Предварительный анализ выборки
- •13. Статистический вывод. Проверка гипотез
- •14. Общая схема проверки статистической гипотезы
- •15. Сравнение средних значений количественных признаков двух независимых выборок
- •16. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок
- •17. Сравнение средних значений ранжированных признаков двух независимых выборок
- •18. Сравнение средних значений ранжированных признаков двух связанных выборок
- •19. Сравнение дисперсий двух независимых выборок
- •20. Сравнение дисперсий двух зависимых (связанных) выборок
- •22. Значимость коэффициента корреляции
- •23. Анализ взаимосвязи ранжированных признаков
- •24. Коэффициент ранговой корреляции кендалла
- •25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
- •26. Бисериальный коэффициент корреляции (бкк)
- •27. Ранговый бисериальный коэффициент корреляции
- •28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
- •29. Однофакторный анализ (офа)
- •30. Однофакторный дисперсионный анализ (ода)
- •31. Двухфакторный анализ
- •32. Двухфакторный дисперсионный анализ (дда)
- •33. Проверка нормальности распределения исходных данных
- •Статистическая обработка исходных данных с помощью Microsoft Excel.
- •Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.К. Требует знания дисперсии гс, что на практике редко встречается.
- •Литература
25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
Иногда оба признака (переменные) могут быть измерены в номинальной шкале. Рассмотрим частный случай номинальной шкалы, которая называется дихотомической, т.е. признак может принимать только два значения: либо 0, либо 1.
В этом случае исходные данные, т.е. две выборки, представляют собой два столбца, состоящие из 0 и 1, причем каждая строка соответствует значениям двух признаков для одного и того же лица.
Пример: пусть переменная х – это семейное положение, причем 1 – женат и 0 – холост; переменная у – исключение из колледжа, 1 – исключен и 0 – учится.
х |
у |
0 1 0 0 1 1 0 1 0 0 0 1 |
0 1 1 0 1 0 0 1 0 1 0 1 |
Для анализа взаимосвязи между двумя номинальными признаками можно воспользоваться формулой КК Пирсона. Однако в нашем случае эту формулу можно заменить на более простую, эквивалентную. КК для номинальных признаков обычно обозначается . Пусть рх – доля людей, для которых переменная х = 1; gх – доля людей, для которых переменная х = 0. Очевидно, что gх = 1 - рх. pу – доля людей, для которых переменная у = 1.gу – доля людей, для которых у = 0. рху – доля людей, для которых и х и у = 1. Тогда КК вычисляется по формуле:
= (pxy – px py) : px gx py gy
Вычислим этот коэффициент для нашего примера. Для этого сначала найдем рх = 5/12 = 0,4167
gх = 1 – 0,4167 = 0,5833
pу = 6/12 = 0,5
gy = 1 – 0,5 = 0,5
pху = 4/12 = 0,3333
= (0,3333 – 0,4167 0,5) : 0,4167 0,5833 0,5 0,5 = 0,507
После вычисления КК нужно осуществить проверку его значимости. Проверка значимости проводится аналогично проверке значимости КРК Кендалла, только наблюдаемое значение статистики критерия вычисляется по формуле:
Zнабл = n
Проверим на значимость вычисленный в примере выше КК .
= 0,507 n = 12
Zнабл = 12 0,507 = 1,76
= 0,05 из таблицы Zкр = 1,96
H1 H0 H1
-1,96 1,76 1,96
Так как – Zкр < Zнабл < Zкр, то мы должны принимать гипотезу Н0, т.е. делаем вывод о том, что на уровне значимости 0,05 КК статистически = 0.
26. Бисериальный коэффициент корреляции (бкк)
Данный КК вычисляется, когда одна переменная измерена в номинальной дихотомической шкале (0 или 1), а вторая переменная в количественной шкале. Одним из способов описания связи между такими переменными является просто вычисление КК Пирсона по исходным данным. Однако можно воспользоваться более простой формулой для вычисления. В этом случае КК называется точечный бисериальный КК и обозначается prb. Он вычисляется по следующей формуле:
rpb = (x 1 – x 0) : Sx (n1 n0 : n (n – 1) , где x 1 – среднее значение для тех лиц, у которых номинальная переменная у = 1; x 0 – среднее значение для тех лиц, у который номинальная переменная у = 0; Sx – стандартное отклонение для значений по переменной х; n1 – количество лиц, для которых переменная у = 1; n0 – количество лиц, для которых переменная у = 0; n – общее количество лиц, т.е. n = n1 + n0.
Этот КК называется бисериальным, т.к. фактически имеется две серии лиц. Одна серия лиц, для которых номинальная переменная у = 1,а вторая серия лиц, для которых номинальная переменная у = 0.
Пример вычисления бисериального КК.
Пусть переменная х – это рост в см, а переменная у – это пол (1 – мальчики, 0 – девочки). В эксперименте участвовали 15 подростков. Были получены следующие результаты:
х |
у |
150 170 160 165 140 183 157 152 163 168 180 155 157 160 152 |
1 0 1 1 0 1 0 0 1 1 1 0 1 0 0 |
n = 15 n1 = 8 n0 = 7
x 1 = (150+160+…+157) : 8 = 163,25
x 0 = (170+140+…+152) : 7 = 156,57
x = 8,94
rpb = (163,25 – 156,57) : 8,94 8 7; (15 (15 – 1)) = 0,41
n = 15 = 0,05
tнабл = n – 2 rpb : 1 – rpb = 15 – 2 0,41 : 1 – (0,41) = 1,62
/2 = 0,05/2 = 0,025 = n – 2 = 15 – 2 = 13 tкр = 2,16
Н0
-2,16 1,62 2,16
Так как - tкр < tнабл < tкр, то делаем вывод о том, что КК статистически = 0, т.е. корреляционной связи между полом подростков и их ростом нет.