- •1. Введение
- •2. Основные этапы статистического анализа данных
- •3. Генеральная совокупность и выборка из нее. Репрезентативность выборки
- •4. Основные способы организации выборки
- •5. Шкалы измерений
- •6. Табулирование данных
- •7. Квантиль
- •8. Графическое представление данных
- •80 Огива всегда
- •9. Меры центральной тенденции
- •10. Меры изменчивости
- •Для получения более точной меры изменчивости, которая
- •Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).
- •11. Нормальное распределение
- •В ысота опред. , площадь под
- •12. Предварительный анализ выборки
- •13. Статистический вывод. Проверка гипотез
- •14. Общая схема проверки статистической гипотезы
- •15. Сравнение средних значений количественных признаков двух независимых выборок
- •16. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок
- •17. Сравнение средних значений ранжированных признаков двух независимых выборок
- •18. Сравнение средних значений ранжированных признаков двух связанных выборок
- •19. Сравнение дисперсий двух независимых выборок
- •20. Сравнение дисперсий двух зависимых (связанных) выборок
- •22. Значимость коэффициента корреляции
- •23. Анализ взаимосвязи ранжированных признаков
- •24. Коэффициент ранговой корреляции кендалла
- •25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
- •26. Бисериальный коэффициент корреляции (бкк)
- •27. Ранговый бисериальный коэффициент корреляции
- •28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
- •29. Однофакторный анализ (офа)
- •30. Однофакторный дисперсионный анализ (ода)
- •31. Двухфакторный анализ
- •32. Двухфакторный дисперсионный анализ (дда)
- •33. Проверка нормальности распределения исходных данных
- •Статистическая обработка исходных данных с помощью Microsoft Excel.
- •Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.К. Требует знания дисперсии гс, что на практике редко встречается.
- •Литература
27. Ранговый бисериальный коэффициент корреляции
Данный КК вычисляется в случае, когда одна переменная (например, х) измерена в номинальной дихотомической шкале, а вторая (например, у) в порядковой (ранговой) шкале. Этот коэффициент был исследован Кертеном и Глассом. Гласс предложил для вычисления ранговой корреляции формулу, которая не требует подсчета совпадений и инверсии.
rrb = 2/n (y 1 – y 0) , где n – общее количество лиц; y 1 – среднее значение по переменной у для лиц, у которых переменная х = 1; y 0 – среднее значение по переменной у для лиц, у которых переменная х = 0.
Пример: пусть у нас имеются следующие исходные данные:
х (пол) |
у (ранги по росту) |
0 1 0 1 0 0 1 1 0 0 |
1 10 2 9 5 8 4 7 3 6 |
n = 10
y 1 = (10+9+4+7) : 4 = 7,5
y 0 = (1+2+5+8+3+6) : 6 = 4,167
rrb = 2/10 (7,5 – 4,167) = 0,67
Примечание. Если одна переменная, например, х, измерена в порядковой шкале, а вторая переменная у в количественной шкале, то в этом случае не было разработано и исследовано никакого коэффициента корреляции. В такой ситуации рекомендуется преобразовать данные для количественной переменной в порядковую шкалу, т.е. проранжировать и воспользоваться после этого КРК Спирмена или КРК Кендалла.
Таблица выбора необходимого коэффициента корреляции.
у х |
Номинальная дихотомическая |
Ранговая (порядковая) |
Количественная |
Номинальная дихотомическая |
Параграф 25 |
Параграф 27 |
Параграф 26 (по у ) |
Ранговая (порядковая) |
Параграф 27 |
Параграф 23 – 24 |
Примечание параграф 27 |
Количественная |
Параграф 26 (по х ) |
Примечание параграф 27 |
Параграф 21 - 22 |
28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
Иногда измерения двух исследуемых признаков производятся в номинальной шкале, т.е. в шкале классификаций. Например, учащихся можно классифицировать по полу, а также по специальности: гуманитарий или естественник. В этом случае информация может быть представлена в виде таблицы, которая получила название таблица сопряженности. Для ее построения сначала выясняем, сколько уровней содержит тот или иной признак. Пусть первый признак имеет Iуровней, а второй признак - J. В этом случае таблица сопряженности имеет следующий вид:
|
Признак 2 |
Итого по строкам |
|||
Признак 1 |
f11 |
f12 |
… |
f1J |
f1 |
f21 |
f22 |
… |
f2J |
f2 |
|
… |
… |
… |
… |
… |
|
fI1 |
fI2 |
… |
fIJ |
fI |
|
Итого по столбцам |
f 1 |
f 2 |
… |
f J |
f n |
В этой таблице клетки называются ячейками, а числа, стоящие в ячейках – частотами.
Предположим, что всего у нас имеется n объектов (лиц). Частота fij означает, что среди n–исходных лиц имеется fij, для которых первый признак соответствует i-ому уровню, второй - j-тому уровню. Рассмотрим классификацию 120 людей по полу и политической принадлежности:
|
Демократическая партия |
Республиканская |
Независимая |
Итого по строкам |
Муж. |
29 |
36 |
15 |
80 |
Жен. |
14 |
24 |
2 |
40 |
Итого по столбцам |
43 |
60 |
17 |
n=120 |
Таблицы сопряженности используются для проверки независимости двух рассматриваемых номинальных признаков (отсутствие или наличие влияния). Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы (5 этапов).
этап. Выдвигаются две гипотезы: основная нулевая Н0 о том, что два рассматриваемых признака являются независимыми и альтернативная Н1 о том, что эти два признака являются зависимыми.
2 этап. Выбираем уровень значимости .
3 этап. Вычисляем наблюдаемое значение статистики критерия по следующей формуле:
2 I J 2
набл. = n [ fij : fi fj - 1]
i=1j=1
4 этап. Находим критическое значение статистики критерия. В
2
нашем случае статистика критерия имеет - распределение с числом степеней свободы = (I – 1) (J – 1). Поэтому для нахождения критического
2 2
значения кр необходимо воспользоваться статистической таблицей -
распределения. Находим столбец, соответствующий величине 1 - (если таблицы называются квантили распределения) или величине (если таблицы называются верхние %-ные точки) и строку, соответствующую числу степеней свободы . На пересечении выбранных строки и столбца и
2
находится требуемое нам кр.
5 этап. Делаем вывод о правильности той или иной гипотезы по
2 2
следующему правилу: 1) если набл < кр, то принимается гипотеза Н0, т.е. делаем вывод о том, что два рассматриваемых признака являются независимыми или, другими словами, один признак не влияет на другой. 2)
2 2
если же набл > кр, то принимается гипотеза Н1, т.е. делаем вывод о том, что два рассматриваемых признака являются зависимыми на уровне значимости или, другими словами, один признак влияет на другой.
2
набл
Н0 Н1
2
кр
Примечание. Уровни признака не должны пересекаться, т.е. один и тот же объект в таблице сопряженности должен попадать только в какую-либо одну ячейку.
Достоверные выводы получатся, если в каждой ячейке частота не меньше 5 fij > 5.
Пример: проведем проверку независимости между политической принадлежностью и полом для исходных данных, приведенных в начале параграфа.
Решение. I = 2; n = 120
J = 3; = 0,01
2 2 2 2 2
набл = 120 [ 29 : 80 43 + 36 : 80 60 + 15 : 80 17 + 14 : 43 40 + 24 : 40 60
2
+ 2 : 40 17 – 1 ] = 4,776
= (2 – 1) (3 – 1) = 2
2
кр = 9,21 – находим из таблицы
Н0
4,776 9,21
2 2
Так как набл < кр, то делаем вывод о том, что на уровне значимости 0,01 между политической принадлежностью и полом никакой зависимости нет.
В частном случае, когда каждый из признаков имеет только два
2
уровня, т.е. I = 2 J = 2, формула для вычисления набл упрощается и имеет следующий вид:
2
набл = n (f11 f22 – f12 f21) : f1 f2 f 1 f 2
Рассмотрим пример.
|
Психологи |
Социологи |
Итого |
Незачет |
25 |
34 |
59 |
зачет |
151 |
49 |
200 |
|
176 |
83 |
n = 259 |
2 2
набл= 259 (25 49 – 34 151) : 59 200 176 83 = 22,96
= 0,05 = (2 – 1) (2 – 1) = 1
2
Из таблицы находим кр = 3,84
3,84 22,96
2 2
Так как набл > кр, то делаем вывод о том, что сдача зачета зависит от специализации.