- •1. Введение
- •2. Основные этапы статистического анализа данных
- •3. Генеральная совокупность и выборка из нее. Репрезентативность выборки
- •4. Основные способы организации выборки
- •5. Шкалы измерений
- •6. Табулирование данных
- •7. Квантиль
- •8. Графическое представление данных
- •80 Огива всегда
- •9. Меры центральной тенденции
- •10. Меры изменчивости
- •Для получения более точной меры изменчивости, которая
- •Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).
- •11. Нормальное распределение
- •В ысота опред. , площадь под
- •12. Предварительный анализ выборки
- •13. Статистический вывод. Проверка гипотез
- •14. Общая схема проверки статистической гипотезы
- •15. Сравнение средних значений количественных признаков двух независимых выборок
- •16. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок
- •17. Сравнение средних значений ранжированных признаков двух независимых выборок
- •18. Сравнение средних значений ранжированных признаков двух связанных выборок
- •19. Сравнение дисперсий двух независимых выборок
- •20. Сравнение дисперсий двух зависимых (связанных) выборок
- •22. Значимость коэффициента корреляции
- •23. Анализ взаимосвязи ранжированных признаков
- •24. Коэффициент ранговой корреляции кендалла
- •25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
- •26. Бисериальный коэффициент корреляции (бкк)
- •27. Ранговый бисериальный коэффициент корреляции
- •28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
- •29. Однофакторный анализ (офа)
- •30. Однофакторный дисперсионный анализ (ода)
- •31. Двухфакторный анализ
- •32. Двухфакторный дисперсионный анализ (дда)
- •33. Проверка нормальности распределения исходных данных
- •Статистическая обработка исходных данных с помощью Microsoft Excel.
- •Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.К. Требует знания дисперсии гс, что на практике редко встречается.
- •Литература
20. Сравнение дисперсий двух зависимых (связанных) выборок
Когда в качестве исходных данных рассматриваются две связанные выборки х1, х2, …, хn и у1, у2, …, уn (т.е. одинакового объема). Например, для данных типа «до-после» мы также можем рассматривать задачу сравнения дисперсий двух ГС. Для решения воспользуемся общей схемой проверки статистической гипотезы.
1. Выдвигаются две статистические гипотезы: Н0: о том, что дисперсии двух рассматриваемых ГС статистики одинаковы. Н1: о том, что эти дисперсии статистики различны.
2 2
Н0 = х = у
2 2
Н1 = х = у
2. Выбираем уровень значимости .
3. Вычисляем наблюдаемое значение статистики критерия. Для этого
2 2
сначала вычисляем по исходным выборкам дисперсии Sx и Sy, а также коэффициент корреляции rху.
n n 2 n 2
Rxy = ( (xi – x) (yi – y) : (xi – x) (yi – y)
i=1 i=1 i=1
Наблюдаемое значение вычисляется по формуле:
2 2 2 2 2
tнабл. = (Sx - Sy) : ((4 Sx Sy ) :n – 2 ) (1 – rxy)
4. Находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распространение Стьюдента с числом степеней свободы = n – 2. Поэтому для нахождения критического значения tкр необходимо воспользоваться статистической таблицей распределения Стьюдента.
5. Делаем вывод о правильности той или иной гипотезы по следующему правилу: 1) если – tкр < tнабл. < tкр, то принимается Н0, т.е. делаем вывод, что дисперсии двух рассматриваемых ГС статистики одинаковые на уровне значимости . 2) tнабл. < - tкр tнабл. > tкр, то принимается Н1, т.е. вывод: эти дисперсии статистики различны на уровне значимости .
tнабл.
Н1 Н0 Н1
- t кр tкр
Пример: 95 учащихся 7 класса и эти же 95 учащихся в 8 классе были подвергнуты тестированию по Стентфордскому тесту. Экспериментатор хотел выяснить, будут ли характеристики учащихся (успеваемость) более постоянными (менее изменчивыми) в 7 или 8 классе. Так как в данном случае рассматриваются одни и те же учащиеся, то наши две исходные выборки х1, х2, …, х95 и у1, у2, …, у95 являются связанными выборками. Так как мы хотим выяснить изменчивость характеристик, то надо проверять гипотезу о равенстве дисперсии. Выбираем = 0,1. По исходным выборкам было вычислено, что 2 2
Sx = 134,56; Sy = 201,64; rxy = 0,876 . Вычисляем tнабл. =
2
(134,56 – 201,64) : (4 134,56 201,64) : (95 – 2) (1 – 0,876) = - 4,07
/2 = 0.1/2 = 0,05 (столбец); = 95 – 2 = 93 (строчка). По таблице находим tкр = 1,66
Н1
- 4,07 - 1,66 1,66
Так как tнабл < - tкр, то принимается Н1, т.е. дисперсии статистики
2 2
различны на уровне значимости 0,1 или, другими словами, т.к.Sx <Sy, успеваемость у восьмиклассников обладает большей изменчивостью, чем у семиклассников.
Схема выбора необходимого статистического критерия для проверки гипотез о средних значениях и дисперсиях.
Две выборки
независимые
зависимые
(связанные)
количественные
ранжированные
количественные
ранжированные
Если мы хотим сравнить два исследуемых показателя (или один и тот же, но для двух различных групп лиц по их уровню), то необходимо проверять гипотезу о равенстве средних значений. Если хотим сравнить изменчивость (разброс показателя), то необходимо проверять гипотезу о равенстве дисперсий.
21. АНАЛИЗ ВЗАИМОСВЯЗЕЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА
Исследователя часто интересует, как связаны между собой два изучаемых признака в данной группе лиц. Например: имеют ли ученики,
научившиеся читать раньше других, тенденцию к более высокой успеваемости? Связь между двумя признаками можно изобразить графически с помощью диаграммы рассеивания (рассеяния). Для ее построения на координатной плоскости каждый объект изображается точкой. Первая координата, которая соответствует значению первого признака для данного объекта, а вторая – значению второго признака для данного объекта. Для оценки связи между двумя признаками можно использовать ковариацию, которая обозначается Sxy и вычисляется по формуле:
n
Sxy = (xi – x) (yi – y) : n - 1
i=1
Если рассматривать ковариацию какого-либо признака с самим собой Sxx, то в этом случае мы получаем дисперсию
2
Sxx = Sx.
Ковариация является вполне удовлетворительной мерой связи во многих задачах физики и техники. Однако ковариация зависит от стандартных отклонений двух исследуемых признаков. На практике в психологии признаки могут быть измерены в различных шкалах, что приводит к различным значениям стандартных отклонений.
Поэтому вместо ковариации чаще всего используют коэффициент корреляции, который обозначается rxy = Sxy : Sx Sy и получается путем деления ковариации на стандартные отклонения рассматриваемых признаков.
n n n n 2 n 2 n 2 n 2
r xy = n (xi yi) – ( xi) ( yi) : n xi – ( xi) n yi – ( yi)
i=1 i=1 i=1 i=1 i=1 i=1 i=1
На практике для упрощения вычислений обычно используют следующую формулу:
n n n n 2 n 2 n 2 n 2
rxy = ( n (xi yi) – ( xi) ( yi)) : n xi – ( xi) n yi – ( yi)
i=1 i=1 i=1 i=1 i=1 i=1 i=1
Вычисленный таким образом коэффициент называется коэффициентом корреляции Пирсона.
Корреляционная связь отражает тот факт, что изменчивость одного признака находится в некотором соответствии с изменчивостью второго признака.
Корреляционная связь не может рассматриваться как свидетельство причинно - следственной связи. Она лишь говорит о том, что с изменением одного признака, как правило, происходят изменения второго признака, но находится причина изменения в одном из признаков или она находится за пределами исследуемой пары признаков, нам не известно.
Корреляционные связи различаются по форме, по направлению и по степени (силе) связи.
По форме. Корреляционная связь может быть прямолинейной и криволинейной. Примеры: прямолинейной может быть связь между количеством тренировок на тренажерах и количеством правильно решенных задач в контрольном эксперименте. Криволинейной может быть связь между уровнем мотивации и эффективностью выполнения задачи. При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигает некоторого оптимального уровня, который соответствует максимальной эффективности, а затем при повышении мотивации эффективность падает. В этих случаях диаграмма рассеивания
. . . .
. . . .
. . . .
прямолинейная криволинейная
По направлению. Корреляционная связь может быть положительной (прямой) или отрицательной (обратной). При положительной корреляции возрастание значений одного признака приводит к возрастанию значений второго признака, а убывание значений одного признака приводит к убыванию значений второго признака. При отрицательной корреляции увеличение значений одного признака приводит к уменьшению значений второго признака и наоборот. В этих случаях диаграммы рассеивания выглядят следующим образом:
. . . .
. . . .
. . .
При положительной корреляции коэффициент корреляции имеет знак +, а при отрицательной – знак -.
По степени (силе) связи. Сила корреляционной связи не зависит от ее направления и определяется по абсолютному значению коэффициента корреляции.
К оэффициент корреляции всегда изменяется в следующем диапазоне:
- 1 < rxy < 1 (rxy = - 1,78 – это ошибка) 0 < rxy < 1
Имеется следующая классификация корреляционной связи по силе (по книге Сидоренко):
Абсолютное значение коэффициента корреляции |
Сила связи (степени) |
1 0,7 –0,99 0,5 – 0,69 0,3 – 0,49 0,2 – 0,29 0,000001 – 0,19 0 |
Строгая (полож. прямая связь) Сильная (тесная) (отриц. обрат.) Средняя Умеренная Слабая Очень слабая Нет связи |
- 1 - 0,7 - 0,5 0 0,5 0,7 1
Коэффициент корреляции Пирсона является характеристикой линейной корреляционной связи. Например, rxy = - 0,35. Это линейная обратная умеренная. Rxy = 0,695. Это линейная прямая средняя связь.