
- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Коэффициент ранговой корреляции Спирмена
Если X, Y – порядковые переменные, то с ними не допустимы никакие арифметические операции, например, разность двух значений (xj – xi) ничего не означает, т.к. из сравнения xj > xi следует только, что одно значение больше другого, но неизвестно, на сколько больше. Если переменные ранжированы, то их ранги являются номерами при расположении значений переменной в порядке возрастания какого-то признака. Так, из сравнения рангов x3 = 3 и x6 =6 следует, что между элементами x3 и x6 есть еще два элемента с рангами x4 = 4 и x5 = 5. Если несколько элементов неразличимы по данному признаку, то им всем присваивается средний ранг из их номеров по-порядку. Такие группы переменных называются "связками".
Спирмен вывел формулу для оценки тесноты связи между ранжированными переменными, причем при выводе не использовались никакие сомнительные арифметические операции. Формула эта достаточно простая при отсутствии связок, но усложняется при их наличии.
И тут нам сказочно повезло. Кендел доказал, что коэффициент ранговой корреляции Спирмена численно равен коэффициенту парной корреляции Пирсона, если ранги считать числовыми значениями переменных. Еще раз отметим, что вовсе не утверждается, что с рангами всегда можно поступать, как с обычными числами, но коэффициент корреляции можно расчитывать обычным образом вручную или по готовым программам на компьютере
Вывод формулы для коэффициента ранговой корреляции Спирмена
Пусть pk , qk – ранги двух показателей X и Y. Рассмотрим случай отсутствия связок (групп одинаковых рангов).
Наблюдения всегда можно отсортировать в порядке возрастания одной из переменной: pk = k = 1, 2, 3, … , n. Ранги qk – те же числа, но в другом порядке. Мерою тесноты связи между показателями X и Y может быть сумма квадратов разностей рангов
.
Если ранги двух показателей совпадают pk = qk , то S = 0, и это соответствует наиболее тесной положительной связи. Если порядок следования qk противоположен порядку следования pk , то S = Smax , что соответствует наиболее тесной отрицательной связи. Необходимо найти величину Smax . Для этого случая имеем pk + qk = n + 1, pk = k, qk = n + 1 – k, pk – qk = 2k – (n + 1). Отсюда следует:
Smax = (2k – (n + 1))2 = 4k2 – 4(n + 1)k + (n + 1)2n.
Поскольку
известны формулы для сумм и сумм квадратов
последовательных целых чисел
и
,
то окончательно получаем:
Вместо меры S вводим меру связи Спирмена
,
которая равна = 1 для S = 0 (для наиболее тесной положительной связи), и = –1 для S = Smax (для наиболее тесной отрицательной связи).
Полученная формула существенно усложняется при наличии связок – групп неразличимых объектов, для которых принимается одинаковые значения рангов, средних для каждой группы.
Пусть
t – количество
неразличимых объектов в связке для
показателя X,
а – количество
неразличимых объектов в связке для
показателя Y.
Вычисляем поправки:
,
и скорректированный коэффициент ранговой
корреляции:
.
Пример. Определим тесноту связи между уровнем механизации работ X и производительностью труда Y по 10-и промышленным предприятиям. Данные ранжированные, в рангах показателя Y имеется одна связка из двух объектов (два предприятия с одинаковой производительностью труда).
k |
pk |
qk |
pk–qk |
(pk–qk)2 |
(pk)2 |
(qk)2 |
pkqk |
1 |
1 |
4 |
–3 |
9 |
1 |
16 |
4 |
2 |
2 |
1 |
1 |
1 |
4 |
1 |
2 |
3 |
3 |
2 |
1 |
1 |
9 |
4 |
6 |
4 |
4 |
3 |
1 |
1 |
16 |
9 |
12 |
5 |
5 |
7 |
–2 |
4 |
25 |
49 |
35 |
6 |
6 |
5 |
1 |
1 |
36 |
25 |
30 |
7 |
7 |
6 |
1 |
1 |
49 |
36 |
42 |
8 |
8 |
8,5 |
–0,5 |
0,25 |
64 |
72,25 |
68 |
9 |
9 |
8,5 |
0,5 |
0,25 |
81 |
72,25 |
76,5 |
10 |
10 |
10 |
0 |
0 |
100 |
100 |
100 |
Суммы |
55 |
55 |
0 |
18,5 |
385 |
384,5 |
375,5 |
Вычисляем коэффициент ранговой корреляции Спирмена без поправки на связку:
.
Вычисляем
поправку
и скорректированный
коэффициент ранговой корреляции:
Для сравнения вычисляем обычный коэффициент парной корреляции Пирсона. Все необходимые суммы подсчитаны в вышеприведенной таблице.
Полученные значения s и rpq совпали со всеми десятичными знаками.
Покажем, что коэффициент ранговой корреляции Спирмена абсолютно совпадает с обычным коэффициентом парной корреляции Пирсона, вычисленным по рангам = rpq .
Т.к.
pk = k,
а qk
– те же числа, но в другом порядке, то
будут равны их средние
и дисперсии
.
Преобразуем выражение S = (pk – qk)2 :
.
Отсюда:
Итак, формально коэффициент ранговой корреляции Спирмена равняется обычному коэффициенту парной корреляции Пирсона, вычисленному по рангам pk , qk.