
- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Коэффициенты частной корреляции
Неконтролируемая изменчивость переменных, которые не учтены в модели, может полностью исказить изучаемые корреляционные связи. На рис. 16.3 изображены две типичные ситуации, когда проявляется этот неприятный эффект. Рис. 16.3 (а) демонстрирует эффект появления ложной корреляции между показателями x, y. При любом фиксированном значении третьего показателя z облако рассеивания емпирических точек вытянуто вдоль координатной оси x, следовательно, никакой кореляционной связи между x и y нет. Но с изменением неконтролируемого показателя z облако рассеивания данных сдвигается вдоль некоторой наклонной линии (в координатах x, y), в результате чего по всей совокупности данных проявляется кореляционная зависимость, поскольку большим значениям одной из переменных (x) в среднем соответствуют большие значенни другой переменной (y).
а б
Рис. 16.3. Влияние неконтролируемой изменчивости показателя z на корреляционную зависимость между x и y
На рис. 16.3 (б) показано, как неконтролированная изменчивость показателя z может скрыть существующую корелряционную зазависимость между x и y. Общее (сумарное) облако рассеивания точек тут оказалось вытянутым вдоль оси x, что означает отсутствие корреляционной связи по всей совокупности данных.
Чаще всего подобные искажающие эффекты появляются, когда у исследователя недостаточно наблюдений и поэтому он дополняет изучаемую выборку данными из других родственных совокупностей (данные за разные годы, продукция разных предприятий и т.п.); иными словами, когда выборка данных – неоднородная.
Если для каждого наблюдения известны значения z = xk , то при изучении корреляции между x = xi и y = xj появляется возможность предварительно скорректировать все значения переменных xi и xj на средний уровень показателя xk , для чего запишем уравнения регрессии между xi – xk и xj – xk :
;
.
Обратите внимание на новые обозначения остатков моделей – они тут обозначены через xi.xk и xj.xk , чтобы показать, что они не зависят от переменной xk , изменчивость xk учтена в модели, переменная xk зафиксирована на среднем уровне.
Определяем "коэффициент частной корреляции" как коэффициент корреляции между остатками моделей, скорректированных на средний уровень xk :
.
После некоторых преобразований получаем формулу:
.
По аналогии можно записать:
.
Здесь при вычислении коэффициента частной корреляции между xi и xj фиксируются сразу два показателя xk и xm .
Анализируя числитель и оба подкоренных выражения в формуле коэффициента сачтной корреляции, замечаем, что они получаются как промежуточные результаты при решении системы нормальных уравнений методом Гаусса–Жордана.
Предположим,
мы собираемся составить методом
последовательного подключения
трехфакторную модель: Y = 1X1 + 2X2 + 3X3 .
На каждом шаге надо подключать в модель
наиболее значимый член и проверять
целесообразность дальнейших подключений.
На первом шаге значимость пока еще не
подключенных членов оценивается обычными
коэффициентами корреляции, поэтому в
модель первой подключается переменная
с максимальным (по модулю) значением
коэффициента
.
Пусть для примера это будет переменная
Х3 . Тогда после первого
этапа подключения надо будет вычислить
коэффициенты частной корреляции
и найти среди них наибольший (по модулю)
– это определит выбор следующей
переменной, которая будет подключаться
на следующем этапе. Ниже изображен
первый этап преобразований Гаусса–Жордана
в табличной форме.
№ |
У |
Х1 |
Х2 |
Х3 |
Примечания |
1 |
1 |
|
|
|
|
2 |
|
1 |
|
|
|
3 |
|
|
1 |
|
|
4 |
|
|
|
1 |
|
5 |
|
|
|
0 |
|
6 |
|
|
|
0 |
|
7 |
|
|
|
0 |
|
8 |
|
|
|
|
|
Система нормальных уравнений в стандартизованной форме записана в строках 2–4 вышеприведенной таблицы. Очень полезно добавить первой строкой коэффициенты корреляции с результативной переменной и производить преобразования Гаусса–Жордана и с этой строкой. На первом этапе подключается Х3 (разрешающий элемент выделен цветом и рамочкой). В строках 5–6 приведена преобразованная система уравнений после исключения Х3 (в столбце Примечания указаны выполненные действия). В строке 8 подсчитаны коэффициенты частной корреляции:
и
.
Отмечаем, что числители для этих формул уже вычислены в строке 5 (преобразованная строка 1), а подкоренные выравжения расположены в диагональных клетках таблицы.
Следующая переменная выбирается по максимуму абсолютной величины частных коэффициентов корреляции и выполняется очередной этап преобразований Гаусса–Жордана.
В диагональной клетке преобразованной строки 1 автоматически получается число, пропорциональное величине остаточной дисперсии, что дает возможность на каждом шаге проверять целесообразность дальнейшего подключения неизвестных.