- •Казанский кооперативный институт (филиал)
- •Теория вероятностей и математическая статистика конспект лекций
- •Общие организационно-методические рекомендации преподавателю
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Предмет и задачи теории вероятностей
- •2. Основные понятия теории вероятностей. События и соотношения между ними. Классификация событий
- •3. Частота и вероятность события. Способы определения вероятности
- •Аксиомы теории вероятностей
- •Лекция 2 Основные формулы для вычисления вероятностей
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Основные формулы для вычисления вероятностей
- •6. (Рисунок 4).
- •7. (Рисунок 5).
- •Задание на самостоятельную работу
- •Лекция 3 Основные теоремы теории вероятностей: сложение, умножение, формула полной вероятности
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Правила сложения вероятностей
- •2. Правила умножения вероятностей
- •3. Формула полной вероятности
- •1. Формула Байеса, вероятность появления хотя бы одного события
- •Лекция 5 Основные законы распределения дискретных случайных величин. Формула Бернулли
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Понятие о случайной величине и законе её распределения
- •Р исунок 1
- •Р исунок 3
- •2. Формы закона распределения случайной величины: ряд распределения, функция распределения, функция плотности распределения
- •3. Формула Бернулли
- •Задание на самостоятельную работу
- •Лекция 6 Основные законы распределения дискретных случайных величин. Локальная теорема Муавра-Лапласа, формула Пуассона
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Локальная теорема Муавра-Лапласа
- •2. Распределение Пуассона
- •Задание на самостоятельную работу
- •Лекция 7 Основные законы распределения дискретных случайных величин. Интегральная теорема Лапласа
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1.1 Определение вероятности попадания случайной величины х с использованием приведенной табличной функции распределения
- •1.2 Определение вероятности попадания случайной величины на заданный интервал с использованием табличной функции плотности распределения
- •1.3 Определение вероятности попадания случайной величины на заданный интервал с использованием таблиц приведенной функции Лапласа
- •Текст лекции
- •1. Понятие случайной величины
- •2. Законы распределения дискретных случайных величин
- •Задание на самостоятельную работу
- •Лекция 9 Числовые характеристики: математическое ожидание, дисперсия, среднеквадратическое отклонение
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Понятие о числовых характеристиках случайной величины
- •2. Числовые характеристики положения: математическое ожидание и его основные свойства
- •3. Числовые характеристики рассеивания: дисперсия, среднеквадратическое отклонение. Основные свойства дисперсии
- •Задание на самостоятельную работу
- •Лекция 10 Непрерывные случайные величины: функция распределения случайной величины
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Функция распределения непрерывной случайной величины для определения вероятности попадания случайной величины на интервал
- •1.1. Функция распределения непрерывной случайной величины
- •1.2. Свойства функции распределения
- •Задание на самостоятельную работу
- •Лекция 11 Плотность вероятности. Числовые характеристики. Моменты случайных величин
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Плотность распределения непрерывной случайной величины для определения вероятности попадания случайной величины на интервал
- •1.1. Плотность распределения
- •1.2. Свойства плотности распределения
- •2.5. Медиана
- •2.6. Начальный момент
- •2.7. Центральный момент
- •2.8. Коэффициент асимметрии
- •2.9. Эксцесс
- •Задание на самостоятельную работу
- •Лекция 12 Законы распределения непрерывных величин: нормальное, равномерное, показательное
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •1. Равномерное распределение
- •2. Показательное распределение
- •2.1. Функция надёжности
- •3. Нормальный закон распределения
- •3.1. Функция Лапласа
- •3.2. Правило трёх сигм
- •Задание на самостоятельную работу
- •Лекция 13 Понятие закона больших чисел
- •Литература:
- •Структура занятия и расчёт времени
- •Текст лекции
- •Закон больших чисел
- •1.1. Неравенство Чебышева
- •1.2. Теорема Чебышева
- •1.3. Теорема Бернулли
- •1.4. Теорема Пуассона
- •1.5. Предельные теоремы
- •1.6. Теорема Муавра – Лапласа
- •Текст лекции
- •1. Генеральная и выборочная совокупности
- •1.1. Статистическое описание результатов наблюдений
- •Текст лекции
- •1. Интервальные оценки параметров распределения. Непрерывное и дискретное распределения признаков
- •1.2. Интервальные оценки.
- •Текст лекции
- •1. Вариационные ряды
- •2. Построение интервального вариационного ряда
- •3. Графическое изображение вариационных рядов
- •4. Средние величины
- •5. Медиана и мода
- •6. Показатели вариации
- •7. Свойства эмпирической дисперсии
- •8. Эмпирические центральные и начальные моменты
- •9. Эмпирические асимметрия и эксцесс
- •Текст лекции
- •1. Доверительные вероятности, доверительные интервалы
- •Текст лекции
- •1. Корреляционный анализ
- •1.1. О связях функциональных и статистических
- •1.2. Определение формы связи. Понятие регрессии
- •1.3. Основные положения корреляционного анализа
- •1.4. Свойства коэффициента корреляции
- •1.5. Поле корреляции. Вычисление оценок параметров двумерной модели
- •1.6. Проверка гипотезы о значимости коэффициента корреляции
- •1.7. Корреляционное отношение
- •1.8. Понятие о многомерном корреляционном анализе
- •1.9. Ранговая корреляция
- •2. Регрессионный анализ
- •2.1. Основные положения регрессионного анализа
- •2.2. Линейная регрессия
- •2.3. Нелинейная регрессия
- •2.4. Оценка значимости коэффициентов регрессии. Интервальная оценка коэффициентов регрессии
- •2.5. Интервальная оценка для условного математического ожидания
- •2.6. Проверка значимости уравнения регрессии
- •2.7. Многомерный регрессионный анализ
- •2.8. Факторный анализ
- •Приложения
- •Функция Лапласа
- •Задание на самостоятельную работу
1.6. Проверка гипотезы о значимости коэффициента корреляции
На практике коэффициент корреляции ρ обычно неизвестен. По результатам выборки может быть найдена его точечная оценка — выборочный коэффициент корреляции r.
Равенство
нулю выборочного коэффициента корреляции
ещё не свидетельствует о равенстве нулю
самого коэффициента корреляции, а
следовательно, о некоррелированности
случайных величин X
и Y.
Чтобы выяснить, находятся ли случайные
величины в корреляционной зависимости,
нужно проверить значимость выборочного
коэффициента корреляции r,
т.е. установить, достаточна ли его
величина для обоснованного вывода о
наличии корреляционной связи. Для этого
проверяют нулевую гипотезу
.
Предполагается наличие двумерного
нормального распределения случайных
переменных; объём выборки может быть
любым. Вычисляют статистику
которая имеет распределение Стьюдента
с k=n-2
степенями свободы. Для проверки нулевой
гипотезы по уровню значимости α и числу
степеней свободы k
находят по таблицам распределения
Стьюдента (t-распределение;
см. табл. 1 приложения) критическое
значение
,
удовлетворяющее условию
.
Если
,
то нулевую гипотезу об отсутствии
корреляционной связи между переменными
X
и Y
следует отвергнуть. Переменные считают
зависимыми. При
нет оснований отвергать нулевую гипотезу.
В случае значимого выборочного коэффициента, корреляции есть смысл построить доверительный интервал для коэффициента корреляций ρ. Однако для этого нужно знать закон распределения выборочного коэффициента корреляции r.
Плотность вероятности выборочного коэффициента корреляции имеет сложный вид, поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся к хорошо изученным распределениям, например нормальному или Стьюдента. Чаще всего для подбора функции применяют преобразование Фишера. Вычисляют статистику:
где r=thz — гиперболический тангенс от z.
Распределение статистики z хорошо аппроксимируется нормальным распределением с параметрами
В
этом, случае доверительный интервал
для ρимеетвид
.
Величины
и
находят по таблицам по следующим
значениям:
где
—
нормированная функция Лапласа для q
% доверительного интервала (см. табл. 2
приложений значение функции
).
Если коэффициент корреляции значим, то коэффициенты регрессии также значимо отличаются от нуля, а интервальные оценки для них можно получить по следующим формулам:
(1.7)
(1.8)
где имеет распределение Стьюдента с k=n—2 степенями свободы.
1.7. Корреляционное отношение
На практике часто предпосылки корреляционного анализа нарушаются: один из признаков оказывается величиной не случайной, или признаки не имеют совместного нормального распределения. Однако статистическая зависимость между ними существует. Для изучения связи между признаками в этом случае существует общий показатель зависимости признаков, основанный на показателе изменчивости — общей (или полной) дисперсии.
Полной
называется дисперсия признака относительно
его математического ожидания. Так, для
признака Y
это
.
Дисперсию
можно
разложить на две составляющие, одна из
которых характеризует влияние фактора
X
на Y,
другая — влияние прочих факторов.
Очевидно, чем меньше влияние прочих
факторов, тем теснее связь, тем более
приближается она к функциональной.
Представим
в следующем виде:
.
(1.9)
Первое
слагаемое обозначим
.
Это дисперсия функции регрессии
относительно математического ожидания
признака (в данном случае признака
Y);.она
измеряет влияние признака X
на Y.
Второе слагаемое обозначим
.
Это дисперсия признака Y
относительно функции регрессии. Её
называют также средней из условных
дисперсий или остаточной дисперсией
измеряет влияние на Y
прочих факторов.
Покажем, что действительно можно разложить на два таких слагаемых:
(1.10)
Для простоты полагаем распределение дискретным. Имеем
так как при любом х справедливо равенство
Третье
слагаемое в равенстве (1.10) равно нулю,
поэтому равенство (1.9) справедливо.
Поскольку второе слагаемое в равенстве
(1.9) оценивает влияние признака X
на Y,
то его можно использовать для оценки
тесноты связи между X
и Y.
Тесноту связи удобно оценивать в единицах
общей дисперсии
,
т.е. рассматривать отношение
.
Эту величину обозначают
и называют теоретическим корреляционным
отношением. Таким образом,
(1.11)
Разделив обе части равенства (1.9) на получим
Из последней формулы имеем
(1.12)
Поскольку
,
так как
—
составная часть
,
то из равенства (1.12) следует, что значение
всегда заключено между нулем и единицей.
Все
сделанные выводы справедливы и для
.
Из равенства (1.12) следует, что
только тогда, когда
,
т.е. отсутствует влияние прочих факторов
и всё распределение сконцентрировано
на кривой регрессии
.
В этом случае между Y
и X
существует функциональная зависимость.
Далее, из равенства (1.12) следует, что
тогда и только тогда, когда
=M(Y) = const, т.е. линия регрессии Y по X — горизонтальная прямая, проходящая через центр распределения. В этом случае можно сказать, что переменная Y не коррелирована с X (рис. 1.2,а, б, в).
Аналогичными свойствами обладает — показатель тесноты связи
между X и Y.
Часто используют величину
.
(1.13)
Считают,
что она не может быть отрицательной.
Значения величины
(или
)
также могут находиться лишь в пределах
от нуля до единицы. Это очевидно из
формулы (1.13).
Значения
,
лежащие в интервале 0<
<1,
являются показателями тесноты группировки
точек около кривой регрессии независимо
oт её вида (формы связи). Корреляционное
отношение
связано с
следующим образом:
.
В случае линейной зависимости между
переменными
.
Разность
может
быть использована как показатель
нелинейности связи между переменными.
При
вычислении
по выборочным данным получаем выборочное
корреляционное отношение. Обозначим
его
.
Вместо дисперсий в этом случае используются
их оценки. Тогда формула (1.12) принимает
вид
