- •1 Несколько основных понятий математической статистики
- •2 Гистограмма
- •3 Закон (плотность) распределения случайной величины
- •4 Нормальный закон распределения
- •5 Функция Лапласа
- •6 Основные числовые характеристики выборки
- •7 Расчет необходимого объема выборки для получения достоверных суждений о генеральной совокупности
- •8 Оценка различия двух выборок
- •9 Проверка нормальности закона распределения случайной величины
- •10 Выявление грубых ошибок
- •11 Анализ степени взаимовлияния двух случайных величин
- •12 Простая регрессия
- •13 Множественная регрессия
- •14 Выделение наиболее значимых независимых переменных и их комплексов
- •15 Кластеризация множества объектов
- •Литература
9 Проверка нормальности закона распределения случайной величины
Для проверки того, что по данным конкретной
выборки СВ распределена по нормальному
закону, следует убедиться, что высказывание
«Исходная выборка и «эталонная» выборка
с таким же количеством элементов, для
которой СВ распределена строго по
нормальному закону, НЕ ЯВЛЯЮТСЯ
различными» справедливо с требуемой
доверительной вероятностью
.
В этом случае вероятность справедливости
противоположного высказывания «Исходная
выборка и «эталонная» выборка, ЯВЛЯЮТСЯ
различными» должна быть равна
.
Если это второе, противоположное,
высказывание неверно, то верно исходное.
Для проверки верности второго высказывания
используют критерий «хи-квадрат».
Выбирают количество диапазонов
,
на которые разбивают область изменения
значений СВ из исходной выборки, но
так, чтобы в каждый диапазон попадало
не менее 5 значений СВ. Обозначим точки
разбиения через
.Рассчитывают количество
объектов
исходной выборки, для которых значения
СВ попадают в промежуток
.
Если значение СВ оказывается в точности
на границе двух промежутков, к
соответствующим переменным
добавляется
по ½.Рассчитывают количество
объектов «эталонной» выборки, для
которых значения СВ попадают в промежуток
.
В этой формуле
- соответственно общее количество
объектов, математическое ожидание и
среднее квадратичное отклонение
исходной выборки, а также функция
Лапласа.Проверяется различие исходной и эталонной выборок по критерию «хи-квадрат» с доверительной вероятностью
.
Если оказывается, что выборки НЕ ЯВЛЯЮТСЯ
РАЗЛИЧНЫМИ с этой доверительной
вероятностью, это означает, что верно
первое из высказываний, приведенных в
начале настоящего раздела, т.е. СВ,
отвечающая исходной выборке, с
доверительной вероятностью
распределена по нормальному закону.
10 Выявление грубых ошибок
Задаются доверительной вероятностью
и по рисунку 1 для
определяют значение
.Для выборки рассчитываются математическое ожидание
и среднее квадратичное отклонение
.Все значения СВ, меньшие
и большие
считаются грубыми ошибками и
отбрасываются.Математическое ожидание и среднее квадратичное отклонение рассчитываются заново.
11 Анализ степени взаимовлияния двух случайных величин
Взаимовлияние измеряется
с помощью коэффициента
корреляции Пирсона
![]()
,
где
-
значения переменных величин
и
для
объекта выборки с номером
;
-
соответствующие математические ожидания.
Коэффициент Пирсона
может
принимать значения из интервала [-1; +1].
Значение r = 0 означает отсутствие линейной
связи между переменными (но не исключает
статистической связи нелинейной).
Положительные значения коэффициента
свидетельствуют о прямой линейной
связи; чем ближе его значение к +1, тем
сильнее связь. Отрицательные значения
коэффициента свидетельствуют об обратной
линейной связи; чем ближе его значение
к -1, тем сильнее обратная связь. Значения
r = ±1 означают наличие полной линейной
связи, прямой или обратной. В случае
полной связи все точки с координатами
лежат
на прямой
.
Коэффициент детерминации
показывает, на какую долю
изменение зависимой переменной
объясняется изменением влияющей на нее
переменной.
![]()
Таким образом, если коэффициент
корреляции
=
0,5, то
=
0,25, т.е. различия в значениях зависимой
переменной на 25% объясняются различиями
в значениях независимой переменной (и
на 75% - факторами, не учтенными в уравнении
регрессии).
