Способы расЧётА дисперсии
Вычисление дисперсии по формуле среднего квадрата отклонений является довольно трудоемкой процедурой. Для облегчения расчетных работ часто используются упрощенные способы определения дисперсии.
Преобразуем числитель выражения (10.3) следующим образом:
Разделив
обе части этого равенства на n
и имея в виду,
что
,
получим:
Следовательно, дисперсия может быть определена как разность, среднего квадрата вариантов и квадрата их средней. Обратимся вновь к данным табл.1 (столбцы IV,V,XII,XIII) и определим дисперсию этажности по этой формуле:
В интервальных рядах дисперсия может быть вычислена способом моментов или способом отсчета от условного нуля. Расчет производится по формуле:
где:
- величина интервала;
- центральный момент распределения
второго порядка;
-
центральный момент распределения
первого порядка.
Особый интерес представляет нахождение дисперсии альтернативного признака, т.е. признака, которым единицы изучаемой совокупности могут либо обладать, либо не обладать. В таких случаях наличие признака обозначается единицей, а его отсутствие - нулем. Доля единиц, обладающих интересующим нас признаком, обозначается через р, доля остальных единиц, очевидно, составит q=1-р. Определим для этих условий среднюю величину и дисперсию.
Средняя:
Дисперсия доли альтернативного признака:
Среднее квадратическое отклонение
Правило сложения дисперсий
Если статистическую совокупность
разбить на группы по какому-либо признаку,
то средние величины и показатели вариации
(дисперсии) могут быть определены как
для всей совокупности в целом, так и для
каждой группы в отдельности. Обозначения
приняты следующие: для общих показателей
подстрочные знаки (нижние индексы) не
применяются – средняя
,
дисперсия
;
у групповых показателей должен быть
указан номер группы - от 1 до n.
в общем виде
номер обозначается обычно буквой i.
Тогда групповые средние будут обозначены
,
и групповые дисперсии – это
.
групповые дисперсии отражают величины внутригрупповых вариаций. По определению группировки эти вариации обусловлены влиянием всех факторов, за исключением того, который выбран в качестве группировочного признака. Все эти вариации можно выразить одним числом – через среднюю из групповых дисперсий:
Вместе с тем можно вычислить дисперсию групповых средних от общей средней, или межгрупповую дисперсию:
.
Эта дисперсия отражает вариацию групповых средних, складывающуюся исключительно под влиянием группировочного признака. Таким образом, общая вариация может рассматриваться как нечто, состоящее из внутригрупповых вариаций и межгрупповой вариации:
.
Это выражение принято называть правилом сложения дисперсий. В математической статистике даётся строгое доказательство этого положения. Впрочем, на основе всего вышеизложенного это представляется вполне очевидным.
На правиле сложения дисперсий построен
раздел статистического анализа, именуемый
дисперсионным анализом. Дело в том,
что исходя из последней формулы, можно
заметить, что межгрупповая дисперсия
тем меньше по сравнению с общей дисперсией
(и
средней из групповых дисперсий
),
чем меньшую существенность для изучаемого
явления имеет группировочный признак.
Это несложно измерить количественно –
через долю межгрупповой дисперсии в
дисперсии общей:
Этот показатель называют эмпирическим коэффициентом детерминации. Как и всякая доля, он колеблется в пределах от 0 до 1. при умножении на 100 он показывает, на сколько процентов вариация исследуемого явления обусловлена вариацией группировочного признака. При =100 связь является функциональной, т.к. группировочный признак безраздельно влияет на изучаемое явление.
В статистическом анализе также применяют квадратный корень из эмпирического коэффициента детерминации:
- эмпирическое корреляционное отношение.
Этот показатель служит, наряду с некоторыми другими, в качестве показателя тесноты связи между явлениями. Существует система количественных критериев оценки тесноты связи в зависимости от числового значения эмпирического корреляционного отношения. Её принято называть шкалой Чеддока:
0,9<η<0,99 – связь весьма сильная;
0,7<η<0,9 – связь сильная;
0,5<η<0,7 – связь умеренная;
0,3<η<0,5 – связь слабая;
η<0,3 - связь практически отсутствует.
