Способы расЧётА дисперсии
Вычисление дисперсии по формуле среднего квадрата отклонений является довольно трудоемкой процедурой. Для облегчения расчетных работ часто используются упрощенные способы определения дисперсии.
Преобразуем числитель выражения (10.3) следующим образом:
Разделив обе части этого равенства на n и имея в виду, что , получим:
Следовательно, дисперсия может быть определена как разность, среднего квадрата вариантов и квадрата их средней. Обратимся вновь к данным табл.1 (столбцы IV,V,XII,XIII) и определим дисперсию этажности по этой формуле:
В интервальных рядах дисперсия может быть вычислена способом моментов или способом отсчета от условного нуля. Расчет производится по формуле:
где: - величина интервала;
- центральный момент распределения второго порядка;
- центральный момент распределения первого порядка.
Особый интерес представляет нахождение дисперсии альтернативного признака, т.е. признака, которым единицы изучаемой совокупности могут либо обладать, либо не обладать. В таких случаях наличие признака обозначается единицей, а его отсутствие - нулем. Доля единиц, обладающих интересующим нас признаком, обозначается через р, доля остальных единиц, очевидно, составит q=1-р. Определим для этих условий среднюю величину и дисперсию.
Средняя:
Дисперсия доли альтернативного признака:
Среднее квадратическое отклонение
Правило сложения дисперсий
Если статистическую совокупность разбить на группы по какому-либо признаку, то средние величины и показатели вариации (дисперсии) могут быть определены как для всей совокупности в целом, так и для каждой группы в отдельности. Обозначения приняты следующие: для общих показателей подстрочные знаки (нижние индексы) не применяются – средняя , дисперсия ; у групповых показателей должен быть указан номер группы - от 1 до n. в общем виде номер обозначается обычно буквой i. Тогда групповые средние будут обозначены , и групповые дисперсии – это .
групповые дисперсии отражают величины внутригрупповых вариаций. По определению группировки эти вариации обусловлены влиянием всех факторов, за исключением того, который выбран в качестве группировочного признака. Все эти вариации можно выразить одним числом – через среднюю из групповых дисперсий:
Вместе с тем можно вычислить дисперсию групповых средних от общей средней, или межгрупповую дисперсию:
.
Эта дисперсия отражает вариацию групповых средних, складывающуюся исключительно под влиянием группировочного признака. Таким образом, общая вариация может рассматриваться как нечто, состоящее из внутригрупповых вариаций и межгрупповой вариации:
.
Это выражение принято называть правилом сложения дисперсий. В математической статистике даётся строгое доказательство этого положения. Впрочем, на основе всего вышеизложенного это представляется вполне очевидным.
На правиле сложения дисперсий построен раздел статистического анализа, именуемый дисперсионным анализом. Дело в том, что исходя из последней формулы, можно заметить, что межгрупповая дисперсия тем меньше по сравнению с общей дисперсией (и средней из групповых дисперсий ), чем меньшую существенность для изучаемого явления имеет группировочный признак. Это несложно измерить количественно – через долю межгрупповой дисперсии в дисперсии общей:
Этот показатель называют эмпирическим коэффициентом детерминации. Как и всякая доля, он колеблется в пределах от 0 до 1. при умножении на 100 он показывает, на сколько процентов вариация исследуемого явления обусловлена вариацией группировочного признака. При =100 связь является функциональной, т.к. группировочный признак безраздельно влияет на изучаемое явление.
В статистическом анализе также применяют квадратный корень из эмпирического коэффициента детерминации:
- эмпирическое корреляционное отношение.
Этот показатель служит, наряду с некоторыми другими, в качестве показателя тесноты связи между явлениями. Существует система количественных критериев оценки тесноты связи в зависимости от числового значения эмпирического корреляционного отношения. Её принято называть шкалой Чеддока:
0,9<η<0,99 – связь весьма сильная;
0,7<η<0,9 – связь сильная;
0,5<η<0,7 – связь умеренная;
0,3<η<0,5 – связь слабая;
η<0,3 - связь практически отсутствует.