
- •Cтатистика
- •История статистики
- •Язык статистики
- •Характеристика статистических исследований
- •Группировка населения в Российской державе 1905 года.
- •Статистические таблицы
- •Абсолютные и относительные статистические величины
- •Средние величины
- •Основные принципы и правила использования средних
- •Вариационные ряды и их характеристики
- •Ряды динамики
- •Основные показатели ряда
- •Средний показатель в рядах динамики
- •Индексы
- •Средние индексы
- •Выборочные наблюдения
- •Способы отбора единиц выборки, обеспечивающих репрезентативность (представительность)
- •Ошибка выборки (репрезентативной)
- •Задачи, решаемые при использовании выборочного метода
- •Ошибки выборки
- •Распространение данных выборочного наблюдения на генеральной совокупности
- •Малая выборка
- •Испытания статистических гипотез
- •Гипотеза о законе распределения
- •Методика построения теоретического ряда
- •Гипотеза о наличии и отсутствии связи
- •Гипотеза о средних величинах
- •Группировки
- •Структурная группировка
- •Распределение финансовых ресурсов в экономике России
- •Распределение ввп
- •Аналитическая группировка
Гипотеза о наличии и отсутствии связи
Гипотеза о связи между переменными осуществляется на основе критерия . Обычно данную гипотезу проверяют при анализе таблиц сопряженности двух переменных для установления факта наличия и уровня значимости взаимосвязи. Как правило используется для анализа табличной сопряженности номинальных признаков. В то же время он может быть использован и при анализе взаимосвязи порядковых или интервальных (количественных) переменных. Хотя для последних существуют более мощные тесты, например, ТР анализ.
Рассмотрим наиболее общий случай:
таблицы сопряженности двух переменных
размером
,
где S – число столбцов; r – число строк;
nij – наблюдаемая частота
в каждой ячейке. (число объектов):
i – от 1 до r, число строк;
j – от 1 до S, число столбцов.
Сумма частот по i-ой строке:
.
Сумма частот по j-му столбцу:
,
где
– маргинальные частоты.
Общее число объектов обозначим n:
Испытуемая гипотеза формулируется как:
,
или по другому говоря
.
Альтернативная гипотеза:
.
для проверки нулевой гипотезы вычисляется:
Расчет теоретически ожидаемых частот в ячейках таблицы должен осуществляться в предположении нулевой гипотезы. Нулевая гипотеза в данном случае есть предположение по статистической независимости рассматриваемой переменной (мы предполагаем, что связи между переменными нет).
Из теории вероятностей известно, что два случайных события являются статистически независимыми, если вероятность их совместной реализации равна произведению вероятности реализации каждой из них по отдельности, то есть:
.
В нашем случае для таблицы сопряженности выборочными оценками соответствующих вероятностей будут являться величины:
Поэтому расчет теоретического ожидания
частоты
по нулевой гипотезе осуществляется по
следующей формуле:
.
Если подставить это значение в выражение для .
Расчет по последней формуле можно осуществить без промежуточных вычислений теоретических частот.
Для расчета эмпирического значения достаточно рассчитать (S-1) значение по строке и (r-1) по столбцам. Остальные частоты могут быть получены как разности между маргинальными суммами эмпирических частот и суммами известных теоретических частот.
Это значит, что значения теоретических частот последних в строке и столбце таблицы всегда полностью детерминированы (заранее известны). Число степеней свободы для таблицы r*S=
В таблице значений критерия Пирсона в зависимости от числа степеней свободы приводятся различные значения для разных уровней значимости α.
Если рассчитанное значение будет больше критического для данного df и α, то это говорит о наличии связи между рассматриваемыми переменными. То есть нулевая гипотеза об отсутствии связи отвергается.
Если в экспериментальной таблице имеются ячейки с нулевыми значениями наблюдаемых частот, то это означает, что пара Хi u Xj не наблюдалась, то есть это означает, что объем выборки не столь велик, чтобы зафиксировать данные комбинации, либо данные комбинации невозможны по каким-то объективным причинам. В этом случае действительное число степеней свободы анализируемой системы меньше числа степеней свободы таблицы, на основании которой произведена оценка уровня значимости . В этом случае надо откорректировать таблицу, объединив либо соседние строки, либо соседние столбцы, но это возможно только в случае если такое объединение не приведет к потере смысла.