
- •Раздел 1. Теория статистики
- •1.1. Исходные понятия статистики
- •1.1.1. Предмет статистической науки
- •1.1.2. Методология и методы статистического исследования
- •1.1.3. Составные части статистики и их связь
- •Контрольные вопросы
- •1.2. Статистическое наблюдение
- •1.2.1. Требования к статистической информации
- •1.2.2. Организация статистического наблюдения
- •1.2.3. Виды статистического наблюдения
- •Контрольные вопросы
- •1.3. Статистическая сводка и группировка
- •1.3.1. Понятие о статистической сводке
- •1.3.2. Задачи и виды группировок
- •1.3.3. Выполнение группировки
- •1.3.4. Статистические таблицы
- •Контрольные вопросы
- •1.4. Статистические показатели
- •1.4.1. Сущность и виды показателей. Абсолютные и относительные величины
- •1.4.2. Средние величины, их сущность и их виды
- •9500 9600 9600 9600 9650 97009700 9900
- •4.3. Свойства и методы расчёта средних величин
- •Контрольные вопросы
- •1.5. Ряды распределения и графическое представление статистических данных
- •1.5.1. Ряды распределения
- •1.5.2 Графическое изображение вариационного ряда
- •1.5.3. Графическое представление статистических данных
- •Контрольные вопросы
- •1.6. Статистическое изучение вариации
- •1.6.1. Понятие вариации признака и показатели вариации
- •1.6.2. Дисперсия, её математические свойства и способы расчёта
- •1.6.3. Виды дисперсий, правило сложения дисперсий и его использование в анализе факторов
- •Контрольные вопросы
- •1.7. Статистическое изучение динамики явлений
- •1.7.1. Понятие о рядах динамики, их виды и правила построения
- •1.7.2. Аналитические показатели динамического ряда и способы их расчёта
- •1.7.3. Средние показатели в рядах динамики
- •Контрольные вопросы
- •Исследование развития явлений с помощью рядов динамики
- •1.8.1. Понятие тенденции ряда динамики и методы её выявления
- •I кв. – 9714 шт. III кв. – 11536 шт.
- •II кв. – 10115 шт. Iy кв. – 12242 шт.
- •1.8.2. Выравнивание уровней ряда динамики и типы развития социально-экономических явлений
- •1.8.3. Понятие об интерполяции и экстраполяции. Сезонные колебания
- •Контрольные вопросы
- •1.9. Индексный метод в статистических исследованиях
- •1.9.1. Назначение и виды индексов
- •1.9.2. Способы образования индексов и связь между ними
- •1.9.3. Выявление роли факторов динамики, структуры и взаиморасположения явлений индексным методом
- •Контрольные вопросы
- •1.10. Выборочный метод в статистике
- •1.10.1. Понятие о выборочном исследовании
- •1.10.2. Способы отбора единиц из генеральной совокупности и необходимая численность выборки
- •1.10.3. Способы распространения характеристик выборки на генеральную совокупность
- •Контрольные вопросы
- •1.11. Виды взаимосвязей и методы выявления корреляционных связей
- •1.11.1. Изучение взаимосвязей явлений – важнейшая задача статистики
- •1.11.2. Виды взаимосвязей
- •1.11.3. Статистические методы выявления корреляционной связи
- •Контрольные вопросы
- •1.12. Измерение взаимосвязей между явлениями
- •1.12.1. Описание взаимосвязей с помощью регрессионного анализа
- •1.12.2. Множественная регрессия
- •1.12.3. Измерение тесноты связи
- •Контрольные вопросы
1.12.2. Множественная регрессия
При исследовании зависимостей
методами множественной
(многофакторной) регрессии
задача формулируется
так же, как и при использовании парной
регрессии, только в этом случае требуется
определить аналитическое выражение
связи между результативным признаком
и несколькими факторными признаками
.
Выбор формы связи для множественной регрессии осложняется тем, что теоретически зависимость между признаками может быть выражена большим числом различных функций.
Поскольку уравнение регрессии строится главным образом для количественного выражения взаимосвязей, оно должно отражать реально сложившиеся между факторами связи с достаточной степенью точности, поэтому для определения типа исходного уравнения регрессии часто используется метод перебора различных уравнений и соответствующих им оценок соответствия фактическим данным по точности.
Практика построения многофакторных моделей связи показывает, что реально существующие зависимости между явлениями можно описать, используя следующие типы моделей:
линейная
степенная
показательная
параболическая
гиперболическая
Серьёзная сложность формирования уравнений множественной регрессии состоит в определении оптимального числа факторных признаков, а также в том, что почти все факторные признаки в реальных процессах и явлениях находятся в зависимости друг от друга.
Если аналитическая форма связи подобрана, выбраны все факторные признаки, то параметры многофакторного уравнения регрессии могут быть определены различными методами: графическим методом, методом наименьших квадратов и т.д.
1.12.3. Измерение тесноты связи
Проверка практической значимости построенных в корреляционно-регрессионном анализе математических моделей осуществляется посредством показателей тесноты связи между факторным и результативным признаками.
К простейшим показателям степени тесноты связи относят коэффициент корреляции знаков, предложенный немецким учёным Г.Фехнером. Этот показатель основан на оценке степени согласованности знаков (направлений) отклонений факторного и результативного признаков от их средних значений.
Коэффициент корреляции знаков определяется формулой
где
– число совпадений знаков отклонений
индивидуальных величин
от их средних
;
– число несовпадений знаков отклонений.
Коэффициент Фехнера может принимать
значение в пределах от –1 до +1. Если
знаки большинства пар отклонений
совпадут, то тогда показатель будет
близок к 1, что свидетельствует о наличии
прямой связи.
Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции, впервые введённый английским математиком К.Пирсоном:
.
В этом показателе учитываются не только знаки отклонений индивидуальных значений признаков от средних, но и сами величины таких отклонений.
Между линейным коэффициентом
и коэффициентом регрессии
в уравнении линейной парной регрессии
существует зависимость, определяемая
формулой
где
,
– среднеквадратические отклонения
факторного и результативного признаков,
соответственно.
Линейный коэффициент корреляции
имеет большое значение при исследовании
социально-экономических явлений и
процессов, распределение которых близко
к нормальному. Поэтому на практике часто
анализ начинают с расчёта этого
коэффициента. Линейный коэффициент
корреляции может принимать значения в
пределах от –1 до +1. Чем ближе коэффициент
корреляции по абсолютной величине к 1,
тем теснее связь между признаками. Знак
при коэффициенте корреляции указывает
на направление связи – прямой зависимости
соответствует знак плюс, а обратной –
знак минус. Условие
является необходимым и достаточным,
чтобы признаки
и
были линейно независимы. При этом
условии соответствующие коэффициенты
регрессии обращаются в нуль, а прямые
регрессии
по
и
по
оказываются взаимно перпендикулярными
в прямоугольной системе координат.
Линейный коэффициент корреляции достаточно точно оценивает степень тесноты связи лишь в случае наличия линейной зависимости между признаками. При наличии же криволинейной зависимости линейный коэффициент корреляции недооценивает степень тесноты связи и даже может быть равен нулю. В таких случаях зависимости между признаками применяют эмпирическое корреляционное отношение и теоретическое корреляционное отношение (индекс корреляции).
Эмпирическое корреляционное
отношение
рассчитывается
по данным, получаемым в результате
группировки
где
– общая дисперсия результативного
признака;
– межгрупповая дисперсия результативного
признака;
– средняя внутригрупповых дисперсий
результативного признака.
Теоретическое корреляционное отношение определяется по формуле
где
–факторная дисперсия
или дисперсия выровненных
значений результативного признака
(т.е. рассчитанных по уравнению регрессии)
–остаточная дисперсия,
отображающая вариацию результативного
признака
от всех прочих, кроме
,
факторов
Соотношение между факторной
и общей
дисперсиями
называется индексом
детерминации и
характеризует часть общей вариации
результативного признака
,
описываемую фактором
в регрессионной модели. Корень квадратный
из индекса детерминации определяетиндекс корреляции
.
Необходимо заметить, что правило сложения дисперсий в виде
выполняется всегда для
определённой совокупности наблюдений.
Заметим также, что по абсолютной величине
линейный коэффициент корреляции
равен индексу корреляции
только при прямолинейной связи.
Представленные выше показатели
тесноты связи, исчисленные по данным
сравнительно небольшой статистической
совокупности (при
),
могут искажаться действием случайных
причин. Это вызывает необходимость
проверки ихсущественности.
Для оценки значимости
коэффициента корреляции
(или коэффициентов регрессии) применяетсяt –критерий Стьюдента.
Вычисленное значение
критерия
сравнивается с критическим
,
которое берётся из таблицы значений
Стьюдента с учётом заданного уровня
значимости
и числа степеней свободы
.
Если величина
,
то величина коэффициента корреляции
признаётся значимой.
Для оценки значимости индекса
корреляции
(или адекватности построенной регрессионной
модели в целом) применяетсяF-критерий
Фишера. Фактическое
значение критерия
вычисляется по формуле
и сравнивается с критическим
значением
,
которое определяется по таблицеF-критерия
с учётом принятого уровня значимости
и числа степеней свободы
и
- число параметров уравнения регрессии).
При
величина индекса корреляции признаётся
значимой.
В случаях, если изучаются совокупности достаточно большого объёма, применяют другие методы оценки значимости описанных выше показателей (например, пользуются таблицей интеграла вероятностей Лапласа).
В заключение настоящей темы следует подчеркнуть, что интерпретация моделей регрессии должна осуществляться методами той отрасли знаний, к которой относятся исследуемые явления и процессы. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель параметров.
При анализе адекватности уравнения регрессии описываемому процессу возможны следующие варианты:
1) построенная модель на основе её проверки по F-критерию в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и прогнозов;
2) модель по F-критерию адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для производства прогнозов;
3) модель по F-критерию адекватна, но все коэффициенты регрессии незначимы. Такая модель непригодна для принятия решений и осуществления прогнозов.