- •ОБЩАЯ ТЕОРИЯ СТАТИСТИКИ
- •ПРЕДИСЛОВИЕ
- •Глава 1. ПОНЯТИЕ О СТАТИСТИКЕ
- •1.1. Что такое статистика
- •1.2. Статистическая закономерность. Статистические совокупности
- •1.3. Признаки и их классификация
- •1.4. Определение предмета статистики — основа статистической методологии
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •2 Глава. ОРГАНИЗАЦИЯ СТАТИСТИКИ. СТАТИСТИЧЕСКОЕ НАБЛЮДЕНИЕ
- •2.1. Организация государственной статистики в Российской Федерации
- •2.2. Важнейшие международные организации и их статистические службы
- •2.3. Требования, предъявляемые к собираемым данным. Формы организации и виды статистического наблюдения
- •2.5. Статистическая отчетность
- •2.6. Ошибки статистического наблюдения. Методы контроля данных наблюдения
- •2.7. Реформирование российской государственной Статистики
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •3. Глава. СТАТИСТИЧЕСКИЕ ПОКАЗАТЕЛИ
- •3.1. Сущность и значение статистических показателей.
- •3.2. Классификация статистических показателей
- •3.3. Общие принципы построения относительных статистических показателей
- •3.4. Понятие о системах статистических показателей
- •3.5. Функции статистических показателей
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •4 Глава. ПРЕДСТАВЛЕНИЕ СТАТИСТИЧЕСКИХ ДАННЫХ: ТАБЛИЦЫ И ГРАФИКИ
- •4.1. Статистические таблицы
- •4.2. Основные виды графиков
- •4.3. Картограммы и картодиаграммы
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •5 Глава. СРЕДНИЕ ВЕЛИЧИНЫ И ИЗУЧЕНИЕ ВАРИАЦИИ
- •5.1. Однородность и вариация массовых явлений
- •5.2. Средняя арифметическая величина
- •5.4. Средняя величина как выражение закономерности
- •5.5. Вариация массовых явлений
- •5.6. Построение вариационного ряда. Виды рядов. Ранжирование данных
- •5.7. Структурные характеристики вариационного ряда
- •5.8. Показатели размера и интенсивности вариации
- •5.9. Моменты распределения и показатели его формы
- •5.10. Предельно возможные значения показателей вариации и их применение
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •6 Глава. ГРУППИРОВКА
- •6.1. Значение и сущность группировки
- •6.2. Виды группировок
- •6.3. Многомерные группировки
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •7 Глава. ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ. ИСПЫТАНИЕ СТАТИСТИЧЕСКИХ ГИПОТЕЗ
- •7.1. Причины применения выборочного наблюдения. Дескриптивная статистика и статистический вывод
- •7.2. Способы отбора, обеспечивающие репрезентативность выборки. Виды выборки
- •7.3. Ошибка выборки
- •7.4. Влияние вида выборки на величину ошибки выборки
- •7.5. Задачи, решаемые при применении выборочного метода
- •7.6. Распространение данных выборочного наблюдения на генеральную совокупность
- •7.8. Примеры применения выборочного метода
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •8 Глава. СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ
- •8.1. Общие понятия
- •8.2. Проверка гипотезы о законе распределения
- •8.3. Проверка гипотезы о связи на основе критерия X2 (хи-квадрат)
- •8.4. Проверка гипотезы о средних величинах
- •8.5. Основы дисперсионного анализа
- •8.6. Некоторые непараметрические критерии
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •9.1. Понятие о статистической и корреляционной связи
- •9.2. Условия применения и ограничения корреляционно-регрессионного метода
- •9.4. Вычисление и интерпретация параметров парной линейной регрессии
- •9.5. Статистическая оценка надежности параметров парной регрессии и корреляции
- •9.6. Применение линейного уравнения парной регрессии
- •9.7. Вычисление параметров парной линейной регрессии на основе аналитической группировки
- •9.8. Параболическая корреляция
- •9.9. Гиперболическая корреляция
- •9.10. Множественное уравнение регрессии
- •9.11. Меры тесноты связей в многофакторной системе
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •10 Глава. СИСТЕМЫ РЕГРЕССИОННЫХ УРАВНЕНИЙ
- •10.1. Понятие о системах регрессионных уравнений
- •10.2. Проблемы решения систем взаимосвязанных уравнений
- •10.4. Косвенный метод наименьших квадратов
- •10.5. Двойной метод наименьших квадратов
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •11 Глава. СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕКОЛИЧЕСТВЕННЫХ ПЕРЕМЕННЫХ
- •11.1. Зависимость методов измерений связей от уровня измерения переменных
- •11.2. Измерение связи между двумя дихотомическими переменными
- •11.5. Другие меры связей между номинальными переменными
- •11.6. Коэффициенты корреляции рангов
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •12 Глава. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ДИНАМИКИ
- •12.1. Виды динамических рядов. Сопоставимость данных в изучении динамики
- •12.2. Элементы динамики: основная тенденция и колебания
- •12.3. Показатели, характеризующие тенденцию динамики
- •12.4. Особенности показателей динамики для рядов, состоящих из относительных уровней
- •12.5. Средние показатели тенденции динамики
- •12.6. Методы выявления типа тенденции динамики
- •12.7. Методика измерения параметров тренда
- •12.8. Методика изучения и показатели колеблемости
- •12.9. Измерение устойчивости в динамике
- •12.10. Сезонные колебания и полное разложение дисперсии уровней динамического ряда
- •12.11. Прогнозирование на основе тренда и колеблемости
- •12.12. Корреляция рядов динамики
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •13 Глава. ИНДЕКСЫ
- •13.1. Понятие индекса
- •13.2. Индекс как показатель центральной тенденции (индекс средний из индивидуальных)
- •13.3. Агрегатные индексы. Система индексов
- •13.4. Свойства индексов
- •13.5. Индексный анализ взвешенной средней. Индекс структуры
- •13.6. Построение индексов при обобщении данных по единицам совокупности и по элементам
- •13.7. Границы и условия применения индексного метода
- •13.8. Комплексное использование индексного и регрессионного методов анализа
- •13.9. Примеры использования индексов в экономико-статистических расчетах
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •14 Глава. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СТРУКТУРЫ СОВОКУПНОСТИ И ЕЕ ИЗМЕНЕНИЙ
- •14.1. Показатели простой (одномерной) структуры
- •14.2. Показатели иерархической (древовидной) структуры
- •14.3. Показатели балансовой структуры
- •14.4. Показатели многомерной структуры с пересекающимися признаками
- •14.6. Показатели концентрации, специализации, монополизации. Многомерная структура
- •14.7. Абсолютные и относительные показатели изменения структуры
- •14,8. Ранговые показатели изменения структуры
- •РЕЗЮМЕ
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •ПРИЛОЖЕНИЯ
- •1. Статистико-математические таблицы
Второй путь — сопряженность, возникающая при наличии общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала XX в. А. А. Чу-провым: если в качестве признака х взять число пожарных команд в городе, а за признак у — сумму убытков за год в городе от пожаров, то между признаками х и у в совокупности городов России существовала прямая корреляция; в среднем чем больше пожарников в городе, тем больше и убытков от пожаров! Уж не занимались ли пожарники поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака-следствия общей причины — размера города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в малых городах.
Третий путь возникновения корреляции — взаимосвязь признаков, каждый из которых и причина, и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 ч труда (тарифной ставкой). С одной стороны, уровень зарплаты — следствие производительности труда: чем она выше, тем выше и оплата. Но, с другой стороны, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать в роли независимой переменной х и в качестве зависимой переменной у.
9.2. Условия применения и ограничения корреляционно-регрессионного метода
Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является наличие данных по достаточно большой совокупности. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков, кроме закономерной составляющей, имеют случайное отклонение (вариацию). Например, сравнивая два хозяйства, одно из которых
324
имеет лучшее качество почв, по уровню урожайности, можно обнаружить, что урожайность выше в хозяйстве с худшими почвами. Ведь урожайность зависит от сотен факторов и при том же самом качестве почв может быть и выше, и ниже. Но если сравнивать большое число хозяйств с лучшими почвами и большое число — с худшими, то средняя урожайность в первой группе окажется выше и станет возможным измерить достаточно точно параметры корреляционной связи.
Какое именно число явлений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5—6, а лучше — в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков. Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточная однородность совокупности. Нарушение этого условия может извратить параметры корреляции. Например, в массе зерновых хозяйств уровень продукции с 1 га растет по мере концентрации площадей, т.е. он выше в крупных хозяйствах. В массе овощных и овоще-молоч-ных хозяйств (пригородный тип) наблюдается та же прямая связь уровня продукции с размером хозяйства. Но если соединить в общую неоднородную совокупность те и другие хозяйства, то связь уровня продукции с размером площади пашни (или посевной площади) получится обратной. Причина в том, что овощные и овоще-молочные хозяйства, имея меньшую площадь, чем зерновые, производят больше продукции с 1 га ввиду большей интенсивности производства в данных отраслях.
В качестве третьего условия корреляционного анализа выдвигается необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это усло325
вне связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценки параметров, отвечающих принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты1.
Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятностей или распределения Стьюдента.
Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Можно ли, например, построить уравнение корреляционной зависимости размеров выручки от продажи картофеля, от объема продажи и цены? Ведь произведение объема продажи и цены равно выручке в каждом отдельном случае. Как правило, к таким жестко детерминированным связям применяют только индексный метод анализа. Однако на этот вопрос можно взглянуть и с другой точки зрения. При индексном анализе выручки предполагается, что количество проданного картофеля и его цена независимы друг от друга, потому-то и допустима абстракция от изменения одного фактора при изменении влияния другого, как это принято в индексном методе (гл. 13). В реальности количество и цена не являются вполне независимыми друг от друга. Возможные связи в системе трех переменных представлены на рис. 9.1.
Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через его влияние на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, можно ограничиться индексным анали-
------------------------------------------------
Крастинь О. П. Разработка и интерпретация моделей корреляционных связей в экономике. — Рига: Зинатне, 1983. —
С. 14. 326
зом. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.
9.3. Задачи корреляционнорегрессионного анализа и моделирования
В соответствии с сущностью корреляционной связи ее изучение имеет две задачи:
327
Сумма квадратов в числителе — это дисперсия результативного признака у, объясненная связью с фактором х (факторами). Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на основе уравнения регрессии, и называется дисперсией, объясненной уравнением регрессии. Если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителе может оказаться большей, чем в знаменателе, и отношение утратит тот смысл, который оно должно иметь, а именно: какова доля общей вариации результативного признака, объясняемая на основе выбранного уравнения связи его с факторным признаком (признаками). Чтобы избежать ошибочного результата, лучше вычислять корреляционное отношение по другой формуле (9.3), не столь наглядно выявляющей сущность показателя, но зато полностью гарантирующей от возможного искажения:
Важнейшее положение, которое следует теперь усвоить любому желающему правильно применять методы корреляционнорегрессионного анализа, состоит в интерпретации формул (9.2) и (9.3) и гласит.
Уравнение корреляционной связи измеряет зависимость между вариаций результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связана корреляционно с вариацией факторного признака (признаков). Интерпретировать корреляционные показатели следует строго в терминах вариации (различий в пространстве) отклонений от средней величины. Если же задача исследования состоит в измерении связи не между вариацией двух признаков в совокупности, а между изменениями признаков объекта во времени, то метод корреляционно-регрессионного анализа требует значительного изменения (гл. 12).
Из вышеприведенного положения об интерпретации показателей корреляции следует, что нельзя трактовать корреляцию признаков как причинную связь их уровней. Пример. Если бы все крестьяне области внесли под картофель одинаковую дозу удобрений, то вариация этой дозы была бы равна нулю, а следовательно, она абсолютно не могла бы влиять на вариацию урожайности картофеля. Параметры корреляции дозы удобрений с урожайностью будут тогда строго равны нулю. Но ведь и в этом случае уровень урожайности зависел бы от дозы удобрений — он был бы выше, чем без удобрений.
331
Итак, строго говоря, метод корреляционно-регрессионного анализа не может объяснить роли факторных признаков в создании результативного признака. Это очень серьезное ограничение метода, о котором не следует забывать.
Следующий общий вопрос — это уже рассмотренный в разделе о группировке вопрос о «чистоте» измерения влияния каждого отдельного факторного признака. Как отмечалось в главе 6, группировка совокупности по одному факторному признаку может отразить влияние именно данного фактора на результативный признак при условии, что все другие факторы не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же изучаемый фактор связан с другими факторами, влияющими на результативный признак, будет получена не «чистая» характеристика влияния только одного фактора, а сложный комплекс, состоящий как из непосредственного влияния фактора, так и из его косвенных влияний, через его связь с другими факторами и их влияние на результативный признак. Данное положение полностью относится и к парной корреляционной связи.
Однако коренное отличие метода корреляционнорегрессионного анализа от аналитической группировки состоит в том, что корреляционно-регрессионный анализ позволяет разделить влияние комплекса факторных признаков, анализировать различные стороны сложной системы взаимосвязей. Если метод комбинированной аналитической группировки, как правило, не дает возможность анализировать более трех факторов, то корреляционный метод при объеме совокупности около 100 единиц позволяет вести анализ системы с 8— 10 факторами и разделить их влияние.
Наконец, развивающиеся на базе корреляционнорегрессионного анализа многомерные методы (метод главных компонент, факторный анализ) позволяют синтезировать влияние признаков (наблюдаемых факторов), выделяя из них непосредственно неучитываемые глубинные факторы (компоненты). Например, изучая корреляцию ряда признаков интенсификации сельскохозяйственного производства, таких, как фондообеспеченность, затраты труда на единицу площади, энергообеспеченность, внесение удобрений на единицу площади, плотность поголовья скота, можно синтезировать
332
их влияние на уровень продукции с единицы площади, или на производительность труда, получив обобщенный фактор «интенсификация производства», непосредственно неизмеримый.
Правильное применение и интерпретация результатов корреляционно-регрессионного анализа возможны лишь при понимании всех специфических черт, достоинств и ограничений метода. Поэтому рекомендуем вернуться к данному подразделу заново после изучения остальных разделов этой главы и после приобретения некоторой практики применения метода к решению различных задач.
Необходимо сказать и о других задачах, решаемых с помощью корреляционно-регрессионного метода, имеющих не формально математический, а содержательный характер.
1.Задача выделения важнейших факторов, влияющих на результативный признак (т.е. на вариацию его значений в совокупности). Эта задача решается в основном на базе мер тесноты связи признаков-факторов с результативным признаком.
2.Задача оценки хозяйственной деятельности по эффективности использования имеющихся факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были бы получены при средней по совокупности эффективности использования факторов в сравнении их с фактическими результатами производства.
3.Задана прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков.
Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнение связи и вычисления ожидаемых значений результативного признака.
Приходится решать и обратную задачу: вычисление необходимых значений факторных признаков для обеспечения планового, или желаемого, значения результативного признака в среднем по совокупности. Эта задача обычно не имеет единственного решения в рамках данного метода и должна дополняться постановкой и решением оптимизационной задачи на нахождение наилучшего из возможных вариантов ее решения (например, варианта, позволяющего достичь требуемого результата с минимальными затратами).