Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математическая статистика.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
176.29 Кб
Скачать
  1. Предмет и основные задачи математической статистики

Матем статистика- раздел математики, изучаю-щий математические методы сбора, системати-зации, обработки и интерпретации результатов наблюдений с целью выявления статистических закономерностей. Матеем статистика опирается на теорию вероятностей. Если теория вероятно-стей изучает закономерности случайных явлений на основе абстрактного описания действительно-сти (теоретической вероятностной модели), то матем статистика оперирует непосредственно результатами наблюдений над случайным явле-нием, представляющими выборку из некоторой конечной или гипотетической бесконечной гене-ральной совокупности. Используя результаты, полученные теорией вероятностей, матем стати-стика позволяет не только оценить значения искомых характеристик, но и выявить степень точности получаемых при обработке данных выводов.  Математическая статистика по наблюденным значениям оценивает вероятности этих событий либо осуществляет проверку предположений относительно этих вероятностей. В матем стати-стике, наоборот, исследование связано с кон-кретными данными и идет от практики к гипоте-зе и ее проверке.

2. Классификация статистической информации.

Статистическая информация - это разновидность экономической информации, содержащей различные сведения социально-экономического характера, которые можно фиксировать, передавать, преобразовывать, хранить и использовать для решения социальных и экономических задач.

Классификация статистической информации предусматривает ее деление по ряду общих признаков, а также характерных признаков, имеющих принципиальное значение для непосредственной машинной обработки.

Сначала рассмотрим классификацию информации по ряду общих признаков.

Четко определенный круг источников информации для каждого уровня системы Госкомстата РФ позволяет классифицировать статистическую информацию по месту ее возникновения. Ее источниками являются: на районном и областном уровне - предприятия и организации; на федеральном - министерства и ведомства, отчетность которых не централизована в органах государственной статистики.

По принадлежности к отрасли экономики можно выделить статистическую информацию по промышленности, окружающей среде и сельскому хозяйству, основным фондам и строительству, услугам, транспорту и связи и т.д.

По способу представления статистическая информация подразделяется на почтовую, которая по периодичности поступлениябывает ежедневной, декадной, месячной, квартальной, полугодовой, годовой и единовременной, и срочную, которая передается по телеграфным и телефонным каналам связи и обычно бывает ежедневной, декадной, месячной периодичности.

На основании рассмотренной общей классификации статистической информации выделим ряд признаков, имеющих принципиальное значение при машинной обработке.

Прежде всего, на каждом уровне обработки статистическую информацию по назначению подразделяют на входную и выходную. При этом

22

входная и выходная информация бывает внутренней и внешней по отношению к органам государственной статистики. Внутренняя - информация, циркулирующая в самой системе Госкомстата РФ, а внешняя - информация, получаемая от различных отчитывающихся организаций и органов управления.

Классификация информации по указанным признакам необходима для того, чтобы знать общие объемы входной и выходной информации для определения пропускной способности информационно-вычислительной сети Госкомстата РФ и организации дальнейшего информационного взаимодействия с другими ЭИС.

Внутреннюю входную (выходную) информацию, передаваемую с одного уровня на другой, можно представлять в различной форме (на бланках отчетов, в телетайпограммах и на магнитных носителях в виде электронных таблиц).

В зависимости от способа обработки на каждом из уровней статистическую информацию подразделяют на первичную, внутримашинную (промежуточную) и сводную.

Первичная (входная) информация возникает непосредственно в местах источников информации и является основой получениясводной (выходной) информации после ее соответствующей машинной обработки с помощью заданного алгоритма.

Внутримашинная информация возникает в процессе преобразования первичной информации в сводную. Она содержит накапливаемые и перерабатываемые данные и может храниться в памяти ПЭВМ или чаще на различных машинных носителях для последующего использования.

Классификация статистической информации по способу обработки позволяет учесть особенности решения статистических задач, что в значительной степени определяется структурой внутримашинной информационной базы.

По степени стабильности статистическая информация бывает условно-постоянной и переменной. К условно-постоянной относится информация, которая остается неизменной длительное время и многократно используется в процессе машинной обработки (справочная информация, данные прошлых периодов и плановые данные и др.).

Переменная информация содержит фактические данные за соответствующий период, содержащиеся в первичных статистических отчетах, которые меняются в зависимости от периодичности поступления.

Классификация статистической информации по степени стабильности необходима для более точного определения и последующей организации массивов постоянной информации, которые можно будет эффективно

23

использовать при машинной обработке, значительно сокращая объемы работ по вводу данных в ПЭВМ.

При проектировании ИТ важно определить потоки информации, т.е. организованное в пределах информационной системы движение данных от источников информации к потребителю.

В результате анализа информационных потоков выявляются оптимальные уровни обработки и передачи информации, динамика генерирования потока данных источниками и потребителями.

В органах государственной статистики можно выделить несколько стандартных схем потоков информации (рис. 2.2). Источником статистической информации, представляемой в органы государственной статистики, являются предприятия и организации различных отраслей экономики. Каждая отрасль экономики имеет определенный круг утвержденных статистических отчетов, которые в соответствии с табелем отчетности должны быть представлены органам статистики.

Статистическая отчетность, как правило, проходит последовательную (децентрализованную) обработку на всех уровнях системы Госкомстата РФ, где на каждом уровне осуществляется сводно-группировочная обработка данных по различным признакам (территориям, ведомствам и т.д.).

Обычно первичные отчеты поступают от предприятий и организаций на районные и региональные уровни по министерствам, отчетность которых не централизована в органах государственной статистики, на федеральный уровень, где производится автоматизированное получение различных сводных отчетов в соответствующем территориальном разрезе.

Сводная отчетность районного уровня представляется потребителям (территориальным органам управления и вышестоящим уровням системы Госкомстата РФ). При этом используется как почтовый способ представления информации (отчеты, магнитные носители), так и по каналам связи (электронная почта). Запись информации на магнитные носители осуществляется как правило в месте поступления первичных отчетов.

3. Понятия “генеральная совокупность”, “выборочная совокупность” и “репрезентативная совокупность ”. Способы выбора из генеральной совокупности.

Генеральная совокупность – все множество имеющихся объектов.

Понятия генеральной совокупности и выборки из нее являются основополагающими в статистике.

Строгие определения заимствованы из теории вероятностей, хотя терминология этих двух наук различается. Вместо случайной величины  в теории вероятностей, в математической статистике вводится понятие о генеральной совокупности. Под генеральной совокупностью понимают множество всех возможных значений случайной величины

Выборочной совокупностью (или выборкой) называют совокупность случайно отобранных объектов.

Выборка из генеральной совокупности— ограниченный набор реально наблюдаемых выборочных из генеральной совокупности значений, описывающих исследуемый объект или явление. Количество этих значений называется объемом выборки.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор, при котором  объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема  подразделяется на подсовокупности или слои (страты) объема  так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называютсястратифицированными (иначе, расслоенными, типическими, районированными);

4. методы серийного отбора используются для формирования серийных или гнездовых выборок. Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый ) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной.

  1. 4. Статистическое распределение выборки. Эмпирическая функция распределения. Графическое изображение статистического распределения.

Пусть из генеральной совокупности извлечена выборка, причем наблюдалось nt раз, х2 п2 раз,  раз и  - объем выборки. Наблюдаемые значения  - называют вариантами, а последовательность вариант, записанных в возрастающем порядке,— вариа­ционным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки  — относи­тельными частотами.

Статистическим распределением выборки называют пе­речень вариант и соответствующих им частот или относи­тельных частот. Статистическое распределение можно за­дать также в виде последовательности интервалов и соответ­ствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математи­ческой статистике — соответствие между наблюдаемыми вариантами и их частотами, или относительными частотами.

Пример. Задано распределение частот выборки объема я = 20:

     2     6     12

     3      10      7

    Написать распределение относительных частот.

Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки:

=3/20 = 0,15,  W2= 10/20 = 0,50, W3 = 7/20 = 0,35.

Напишем распределение относительных частот:

  xi     2         6           12

Wi     0,15     0,50     0,35

Контроль: 0,15+0,50+ 0,35= 1.

Эмпирической функцией выборки (функцией распределения выборки) называется функция

    Fn(x)=

nx

n

 

, которую можно записать в следующем виде:

 

  Данная функция непрерывная, кусочно-постоянна и изменяется в каждой точке хi, гдехi — варианта рассматриваемого статистического распределения. 

  Пример

  По заданной выборке построить эмпирическую функцию выборки. 

хi 

2

4

5

6

7

ni 

5

3

4

5

3

    F20(X≤2)=

0

=0

20


     F20(4)=

5

=0.25

20


    F20(5)=

5+3

=0.4

20




     F20(6)=

5+3+4

=0.6

20


     F20(7)=

5+3+4 +5

=0.85

20


    F20(X>7)=

5+3+4 +5 +3

=1

20


 

5.Числовые характеристики распределений: мода, медиана, среднее

Числовые характеристики статистического распределения: выборочное среднее, оценки дисперсии, оценки моды и медианы, оценки начальных и центральных моментов. Статистическое описание и вычисление оценок параметров двумерного случайного вектора.

Одна из задач математической статистики: по имеющейся выборке оценить значения числовых характеристик исследуемой случайной величины.

К   характеристикам   распределения,   описывающим   количественно   его   структуру   и строение, относятся:

•    характеристики положения;

•     рассеивания;

•    асимметрии и эксцесса.

Оценка  центральной тенденции

К характеристикам положения относятся следующие оценки центральной тенденции: мода

(Мо), медиана (Ме), квантили и среднее арифметическое ( M ).

Важное  значение  имеет  такая  величина  признака,  которая  встречается  чаще  всего  в

изучаемом ряду, в совокупности. Такая величина называется модой (Мо). В дискретном ряду Мо определяется  без  вычисления,  как  значение  признака  с  наибольшей  частотой  (например,  по данным таблицы 2.1. Мо= 13).

При расчете моды может возникнуть несколько ситуаций:

1. Два значения признака, стоящие рядом, встречаются одинаково часто. В этом случае мода равна среднему арифметическому этих двух значений. Например, в следующем ряду данных:

12, 13, 14, 14, 14, 16, 16, 16, 18, 19

Мо= (14+16)/2= 15.

2. Два значения, встречаются также одинаково часто, но не стоят рядом. В этом случае говорят, что ряд данных имеет две моды, т.е. он бимодальный.

3. Если все значения данных встречаются одинаково часто, то говорят, что ряд не имеет

 

моды.

 

Чаще всего встречаются ряды данных с одним модальным значением признака. Если в

 

ряду данных встречается два или более равных значений признака, то говорят о неоднородности совокупности.

Вторая числовая характеристика ряда данных называется медианой (Ме) – это такое значение признака, которое делит ряд пополам. Иначе, медиана обладает тем свойством, что половина всех выборочных значений признака меньше её, половина больше. При нечетном числе элементов в ряду данных, медиана равна центральному члену ряда, а при четном среднему арифметическому двух центральных значений ряда. В нашем примере (таблица 2.1.) Ме=(13+13)/2=13. Вычисление медианы имеет смысл только для порядкового признака.

Среднее арифметическое значение признака:

где xi – значения признака, n – количество данных в рассматриваемом ряду.

Среднее   арифметическое  значение  признака,  вычисленное  для   какой-либо  группы,

интерпретируется как значение наиболее типичного для этой группы человека. Однако бывают случаи,  когда  подобная  интерпретация  несостоятельна  (в  случае,  если  существует  большая разница между минимальным и максимальным значениями признака).

Квантиль   –  это  такое  значение  признака,  которое  делит  распределение  в  заданной пропорции:  слева  0,5%,  справа  99,5%;  слева  2,5%,  справа  97,5%  и  т.п.  Обычно  выделяют

следующие разновидности квантилей:

1)   Квартили Q1, Q 2, Q3 – они делят распределение на четыре части по 25% в каждой;

2)   Квинтили К1, К2, К3, К4 – они делят распределение на пять частей по 20% в каждой;

3)   Децили D1, ...,D9, их девять, и они делят распределение на десять частей по 10% в каждой;

каждой части.

Поскольку процентиль – наиболее мелкое деление, то все другие квантили могут быть представлены через процентили. Так, первый квартиль – это двадцать пятый процентиль, первый квинтиль – второй дециль или двадцатый процентиль, и т.п

Для характеристики рядов распределения (структуры вариационных рядов), наряду со средней, используются т. н. структурные средниемода и медиана. Мода и медиана наиболее часто используются в экономической практике.

Мода- варианта, которая наиболее часто встречается  в ряду распределения (в данной совокупности).

В дискретных вариационных рядах мода определяется по наибольшей частоте. Предположим товар А реализуют в городе 9 фирм по следующим ценам в рублях:

44; 43; 44; 45; 43; 46; 42; 46;43. Так как чаще всего встречается цена 43 рубля, то она и будет модальной.

При характеристике социальных групп населения по уровню дохода следует использовать модальное значение, нежели среднее. Средняя будет занижать одни показатели и завышать другие — тем самым осредняя (уравнивания) доходы всех слоев населения.

Мода применяется для решения некоторых практических задач. Так, например, при изучении товарооборота рынка берется модальная цена, для изучения спроса на обувь, одежду используют модальные размеры обуви и одежды.

Медиана- это численное значение признака у той единицы совокупности, которая находится в середине ранжированного ряда (построенного в порядке возрастания, либо убывания значений изучаемого признака). Медиану иногда называют серединной вариантой, т.к. она делит совокупность на две равные части таким образом, чтобы по обе ее стороны находилось одинаковое число единиц совокупности. Если всем единицам ряда присвоить порядковые номера, то порядковый  номер медианы будет определяться по формуле (n+1):2 для рядов, где n — нечетное. Если же ряд с четным числом единиц, то медианойбудет являться среднее значение между двумя соседними вариантами, определенными по формуле: n:2, (n+1):2, (n:2)+1.

В дискретных вариационных рядах с нечетным числом единиц совокупности — это конкретное численное значение в середине ряда.

6. Генеральная средняя.

Пусть изучается генеральная совокупность относительно количественного признака Х.

  Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.

Если все значения признака различны, то

Если значения признака имеют частоты N1, N2, …, Nk, где N1 +N2+…+Nk= N, то

1.2.Выборочная средняя.

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.

  Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если все значения признака выборки различны, то

если же все значения имеют частоты n1, n2,…,nk, то

Выборочная средняя является несмещенной и состоятельной  оценкой генеральной средней.

Замечание: Если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.

 

1.3. Генеральная дисперсия.

Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику — генеральную дисперсию.

  Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .

Если все значения признака генеральной совокупности объема N различны, то

Если же значения признака имеют соответственно частоты N1, N2, …, Nk, где N1 +N2+…+Nk= N, то

Кроме дисперсии для характеристики рассеяния зна­чений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением.

  Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:

1.4.Выборочная дисперсия.

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения , вводят сводную характеристику- выборочную дисперсию.

  Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения признака выборки различны, то

 если же все значения имеют частоты n1, n2,…,nk, то

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением.

  Выборочным средним квадратическим отклоненим называют квадратный корень из выборочной дисперсии:

Вычисление дисперсии- выборочной или генеральной, можно упростить, используя формулу:

  1. 7. Функциональная, статистическая и корреляционная зависимости. Выборочное уравнение регрессии. Отыскание параметров выборочного уравнения прямой линии среднеквадратичной регрессии.

При моделировании экономических процессов оперируют следующими типами данных: пространственными и временными.

Пространственные данные – это данные по какому-либо экономическому показателю, полученные от разных однотипных объектов (фирм, регионов и т.п.), но относящиеся к одному и тому же моменту времени (пространственный срез). Например, данные об объеме производства, количестве работников, доходе разных фирм в один и тот же момент времени.

Временные данные – это данные, характеризующие один и тот же объект в различные моменты времени (временной срез).Например, ежеквартальные данные об инфляции, средней заработной плате, данные о национальном доходе за последние годы.

 

Главным инструментом эконометрики служит эконометрическая модель. Эконометрические модели могут представлять собой модель временного рядасистему одновременных уравнений, а также регрессионную модель с одним уравнением.

 

В эконометрическом моделировании можно выделить шесть основных этапов: постановочный, априорный, этап параметризации, информационный, этапы идентификации и верификации модели.

1-й этап (постановочный).На данном этапе формируется цель исследования, набор участвующих в моделиэкономических переменных.

В качестве цели эконометрического моделирования обычно рассматривают анализ исследуемого экономического объекта или процесса; прогноз его экономических показателей, имитацию развития объекта при различных значениях экзогенных переменных, выработку управленческих решений.

2-й этап (априорный). Проводится анализ сущности изучаемого объекта, формирование и формализация априорной информации (известной до начала моделирования).

3-й этап (параметризация). Осуществляется непосредственное моделирование, т.е. выбор общего вида модели, выявление входящих в нее связей.

4-й этап (информационный). Осуществляется сбор необходимой статистической информации – наблюдаемых значений экономической информации 1, х2, х3,…. хn, у1, у2, у3 …уn).

5-й этап (идентификация модели). Осуществляется статистический анализ модели и оценка ее параметров.

6-й этап (верификация модели). Проводится проверка истинности, адекватности модели, т.е. насколько соответствует построенная модель моделируемому реальному экономическому процессу или явлению.

 

В естественных науках часто речь идет о функциональной зависимости, когда каждому значению одной переменной соответствует вполне определенное значение другой.

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной). Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п.

Корреляционной связью называют частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения х закономерным образом изменяется среднее значение у, в то время как в каждом отдельном случае у может принимать множество различных значений (с различными вероятностями).

Корреляционная связь между переменными может возникнуть разными путями. Первый путь – причинная зависимость объясняемой переменной (ее вариации) от вариации объясняющей переменной. Например, объясняемая переменная или результативный признак у – это урожайность сельскохозяйственной культуры, а х – как объясняющая переменная (факторный признак) это балл оценки плодородия почвы.

Второй путь – сопряженность, возникающая при наличии общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала 20 века Чупровым: если в качестве х взять число пожарныхкоманд в городе, а за у – сумму убытков за год в городе от пожаров, то между ними в совокупности городов России существовала прямая корреляция, в среднем чем больше пожарных в городе, тем больше и убытков от пожаров. Уж не занимались ли пожарные поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака-следствия общей причины – размера города. В крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в малых городах.

Третий путь возникновения корреляции – взаимосвязь рассматриваемых (переменных) признаков, каждый из которых и причина и следствие. Например, корреляция между уровнями производительности труда рабочих и уровнем оплаты за 1 час труда. С одно стороны, уровень зарплаты это следствие производительности труда, но с другой, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой систем допустимы обе постановки задачи: каждый рассмотренный признак может выступать в роли независимой переменной х и в качестве зависимой переменой у.

При моделировании экономических процессов оперируют следующими типами данных: пространственными и временными.

Пространственные данные – это данные по какому-либо экономическому показателю, полученные от разных однотипных объектов (фирм, регионов и т.п.), но относящиеся к одному и тому же моменту времени (пространственный срез). Например, данные об объеме производства, количестве работников, доходе разных фирм в один и тот же момент времени.

Временные данные – это данные, характеризующие один и тот же объект в различные моменты времени (временной срез).Например, ежеквартальные данные об инфляции, средней заработной плате, данные о национальном доходе за последние годы.

 

Главным инструментом эконометрики служит эконометрическая модель. Эконометрические модели могут представлять собой модель временного рядасистему одновременных уравнений, а также регрессионную модель с одним уравнением.

 

В эконометрическом моделировании можно выделить шесть основных этапов: постановочный, априорный, этап параметризации, информационный, этапы идентификации и верификации модели.

1-й этап (постановочный).На данном этапе формируется цель исследования, набор участвующих в моделиэкономических переменных.

В качестве цели эконометрического моделирования обычно рассматривают анализ исследуемого экономического объекта или процесса; прогноз его экономических показателей, имитацию развития объекта при различных значениях экзогенных переменных, выработку управленческих решений.

2-й этап (априорный). Проводится анализ сущности изучаемого объекта, формирование и формализация априорной информации (известной до начала моделирования).

3-й этап (параметризация). Осуществляется непосредственное моделирование, т.е. выбор общего вида модели, выявление входящих в нее связей.

4-й этап (информационный). Осуществляется сбор необходимой статистической информации – наблюдаемых значений экономической информации 1, х2, х3,…. хn, у1, у2, у3 …уn).

5-й этап (идентификация модели). Осуществляется статистический анализ модели и оценка ее параметров.

6-й этап (верификация модели). Проводится проверка истинности, адекватности модели, т.е. насколько соответствует построенная модель моделируемому реальному экономическому процессу или явлению.

 

В естественных науках часто речь идет о функциональной зависимости, когда каждому значению одной переменной соответствует вполне определенное значение другой.

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной). Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п.

Корреляционной связью называют частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения х закономерным образом изменяется среднее значение у, в то время как в каждом отдельном случае у может принимать множество различных значений (с различными вероятностями).

Корреляционная связь между переменными может возникнуть разными путями. Первый путь – причинная зависимость объясняемой переменной (ее вариации) от вариации объясняющей переменной. Например, объясняемая переменная или результативный признак у – это урожайность сельскохозяйственной культуры, а х – как объясняющая переменная (факторный признак) это балл оценки плодородия почвы.

Второй путь – сопряженность, возникающая при наличии общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала 20 века Чупровым: если в качестве х взять число пожарныхкоманд в городе, а за у – сумму убытков за год в городе от пожаров, то между ними в совокупности городов России существовала прямая корреляция, в среднем чем больше пожарных в городе, тем больше и убытков от пожаров. Уж не занимались ли пожарные поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака-следствия общей причины – размера города. В крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в малых городах.

Третий путь возникновения корреляции – взаимосвязь рассматриваемых (переменных) признаков, каждый из которых и причина и следствие. Например, корреляция между уровнями производительности труда рабочих и уровнем оплаты за 1 час труда. С одно стороны, уровень зарплаты это следствие производительности труда, но с другой, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой систем допустимы обе постановки задачи: каждый рассмотренный признак может выступать в роли независимой переменной х и в качестве зависимой переменой у.

 

Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, вообще говоря, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. В силу несовпадения статистической базы для генеральной совокупности и выборки оценки коэффициентов, входящих в уравнение регрессии, практически всегда отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборке  найти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась бы наилучшей, среди всех других линий.