Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика.docx
Скачиваний:
29
Добавлен:
19.04.2015
Размер:
583.94 Кб
Скачать

Задачи для самостоятельного решения:

16.1 В первой случайной репрезентативной выборке объема 400 положительный ответ дали 300 опрошенных, а во второй случайной репрезентативной выборке объема 600 положительный ответ дали 500 опрошенных. Укажите доверительные границы для долей (вероятностей положительного ответа в соответствующих генеральных совокупностях) с доверительной вероятностью 0,95 и проверьте гипотезу о равенстве долей (уровень значимости =0,05).

16.2 Для двух независимых выборок объемов =100 и =200 даны выборочные средние арифметические =13,7 и =12,1, средние квадратические отклонения =7,3 и =2,5. Укажите доверительные границы для математических ожиданий (с доверительной вероятностью 0,95) и проверьте гипотезу о равенстве математических ожиданий с помощью критерия Крамера-Уэлча (уровень значимости =0,05).

16.3 При уровне значимости 0,05 проверьте гипотезу об однородности двух выборок по следующим данным:

12

14

15

18

21

26

27

30

31

32

35

38

41

43

46

48

56

57

60

65

68

73

11

16

19

20

23

26

29

33

36

39

42

45

49

52

55

58

61

66

68

69

72

74

75

76

- варианты первой выборки; - варианты второй выборки.

Тема 4: корреляционно-регрессионный анализ

Корреляционно-регрессионный анализ – это статистический метод анализа выборочных наблюдений, предназначенный для выявления взаимосвязи между количественными признаками. Предполагается, что на формирование средних значений результативного признака возможно оказывают влияние факторные признаки. При этом наблюдения над признакомдолжны быть независимыми, выборочная совокупность должна быть достаточно однородной в отношении изучаемого признака и подчиняться нормальному закону распределения вероятностей по результативному и факторным признакам.

Задача состоит в том, чтобы:

  1. определить, какое влияние оказывают факторные признаки на результативный признак, насколько тесно они связаны между собой (корреляционный анализ);

  2. установить аналитическое выражение связи, выбрать наилучшую модель (регрессионный анализ).

Строится статистическая модель: ε,

где – наблюдаемые значения результативного признака;

– аналитическое выражение для определения средних значений признака;

ε– случайные отклонения.

Линейный регрессионный анализ заключается в подборе прямой для набора наблюдений с помощью метода наименьших квадратов. Линейная статистическая модель имеет вид:

ε,

где ,,…,– параметры уравнения регрессии;ε – случайное

отклонение.

По выборке находят оценки параметров. Тогда функция регрессии будет иметь вид:

.

Факторные признаки могут иметь различные единицы измерения. Чтобы избежать суммирования величин разной размерности функцию регрессии представляют в стандартизированном масштабе:

,

где ,- стандартизированные перемен-

ные, - стандартизированные коэффициенты регрессии.

Стандартизированный коэффициент регрессии показывает, на какую часть своего среднего квадратического отклоненияизменится результативный признак, если факторувеличится напри неизменном влиянии прочих факторов модели. Связь коэффициентов множественной регрессиисо стандартизированными коэффициентами описывается соотношением:.

Для того чтобы выяснить, насколько процентов в среднем изменится результативный признак , если факторный признакувеличится на1% от своего среднего уровня при неизменных значениях остальных факторов, рассчитывают средние коэффициенты эластичности: .

Коэффициенты эластичности и стандартизированные частные коэффициенты регрессии можно использовать для ранжирования факторов по силе влияния на результат. Чем больше величина или, тем сильнее влияет факторна результат.

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным и осуществляют на основе анализа остатков: , где-i-ое наблюдаемое значение результативного признака, - рассчётноеi-ое значение результативного признака, полученное на основе функции регрессии. Отношение (дисперсии признака, «объясненную» уравнением регрессии) к общей дисперсии результативного признаканазываюткоэффициентом детерминации:

,

где - дисперсия остатков. Проверказначимости уравнения регрессии осуществляется с помощью критерия Фишера: выдвигают основную гипотезу :о незначимости уравнения в целом и альтернативную ей гипотезу:о значимости уравнения. Эмпирическое значение-статистики:

сравнивают с критическим значением , где=0,05 – уровень значимости;,- степени свободы распределения Фишера-Снедеккора. Если, то гипотезу о незначимости отвергают.

Оценку качества построенной модели дает также средняя ошибка аппроксимации:

.

Допустимый предел значений - не более 8-10%.

Для количественной оценки взаимосвязи двух наборов данных, представленном в безразмерном виде, используется парный коэффициент корреляции :

,

где - ковариация факторови,и- выборочные средние квадратические отклонения этих факторов.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной линейной связанности. Считается, что две переменные явно коллинеарны, если .

Рассмотрим более подробно однофакторные модели.

Статистическая оценка средних значений результативного признака в зависимости от различных значений факторного признаканазываетсяпарной регрессией: . Различают линейные и нелинейные регрессии.

Линейная регрессия: ε.

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включённые в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам. Обычно используются функциональ-ные зависимости следующих видов:

  • полиномы ε;

  • гипербола ε;

  • степенная ε;

  • показательная ε;

  • экспоненциальная ε;

  • полулогарифмическая ε;

  • обратная .

Так как рассматриваются два признака, то их наблюдаемые значения можно представить в виде точек на плоскости. Полученное множество точек («облако точек») называетсякорреляционным полем. Визуальный анализ расположения этого «облака» позволяет сформулировать гипотезу о наличии и форме связи между признаками.

Для оценки тесноты линейной связи между факторным и результативным признаками ивычисляютвыборочный коэффициент корреляции:

.

Для линейной однофакторной модели ε оценки параметровможно найти с помощью одного из следующих инструментов:

  • статистической функции ЛИНЕЙН, Excel. Предварительно выделите область пустых ячеек 52 (5 строк, 2 столбца). После введения аргументов функции (известных значений, известных значений, константа=1, стат=1), чтобы раскрыть всю таблицу, нажмите на клавишу<F2>, а затем – на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>.

Регрессионная статистика будет выведена в следующем порядке:

Оценка параметра

Оценка параметра

Среднеквадратическое отклонение

Среднеквадратическое отклонение

Коэффициент

детерминации

Среднеквадратическое отклонение

-статистика

Число степеней

свободы

Регрессионная

сумма квадратов

Остаточная сумма

квадратов

  • выделение линии тренда, добавленной в точечную диаграмму. Информация о значениях оценок параметров отображается на диаграмме при установлении соответствующих флажков на закладке Параметры (щелкните по кнопке OK, чтобы получить оценку уравнения регрессии и поместить на диаграмму величину достоверности аппроксимации ).

  • инструмента «Анализ данных» - «Регрессия». Помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности.