Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методуказания_Матметоды_в_ЛХ

.pdf
Скачиваний:
17
Добавлен:
03.05.2015
Размер:
1.53 Mб
Скачать

3. Проверка статистических гипотезо соответствии распределения частот теоретичекому распределению в среде Statistica

Откройте программу Statistica.

Выберите в меню: Анализ → Подгонка распределения → нажмите селекторную кнопку Непрерывное→ выделите Нормальное OK

введите переменную → D → Наблюдаемые и ожидаемые частоты

OK → скопируйте таблицу и вставьте в отчет → разверните свернутое окно анализа → График наблюдаемого и ожидаемого распределения

OK. График (рис.8) скопируйте в отчет.

Проверьте аналогичным образом соответствие нормальному закону распределение частот по H и A.

Рис. 8. Графическое представление наблюдаемых и ожидаемых частот в программе

Statistica

21

ЛАБОРАТОРНАЯ РАБОТА №4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Цель работы: закрепить знания по выявлению наличия связей между случайными величинами и их оценке по величине коэффициента корреляции, получить практические навыки по автоматизации обработки данных в среде Excel.

Краткие теоретические сведения

Корреляционным анализом называется многообразие методов исследования параметров генеральной совокупности, распределенной по нормальному закону. Корреляционный анализ позволяет с помощью выборки делать выводы о степени статистической связи (мере связи), между признаками.

Наиболее распространѐнная мера статистической линейной связи между признаками – коэффициент корреляции Пирсона:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

 

 

Xi

 

X Yi

Y

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

Yi

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Xi

X

Y

 

 

где Sxy

 

Xi

 

 

X Yi Y – среднее квадратическое отклонение по

хy;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sx

xi

 

x

 

 

– среднее квадратическое отклонение по х;

 

i

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S y

yi

 

y

 

 

– среднее квадратическое отклонение по у.

 

i

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент корреляции изменяется от -1 до +1. Если r = 0, то линейная связь между изучаемыми случайными величинами отсутствует, если r = ±1, то связь функциональная; «-» – отрицательная зависимость, «+» – положительная. При положительной связи с увеличением (уменьшением) одного признака происходит увеличение (уменьшение) другого: ↑x↑y или ↓x↓y. При отрицательной – при увеличении одного признака другой уменьшается, и наоборот: ↑x↓y, ↓x↑y.

22

Таблица 3.Шкала оценки меры связи

 

r

Характеристика меры связи между случайными

 

 

величинами

0 – 0,30

Слабая

0,31

– 0,50

Умеренная

0,51

– 0,70

Значительная

0,71

– 0,90

Большая (тесная)

0,91

– 1

Очень тесная

Содержание работы

1. Расчет коэффициента корреляции в Excel

Раскройте лист «Исходные данные». В строке меню выберите Дан-

ные → Анализ данных → Корреляция → ОК. В появившемся окне диалога нажмите кнопку в поле «Входной интервал» - выделите столбцы с данными A, H, D, PRO, Р, М, затем снова нажмите на кнопку. В диалоговом окне «Корреляция» поставьте «птичку» Метки в первой строке и выделите «селекторную кнопку» Новый рабочий лист ОК. На новом рабочем листе появится таблица – корреляционная решетка для A, H, D, PRO, Р, М. Назовите этот лист «Корреляция». Файл сохраните. Полученную таблицу скопируйте в MS Word (в отчет).

2. Расчет коэффициента корреляции в программе Statistica

Анализ → Основные статистики и таблицы → Парные и частные корреляции→ ОK → Квадратная матрица→ выделите переменные: A, H, D, P, M→ОK Матрица парных корреляций.

Полученную таблицу (рис. 9) и график скопируйте в MS Word (в отчет).

3. Анализ связи между таксационными показателями На основании полученных данных и данных табл.2 сделайте выводы

о характере и направленности связи между A и H, А и D, A и Р, A и М, H и D, H и Р, H и М, D и Р, D и М, P и M.

Рис. 9. Корреляционная матрица в программе Statistica

23

ЛАБОРАТОРНАЯ РАБОТА №5. ДИСПЕРСИОННЫЙ АНАЛИЗ

Цель работы: провести однофакторный и двухфакторный дисперсионный анализ для выявления влияющих факторов на процент выхода дровяной древесины в среде Excel и Statistica.

Краткие теоретические сведения

Дисперсионный анализ применяется для обнаружения выделенного набора факторов на результативный признак. Факторы могут измеряться в неколичественной шкале, а результативный признак выражаться числом или вектором с числовыми компонентами.

Идея дисперсионного анализа состоит в разложении общей дисперсии результативного признака на части, обусловленные влиянием контролируемых факторов (межгрупповая дисперсия), и остаточную (внутригрупповую) дисперсию, объясняемую неконтролируемым влиянием или случайными обстоятельствами.

Выводы о существенности влияния контролируемых факторов на результат производятся путем сравнения частей общей дисперсии при выполнении требования нормальности распределения результативного

признака.

S2y= S2x + S2e ,

где S2y– общая дисперсия,

S2x– межгрупповая (факториальная, т.к. зависит от действия контролируемых факторов),

S2e– внутригрупповая или остаточная.

Известно много моделей дисперсионного анализа. Они классифицируются с одной стороны по математической природе факторов (детерминированные, случайные и смешанные) и, с другой стороны – по числу контролируемых факторов (однофакторные и многофакторные модели).

Модели с более чем одним фактором дают возможность исследовать влияние на результат не только отдельных контролируемых факторов (главные влияния), но и их наложение (взаимодействия).

Отношение межгрупповой дисперсии (факториальной) к внутригрупповой дисперсии (остаточной) служит критерием оценки влияния

регулируемых в опыте факторов на результативный признак:

Fфакт. = S2x / S2e = S2м.г. /S2в.г. (при S2x S2e).

Если Fфакт. > Fкрит. (для принятого уровня значимости α и числа степеней свободы k) действие контролируемого фактора (нескольких фак-

24

торов или их совместное действие) доказано (статистически достоверно).

Заключительный этап – оценка силы влияния отдельных факторов или их совместного действия на признак. Наибольшее влияние оказывает, тот фактор, у которого дисперсия или сумма квадратов (SS – в статистических пакетах) наибольшая.

Содержание работы

Исходные данные для выполнения данной лабораторной работы находятся в приложении 2, вариант выбирается по номеру компьютера.

Даны следующие исходные данные:

Древесная порода-сосна, изучаемый признак –X - % выхода дров; влияющие факторы: A-число лет после пожара; B-средний диаметр древостоя.

Таблица 4.Исходные данные для дисперсионного анализа

 

 

A=1

 

 

A=2

 

 

A=3

 

 

B=12

B=16

B=20

B=12

B=16

B=20

B=12

B=16

B=20

X

36

26

19

70

45

33

73

54

42

 

37

27

20

72

46

34

75

55

44

 

34

25

18

68

44

32

70

52

40

1.Однофакторный дисперсионный анализ в Excel

На листе «Исходные данные» введите данные из своего варианта задания как показано в табл. 5.

Таблица 5. Представление исходных данных для работы в Excel

 

A1

A2

A3

B12

36

70

73

B12

37

72

75

B12

34

68

70

B16

26

45

54

B16

27

46

55

B16

25

44

52

B20

19

33

42

B20

20

34

44

B20

18

32

40

В строке меню выберите: Данные → Анализ данных → Однофакторный дисперсионный анализ → ОК. В появившемся окне диалога нажмите кнопку в поле «Входной интервал» - выделите столбцы с данными A1, A2, A3, затем снова нажмите на кнопку, поставьте «птичку»

Метки в первой строке, выделите «селекторную кнопку» Группирование: по столбцам и Новый рабочий лист → ОК.

25

На новом рабочем листе появится таблица с итогами дисперсионного анализа. Назовите этот лист «Дисперсионный анализ 1». Файл сохраните. Полученную таблицу скопируйте в Word (в отчет).

Сделайте вывод о наличии или отсутствии влияния фактора А (число лет после пожара) на результативный признак Х (% выхода дров из древостоя). Для этого сравните сумму квадратов (SS) между группами и внутри групп, а также оцените фактическое и критическое значение F-

критерия.

Вернитесь в Excel на лист «Исходные данные». В строке меню вы-

берите Данные → Анализ данных → Однофакторный дисперсионный анализ → ОК. В появившемся окне диалога нажмите кнопку в поле «Входной интервал» - выделите строки с данными B12, B16, B20, затем снова нажмите на кнопку, поставьте «птичку» Метки в первом столб-

це, выделите «селекторную кнопку» Группирование: по строкам и Новый рабочий лист ОК.

Новый лист переименуйте в «Дисперсионный анализ 2». Файл сохраните. Полученную таблицу скопируйте в Word (в отчет). Сделайте вывод о наличии или отсутствии влияния фактора В (средний диаметр древостоя) на результативный признак Х (% выхода дров из древостоя).

2. Двухфакторный дисперсионный анализ в Excel

Вернитесь в Excel на лист «Исходные данные». В строке меню вы-

берите Данные → Анализ данных → Двухфакторный дисперсионный анализ без повторений → ОК. В появившемся окне диалога нажмите кнопку в поле «Входной интервал» - выделите всю таблицу с данными A1, A2, A3, B12, B16, B20, затем снова нажмите на кнопку, поставьте «птичку» Метки, выделите «селекторную кнопку» Новый рабочий лист ОК. Новый лист переименуйте в «Дисперсионный анализ 3». Файл сохраните. Полученную таблицу скопируйте в Word (в отчет). Сделайте вывод о наличии совместного влияния факторов А и В на результативный признак и в случае его подтверждения о том, какой фактор влияет сильнее.

3. Дисперсионный анализ в среде Statistica

Откройте свой файл с исходными данными в программе Statistica. Добавьте три новых столбика Year, Diametr, Volume. (Переменные → Добавить → Число переменных: 3). Введите данные, как показано в таблице 6.

Встроке меню выберите Анализ → Дисперсионный анализ (Д.А.)

Главные эффекты → ОК →Переменные → Зависимые переменные:

Volume → Независимые: Year и Diametr ОК ОК Все эффекты

(таблицу (рис. 10) скопируйте и вставьте в отчет.

26

Таблица 6. Представление исходных данных для работы в программе Statistica

Year

Diametr

Volume

1

12

36

1

12

37

2

12

70

2

16

45

….

3

20

40

Вернитесь в окно диалога анализа → Все эффекты/графики → выделите строку Year ОК → график ( рис.11) скопируйте и вставьте в отчет. Аналогично постройте график для фактора Diametr.

Рис. 10. Результаты дисперсионного анализа в программе Statistica

Рис. 11. Графическое представление результатов дисперсионного анализа в программе Statistica

27

ЛАБОРАТОРНАЯ РАБОТА №6. РЕГРЕССИОННЫЙ АНАЛИЗ (ПРОСТАЯ РЕГРЕССИЯ)

Цель работы: Закрепить знания по разработке регрессионных моделей и оценке их адекватности эмпирическим данным, получить практические навыки по автоматизации обработки данных в среде Excel и Statistica.

Краткие теоретические сведения

Регрессионный анализ - это метод определения степени раздельного или совместного влияния факторов на результативный признак.

Процедура простой регрессии заключается в нахождении аналитического выражения для связи двух переменных X и Y.

Переменная X носит название независимой переменной, или предиктора, переменная Y называется зависимой переменной, или откликом.

Данная терминология связана с тем, что необходимо определить именно зависимость Y от X или предсказать, какими будут значения Y при данных значениях X.

Значение переменной X в i-м опыте обозначают через Xi, соответствующее значение величины Y - через Yi, 0 < i < = n.

Cамая простая регрессионная модель – линейная, в рамках этой модели наблюдаемые величины X и Y связаны между собой регрессионной зависимостью вида:

Yi b0 b1Xi ei , 0 i n ,

где b0, bl – неизвестные константы, ei – ненаблюдаемые случайные величины (наблюдаются только Xi, Yi, 0 i n ) со средним 0 (как говорят, являются несмещенными) и неизвестной дисперсией, не меняющейся от опыта к опыту.

Иногда случайные величины ei, 0 i n называют ошибками наблюдения. Относительно ei предполагается, что они не коррелированы в разных опытах. Кроме того, часто предполагается, что ошибки имеют нормальное распределение. В этом случае некоррелированность влечет независимость.

Линейные модели с несколькими независимыми переменными на-

зывают множественными регрессионными моделями:

Yi b0 b1X1 b2 X 2 ... bk X k ei , 0 i n

где b0, bl, b2, ..., bk – неизвестные коэффициенты.

Общая задача регрессионного анализа состоит в том, чтобы по наблюдениям:

оценить параметры модели b0 и bl;

28

построить доверительные интервалы для b0 и bl; проверить гипотезу о значимости регрессии; оценить степень адекватности модели и т.д.

В рассмотренном ниже примере (рис. 9) оценка свободного членауравнения b0, равна 5,99, оценка коэффициента bl – угла наклона – равна 0,36. Такие оценки называют оценками, построенными методом наименьших квадратов, или более кратко - оценками наименьших квадратов. Требование метода заключается в том, чтобы теоретические точки линии регрессии Ŷi были получены таким образом, чтобы сумма квадратов отклонений от этих точек эмпирических (наблюдаемых) значений Yi была минимальной, т.е. Σ(Yi Ŷi)2→min.

Под адекватностью понимается способность модели предсказывать результаты эксперимента с требуемой точностью.

Модель можно считать адекватной, если множественный коэффициент корреляции (R) и коэффициент детерминации (R- квадрат) имеют значение, превышающее 0,5; сумма квадратов регрессии превышает сумму квадратов остатков (см. колонку SS), стандартная ошибка не велика, фактическое значение критерия Фишера (F) превышает теоретическое при данном числе степеней свободы (df) и заданном уровне значимости. В оценке адекватности модели важную роль играет и график остатков (рис.7).

Рис.7. Примеры графиков остатков: а) адекватная модель; b) гетероскедастичность (отсутствие постоянства дисперсии) указывает на необходимость преобразования

переменной Y; с) линейная независимая переменная; d) линейная или квадратичная независимая переменная

29

Основные понятия регрессионного анализа, используемые в таблицах вывода в модуле Регрессия (MS Excel):

Предсказанные значения Ŷi – значения Y, вычисленные по уравнению с оцененными параметрами (в нашем примере по уравнению M=5,99+0,36D).

Остатки – разности между наблюдаемыми значениями и предсказанными: Yi –Ŷi.

Сумма квадратов Y, скорректированная на среднее(SS):

SS (Y1 Y )2 (Y2 Y )2 ... (Yn Y )2 ,

где Y среднее значение Y.

Сумма квадратов Ŷi, скорректированная на среднее – SS регрессии (SS регр.):

 

ˆ

 

 

 

2

ˆ

 

 

 

2

 

ˆ

 

 

 

 

2

 

SS регр.

Y )

Y )

...

Y )

 

(Y1

 

(Y2

 

(Yn

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сумма квадратов остатков - SS остатков (SSост..):

SSост.

(Y1

ˆ

2

 

(Y2

ˆ

2

 

...

(Yn

ˆ

2

 

 

Y1 )

 

 

Y2 )

 

 

Yn )

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Исходя из вышеизложенного: SS = SSрегр.+ SSост.

Несмотря на то, что это соотношение элементарно, оно играет ключевую роль в регрессионном и дисперсионном анализах. Именно на нем основывается большинство выводов в них.

Коэффициент детерминации – R-квадрат (R2):

R2

SS регр

 

SS .

 

Коэффициент детерминации измеряет долю разброса относительно среднего значения, которую «объясняет» построенная регрессия. Коэффициент детерминации лежит в пределах от 0 до 1. Он измеряет качество построенной регрессии. Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость в данных.

Содержание работы

1. Построение регрессионной модели в Excel

Раскройте лист «Исходные данные». В строке меню выберите Дан-

ные → Анализ данных → Регрессия → ОК. В появившемся окне диало-

га нажмите кнопку в поле «Входной интервал Y» - выделите столбец с данными по запасу М, затем снова нажмите на кнопку, в поле «Входной интервал X» - выделите столбец с данными по запасу D, затем снова нажмите на кнопку. В окне диалога «Регрессия» поставьте «птички»

30