
- •Етапи аналізу даних.
- •Класифікація типів змінних.
- •Групування даних.
- •Етапи попередньої обробки даних .
- •2. Числові характеристики вибірки.
- •3. Перевірка основних гіпотез.
- •Видалення аномальних спостережень.
- •Перевірка випадковості (стохастичності) вибірки.
- •Графічне представлення даних.
- •1. Суть кореляційного аналізу
- •Коефіцієнт детермінації – це є квадрат коефіцієнта кореляції, долю варіації, спільну для двох змінних, іншими словами “степінь” залежності двох змінних.
- •3. Частинні коефіцієнти кореляції.
- •4. Нелінійна кореляція.
- •2.Індекс Фехнера.
- •3. Кореляційне відношення Пірсона
- •4.Коефіцієнт конкордації.
- •Тема: „Регресійний аналіз”.
- •Регресійний аналіз – сукупність статистичних методів, що орієнтовані на дослідження стохастичної залежності однієї змінної y від набору інших змінних .
- •Метод найменших квадратів
- •Дисперсійний аналіз
- •Модель ііi.
- •Коваріаційний аналіз.
- •Перевірка гіпотези в умовах ;
- •35.Дискримінант ний аналіз.
Дисперсійний аналіз
Дисперсійний аналіз – статистичний метод дослідження вибіркових даних, що проводиться з метою виявлення і оцінки степені впливу на випадкову величину різних, одночасно діючих факторів.
Розрізняють три моделі дисперсійного аналізу.
Модель
1
– модель
з постійними факторами,
в якій всі
можуть розглядатись, як невідомі сталі.
Величина
називається адитативною
сталою.
Модель 2 – модель, в якій всі параметри випадкові, за виключенням, можливо одного, що є сталим. Така модель називається моделлю з випадковими факторами.
Модель 3 – це модель, в якій хоч би один параметр випадковий, і хоч би один невипадковий (але не є адитативною сталою). Цю модель називають змішаною моделлю.
Модель 1. Однофакторний дисперсійний аналіз
Розглянемо випадок, коли на результат вимірювань впливає лише один фактор. Запишемо результати вимірювань деякої ознаки на р об’єктах у вигляді матриці у:
(4)
Такий запис матриці у означає, що на кожному об’єкті, що відповідає j-ій градації деякого фактору, проведна однакова кількість спостережень, рівна п. Основне рівняння однофакторного дисперсійного аналізу в умовах моделі 1 має вигляд:
,
де
- генеральне середнє,
(5)
що
визначаєтья формулою
;
(6)
-
ефект j-ї
градації досліджуваного фактора, що
визначається формулою
;
(7)
-
випадкова незалежна величина , що
відображає вплив на результати
експеременту неконтрольованих факторів
в даному спостереженні.
Статистична гіпотеза може бути сформульована наступним чином:
,
тобто вплив досліджуваного фактора на
всіх рівнях (градаціях) однаковий. Іншими
словами, в умовах гіпотези H0
справедлива рівність:
.
Перевірка гіпотези здійснюється за наступною схемою:
Обчислюють вибіркові середні
:
,
де N=np
(8)
Знаходятьсуми квадратів відхилень вибіркових значень від відповідних середніх:
а) суму, яка характеризує зміну, обумовлену досліджуваним фактором:
;
(за факторами)
(9)
б) суму, яка характеризує зміну всередині кожної градації фактора:
;
(залишкова)
(10)
в) суму, яка характеризує загальну зміну ознаки:
;
(загальна)
(11)
Якщо
всі допущення про величини
виконуються, то справедлива рівність
.
Відповідні дисперсії рівні:
(12)
Критерій, який використовують для перевірки гіпотези Н0, має вигляд:
(13)
При
умові, що гіпотеза Н0
– вірна, розподіл критерію підлягає
закону Фішера (F-розподіл).
Гіпотеза відхиляється, якщо
,
де
-
таблиця значень F-розподілу
при відповідному рівні значущості
при степенях вільності
.
Модель 2. Оденофакторний дисперсійний аналіз
Вибір
об’єктів, що відповідають деяким
градаціям досліджуваного фактору,
рандомізований випадковий вибір
факторів, що визначає випадковий характер
факторних ефектів. Це приводить до зміни
структури основного рівняння однофакторного
дисперсійного аналізу. Воно набере
вигляду
,
(14)
де - генеральна середня (адитивна стала),
-
значення випадкової величини (відхилення
середнього значення ознаки на j-
му об’єкті
(mj)
від
генерального середнього, тобто
).
Однофакторний ДА з нерівною кількістю спостережень
Загальна схема аналізу лишається такою ж, деякі зміни вносяться лише у формули, за якими обчислюються оцінки середніх і суми квадратів відхилень:
(15)
(16)
(17)
(18)
(19)
Якщо
величина F-критерію
перевищила критичне значення
,
то нульова гіпотеза відхиляється. В
цьому випадку допускають, що існує, в
крайньому разі, хоч би одна пара середніх,
наприклад,
і
,
для яких
.
Більш загальний розв’язок задачі дає метод Шеффе(S- метод). За його допомогою можна побудувати довірчі інтервали для будь-якої лінійної комбінації середніх:
(20)
Фунція
,
визначена таким чином, називається
контрастом. Вибіркову оцінку
знайдемо шляхом заміни
величинами
(21)
Як
і раніше, будемо допускати, що
належні і нормально розподілені, а
,
звідси випливає, що
(23)
Вибірковою оцінкою D(H) є величина
,
де
(24)
,
(25)
-
об’єм вибірки, що відповідає j-й
градації, досліджуваного фактору.
Довірчий інтервал велечини
визначається наступним співвідношенням:
,
де
(26)
Коли
провести
таких порівняннь, то можна виділити всі
„контрастні” значення
і тим самим виявити джерело неоднорідності
середніх.
Двофактоний ДА
Складнішою моделлю дисперсійного аналізу є вивчення впливу на результати експерименту кількох факторів. Зокрема при аналізі впливу двох факторів структура моделі набуває вигляду:
(27)
де,
-
значення ознаки
y
в і-му
експеременті j-му
рівні впливу фактора А
і на k-му
рівні впливу фактора В;
-загальна
середня величина ознаки у;
-ефект
впливу факторів А
на і-му
рівні,
-ефект впливу фактора В на j-му рівні;
-ефект
одночасного впливу факторів А
і В;
-випадкова
компонента ( варіація в середині окремої
групи ).
В
двофакторному аналізі розрізняють
багатосторонню
(перехресну) класифікацію,
коли таблиці вхідних даних
кожний j-й
стовпець (j-та
градація фактора В)
містить однакову кількість груп, що
відповідають градаціям і-го
фактора А,
та ієрахічну
класифікацію,
коли фактор В
(другосторонній
в рамках даної задачі) згрупований
всередині головного А.
В ієрархічній класифікації число
градацій фактора В,
що фіксуються всередині різних градацій
фактора А,
може бути поодиноким.
В
умовах моделі 1
фактори А,
В,
розглядаються,
як фіксовані, щодо моделі
2 – як
випадкові. Для змішаної моделі одному
із факторів приписується систематичний
вплив, другому випадковий. Для визначеності,
допускають, що в моделі 3
фактор
В-
фіксований, а фактор А,
і їх взаємодія АВ-
випадковий.
Загальна схема двофакторного дисперсійного аналізу(перехідна класифікація з повтореннями)
1. обчислюються вибіркові середні:
середнє
значення ознаки у
для
кожного блока; (28)
середнє
значення ознаки
у
за (29)
стовпцями;
середнє
значення ознаки
у
за (30)
рядками;
загальна
середня ознаки
у
(31)
де
.
2. Визначаються суми квадратів відхилень, що обумовлені впливом різних факторів:
а)
-
вплив
фактору А;
(32)
б)
-
вплив фактору В;
(33)
в)
-
вплив
взаємодії факторів АВ;
(34)
г)
-зміни,
пов’язані
з
(35)
відмінностями
всеридині комірки;
д)
-загальна
зміна, даної ознаки.
(36)
Справедлива
рівність
.
Величина
відповідає (g-1)-степеней
вільностей;
.
3.Тепер неважко знайти середні квадрати відхилень:
(37)
Перевірка гіпотез
Модель 1.
Перевірка гіпотез здійснюється за критерієм:
Якщо
вірна то дані величини підлягають F
розподілу.
Якщо
виконується
то вплив відповідно факторів а,в
і їх взаємодія вважаються суттєвими.
Модель ІІ
Нульові гіпотези, що перевіряються запишемо так:
(41)
Відповідні критерії мають вигляд:
(42)
,
В
умовах нульової гіпотези відношення
,
і
мають F-розподіл
з відповідними степенями вільності.
Гіпотези
,
,
відхиляються
(при заданому рівні значущості
),
якщо
(43)