- •Diagnostika vybočujících měření
- •Další typy (nelineární) regresních funkcí
- •Mnohonásobná lineární regrese a korelace
- •Časové řady
- •Modely časových řad
- •Neperiodické časové řady
- •Periodické časové řady
- •Posouzení empirických dat s modelem
- •Charakteristiky kvality vyrovnávání
- •Adaptivní modely časových řad
- •Klouzavé průměry
- •Modely pro exponenciální vyrovnávání
- •Modely periodických časových řad (se sezónní složkou)
- •Korelace a autokorelace časových řad Korelace časových řad
- •Autokorelace časových řad
- •Autoregresní modely časových řad
- •Vícerozměrné statistické metody
- •Vícenásobná regrese a korelace
- •Analýza hlavních komponent (pca)
- •Interpretace hlavních komponent Faktorová analýza
Testy shody
Pochází výběrová data z populace s normálním rozdělením? Pokud ano, data jsou uspořádána pomocí HYSTOGRAM
Empirická četnost = pozorovaná četnost ve výběrovém souboru
Očekávaná četnost = teoretická, známá pro základní soubor
Pearsonův chí-kvadrát test
Umožňuje ověřit, zda má náhodná veličina určité předem dané rozdělení pravděpodobnosti
Test se často používá pro ověřování hypotéz v kontingenční tabulce
Ho: výběr pochází z populace s normálním rozdělením, H1: nepochází
Předpoklady = n > 50, očekávaná četnost > 5
Kolmogorův-smirnovův test
Znám typ i parametry rozdělení
Test je založen na porovnání kumulativních četností (empirické a očekávané)
Davidův test normality
Pro velmi malý výběr
Vychází z rozpětí a směrodatné odchylky výběru
H0: náhodný výběr pochází z normálního rozdělení, H1: nepochází
Testování v SPSS
Kolmogorov-smirnovův test s korekcí
Shapiro-wilkůw test, který je založen na šikmosti a špičatosti
Kontingenční tabulky
Kategoriální proměnné (nominální, ordinální, kvantitativní diskrétní proměnné)
Jsou-li A a B nezávislé, musí platit vztah vyplývající z věty o násobení pravděpodobností
Chý-kv test pro kontingenční tabulku
Test je založen na porovnání pozorovaných (empirických) a (při nezávislosti) očekávaných četností
H0: A a B jsou nezávislé, H1: jsou závislé
Podmínky = asymptotický test musí mít dostatečně velký rozsah, všechny očekávané četnosti > 1, maximálně 20% očekávaných četností < 5
Cramerův koeficient
Vyjadřuje symetrickou míru závislosti
Pravděpodobnost spočítáme pro všechny možné tabulky, které vzniknou postupným snižováním nejmenší četnosti o 1 => všechny pravděpodobnosti sečteme a porovnáme s hlediskem významnosti
Předpoklad = očekávaná četnost > 5
Při malých četnostech je pro tabulku 2x2 možno k ověření hypotézy o nezávislosti použít Fisherův faktoriálový test
Mcnemarův test
Ovlivní nějaký zásah výskyt znaku X (alternativní proměnná + -)
Ho: rozdělení před a po zásahu stejné, H1: není stejné
Regresní a korelační analýza
Regrese = existuje závislost mezi výškou a váhou? Jestli ano, jak tento vztah modelovat?
Korelace = Jaká je těsnost závislosti
Regresní úloha = rozdíl mezi funkční a statistickou závislostí (jednoduchá X vícenásobná)
Jednoduchá lineární regrese a korelace
X (nezávislá proměnná = vysvětlující), Y (závislá = vysvětlovaná)
Použití regresní analýzy = je vázáno na splnění jistých předpokladů, jsou-li splněny:
Model závislosti Y na X = z existence regresního vztahu mezi Y a X však nutně nevyplývá kauzální závislost Y na X (problém třetí proměnné = může existovat třetí proměnná, která ovlivňuje výsledky)
Pro predikci = nedoporučuje se používat regresní model pro extrapolaci (mimo obor hodnot x, pro které byl model sestaven)
Předpoklady regresního modelu = náhodné chyby jsou nezávislé náhodné veličiny, které mají všechny normální rozdělení se střední hodnotou 0 a stejným rozptylem (ověření předpokladů analýzou r)
Parametry modelu = odhadneme na základě n nezávislých pozorování, jejichž odhad se provádí metodou nejmenších čtverců (za odhady prohlásíme ty hodnoty, pro které nabývá minima výraz S => tato podmínka vede na soustavu lineárních rovnic (normálních) pro odhady parametrů modelu
Korelační koeficient = měří míru těsnosti lineární závislosti mezi X a Y
r =< 0,3 = slabá závislost
0,3 < r = středně silná závislost
0,8 =< r = silná závislost
Funkční (nejtěsnější) závislost = 1
Koeficient determinace = udává, z kolika % je variabilita závisle proměnné Y vysvětlená regresním modelem
Test významnosti celé regresní přímky = pomocí analýzy rozptylu (ověřuje vhodnost použitého regresního modelu)
Spearmanův koeficient pořadové korelace
Nahrazení naměřených hodnot pořadovými čísly
Neparametrická charakteristika => těsnosti jednoduché závislosti nevyžadují normalitu ani linearitu, stačí monotonost
Odhady regresních a korelačních charakteristik
Provádí se na základě výběrových regresních koeficientů a reziduálních rozptylů porovnávaných modelů
Bodový odhad
Bodový odhad podmíněné střední hodnoty (kolik váží muž, který měří 180 cm)
Bodový odhad individuální hodnoty (kolik váží Jan Novák, měřící 180 cm)
U regresního modelu získáme odhady metodou nejmenších čtverců (minimalizace součtu čtverců S) => odtud soustava normálních rovnic pro odhad vektoru parametru (řešením jsou nestranné odhady (reziduální rozptyl) parametrů modelu)
Intervalový odhad
Pro podmíněnou střední hodnotu, anebo pro individuální střední hodnoty
Interval spolehlivosti pro korelační koeficient => fisherova Z-transformace => výběrový r -> Z
Diagnostika lineárního regresního modelu
Vlastnosti odhadů parametrů modelu získaných metodou nejmenších čtverců = nestranné, vydané (s nejmenším rozptylem), normálně rozdělení, vliv na přesnost odhadů = směrodatné chyby, intervaly spolehlivosti
Ověření předpokladů regresního modelu = nezávislé náhodné chyby (grafická analýza reziduí)
Další možnosti popisu reziduální složky = nestandardizovaná rezidua, normovaná (standardizovaná) rezidua (umožní srovnání reziduí z různých modelů), odhad směrodatné odchylky, studentizovaná rezidua (odhad směrodatné odchylky pro každý bod i)
Ověření předpokladu normality (graf):
Homoskedascita = chyby mají stejný a neznámý rozptyl
Porušení předpokladu o rovnosti rozptylů je časté (heteroskedascita rozptylů), mnohdy spojeno s porušením normality rozdělení, lze někdy řešit:
Vhodnou transformací vysvětlované proměnné
Použitím vážené metody nejmenších čtverců
(mění-li se rozptyly nějakým systematickým způsobem)
Vybočující měření nebo neobvyklá pozorování lze považovat za speciální případ heteroskedascity dat (stejné rozptyly mohou způsobit vychýlené odhady parametrů modelu i chybný odhad rozptylu => přesto není dobré řešení vynechávat automaticky hodnoty, které se jeví jako vybočující
Diagnostika vybočujících měření
Mahalanobisova vzdálenost = vzdálenost pozorování od středu (těžiště ve vícerozměrném prostoru), bere v úvahu také rozptyly proměnných a korelaci mezi nimi
Cookova vzdálenost = míra vlivu pozorování na regresní přímku. Charakterizuje rozdíl v hodnotách b při vypuštění tohoto pozorování
Leverage (potenciál) =statistika, která umožňuje identifikovat body, které mají tu vlastnost, že při jejich vypuštění se výrazně změní hodnoty odhadů parametru regresního modelu
Další typy (nelineární) regresních funkcí
Kvadratická, logaritmická, hyperbolická, exponenciální, mocninná
Odhady parametrů regresních funkcí získáme ze soustavy normálních rovnic (metoda nejmenších čtverců)
Je-li regresní model lineární v parametrech, je soustava normálních rovnic lineární soustava rovnic = důsledky pro řešitelnost soustavy, důsledky pro vlastnosti odhadů parametrů (jsou-li splněny předpoklady modelu, jsou odhady parametrů nestranné, mají nejmenší rozptyl a mají normální rozdělení)
Měření těsnosti závislosti při nelineární regresy Y a X = rozklad pozorované variability Y na Z části (součet čtverců vyrovnaných hodnot a reziduální součet čtverců)
Tabulka funkcí ze cvika!!!!
Některé regresní funkce, které nejsou v parametrech lineární lze vhodnou transformací linearizovat
Regresní funkce nelineární v parametrech = metoda nejmenší čtverců = soustava normálních rovnic pro neznámé parametry modelu = je nelineární pro parametry regresní funkce => hledání řešení postupnými iteracemi (nutno zadat počáteční odhady), n -> + nekonečno
Čím vyšší je stupeň nelinearity modelu, tím více se vlastnosti odhadů mohou lišit od vlastností odhadů lineárního modelu (je potřeba posuzovat vždy současně s konkrétním datovým souborem)
Mnohonásobná lineární regrese a korelace
Předpoklady modelu = vysvětlující proměnné X1, X2, … jsou nenáhodné a neexistuje mezi nimi lineární závislost, náhodné chyby jsou nezávislé, normálně rozdělené náhodné veličiny s nulovými středními hodnotami a se stejným rozptylem (homoskedascita)
Parciální korelační koeficient (jednoduchá lineární závislost, párové korelační koeficienty) = charakterizuje sílu lineární závislosti mezi závisle proměnou a jednou nezávisle proměnou, jsou-li hodnoty zbývajících proměnných v modelu konstantní
R na druhou opravená hodnota R na druhou = definice R na druhou nebere v úvahu stupně volnosti, proto vždy u modelu s větším počtem vysvětlujících proměnných vyšší hodnota R na druhou => potřebujeme-li porovnat kvalitu modelů s různým počtem vysvětlujících proměnných pro stejnou vysvětlovanou proměnnou y, použijeme opravenou hodnotu
Ze statistické významnosti individuálních parciálních koeficientů nelze automaticky usuzovat významnost společného působení vysvětlujících proměnných na vysvětlovanou proměnou
Úplná multikolinearita = lineární závislost mezi vysvětlujícími proměnnými v regresním modelu
Neúplná multikolinearita = vysoce korelované vysvětlující proměnné, důsledky = jsou-li předpoklady lineárního regresního modelu splněny, odhady parametrů získané MNČ jsou BLUE (nejlepší nestranné odhady), ale nestrannost se vztahuje k opakovaným výběrům, ne k 1 výběru! => získáme sice odhady s nejmenším rozptylem, ale ten může být velký (důsledkem jsou nevýznamné t testy a široké intervaly spolehlivosti), odhady parametrů i směrodatné chyby jsou nestabilní, citlivé na malé změny v datech
