Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
teorie-k-ustni.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
831.14 Кб
Скачать

Testy shody

  • Pochází výběrová data z populace s normálním rozdělením? Pokud ano, data jsou uspořádána pomocí HYSTOGRAM

  • Empirická četnost = pozorovaná četnost ve výběrovém souboru

  • Očekávaná četnost = teoretická, známá pro základní soubor

Pearsonův chí-kvadrát test

  • Umožňuje ověřit, zda má náhodná veličina určité předem dané rozdělení pravděpodobnosti

  • Test se často používá pro ověřování hypotéz v kontingenční tabulce

  • Ho: výběr pochází z populace s normálním rozdělením, H1: nepochází

  • Předpoklady = n > 50, očekávaná četnost > 5

Kolmogorův-smirnovův test

  • Znám typ i parametry rozdělení

  • Test je založen na porovnání kumulativních četností (empirické a očekávané)

Davidův test normality

  • Pro velmi malý výběr

  • Vychází z rozpětí a směrodatné odchylky výběru

  • H0: náhodný výběr pochází z normálního rozdělení, H1: nepochází

Testování v SPSS

  • Kolmogorov-smirnovův test s korekcí

  • Shapiro-wilkůw test, který je založen na šikmosti a špičatosti

Kontingenční tabulky

  • Kategoriální proměnné (nominální, ordinální, kvantitativní diskrétní proměnné)

  • Jsou-li A a B nezávislé, musí platit vztah vyplývající z věty o násobení pravděpodobností

Chý-kv test pro kontingenční tabulku

  • Test je založen na porovnání pozorovaných (empirických) a (při nezávislosti) očekávaných četností

  • H0: A a B jsou nezávislé, H1: jsou závislé

  • Podmínky = asymptotický test musí mít dostatečně velký rozsah, všechny očekávané četnosti > 1, maximálně 20% očekávaných četností < 5

Cramerův koeficient

  • Vyjadřuje symetrickou míru závislosti

  • Pravděpodobnost spočítáme pro všechny možné tabulky, které vzniknou postupným snižováním nejmenší četnosti o 1 => všechny pravděpodobnosti sečteme a porovnáme s hlediskem významnosti

  • Předpoklad = očekávaná četnost > 5

  • Při malých četnostech je pro tabulku 2x2 možno k ověření hypotézy o nezávislosti použít Fisherův faktoriálový test

Mcnemarův test

  • Ovlivní nějaký zásah výskyt znaku X (alternativní proměnná + -)

  • Ho: rozdělení před a po zásahu stejné, H1: není stejné

Regresní a korelační analýza

  • Regrese = existuje závislost mezi výškou a váhou? Jestli ano, jak tento vztah modelovat?

  • Korelace = Jaká je těsnost závislosti

  • Regresní úloha = rozdíl mezi funkční a statistickou závislostí (jednoduchá X vícenásobná)

Jednoduchá lineární regrese a korelace

  • X (nezávislá proměnná = vysvětlující), Y (závislá = vysvětlovaná)

  • Použití regresní analýzy = je vázáno na splnění jistých předpokladů, jsou-li splněny:

  • Model závislosti Y na X = z existence regresního vztahu mezi Y a X však nutně nevyplývá kauzální závislost Y na X (problém třetí proměnné = může existovat třetí proměnná, která ovlivňuje výsledky)

  • Pro predikci = nedoporučuje se používat regresní model pro extrapolaci (mimo obor hodnot x, pro které byl model sestaven)

  • Předpoklady regresního modelu = náhodné chyby jsou nezávislé náhodné veličiny, které mají všechny normální rozdělení se střední hodnotou 0 a stejným rozptylem (ověření předpokladů analýzou r)

  • Parametry modelu = odhadneme na základě n nezávislých pozorování, jejichž odhad se provádí metodou nejmenších čtverců (za odhady prohlásíme ty hodnoty, pro které nabývá minima výraz S => tato podmínka vede na soustavu lineárních rovnic (normálních) pro odhady parametrů modelu

  • Korelační koeficient = měří míru těsnosti lineární závislosti mezi X a Y

  • r =< 0,3 = slabá závislost

  • 0,3 < r = středně silná závislost

  • 0,8 =< r = silná závislost

  • Funkční (nejtěsnější) závislost = 1

  • Koeficient determinace = udává, z kolika % je variabilita závisle proměnné Y vysvětlená regresním modelem

  • Test významnosti celé regresní přímky = pomocí analýzy rozptylu (ověřuje vhodnost použitého regresního modelu)

Spearmanův koeficient pořadové korelace

  • Nahrazení naměřených hodnot pořadovými čísly

  • Neparametrická charakteristika => těsnosti jednoduché závislosti nevyžadují normalitu ani linearitu, stačí monotonost

Odhady regresních a korelačních charakteristik

  • Provádí se na základě výběrových regresních koeficientů a reziduálních rozptylů porovnávaných modelů

Bodový odhad

  • Bodový odhad podmíněné střední hodnoty (kolik váží muž, který měří 180 cm)

  • Bodový odhad individuální hodnoty (kolik váží Jan Novák, měřící 180 cm)

  • U regresního modelu získáme odhady metodou nejmenších čtverců (minimalizace součtu čtverců S) => odtud soustava normálních rovnic pro odhad vektoru parametru (řešením jsou nestranné odhady (reziduální rozptyl) parametrů modelu)

Intervalový odhad

  • Pro podmíněnou střední hodnotu, anebo pro individuální střední hodnoty

  • Interval spolehlivosti pro korelační koeficient => fisherova Z-transformace => výběrový r -> Z

Diagnostika lineárního regresního modelu

  • Vlastnosti odhadů parametrů modelu získaných metodou nejmenších čtverců = nestranné, vydané (s nejmenším rozptylem), normálně rozdělení, vliv na přesnost odhadů = směrodatné chyby, intervaly spolehlivosti

  • Ověření předpokladů regresního modelu = nezávislé náhodné chyby (grafická analýza reziduí)

  • Další možnosti popisu reziduální složky = nestandardizovaná rezidua, normovaná (standardizovaná) rezidua (umožní srovnání reziduí z různých modelů), odhad směrodatné odchylky, studentizovaná rezidua (odhad směrodatné odchylky pro každý bod i)

  • Ověření předpokladu normality (graf):

  • Homoskedascita = chyby mají stejný a neznámý rozptyl

  • Porušení předpokladu o rovnosti rozptylů je časté (heteroskedascita rozptylů), mnohdy spojeno s porušením normality rozdělení, lze někdy řešit:

  • Vhodnou transformací vysvětlované proměnné

  • Použitím vážené metody nejmenších čtverců

(mění-li se rozptyly nějakým systematickým způsobem)

  • Vybočující měření nebo neobvyklá pozorování lze považovat za speciální případ heteroskedascity dat (stejné rozptyly mohou způsobit vychýlené odhady parametrů modelu i chybný odhad rozptylu => přesto není dobré řešení vynechávat automaticky hodnoty, které se jeví jako vybočující

Diagnostika vybočujících měření

  • Mahalanobisova vzdálenost = vzdálenost pozorování od středu (těžiště ve vícerozměrném prostoru), bere v úvahu také rozptyly proměnných a korelaci mezi nimi

  • Cookova vzdálenost = míra vlivu pozorování na regresní přímku. Charakterizuje rozdíl v hodnotách b při vypuštění tohoto pozorování

  • Leverage (potenciál) =statistika, která umožňuje identifikovat body, které mají tu vlastnost, že při jejich vypuštění se výrazně změní hodnoty odhadů parametru regresního modelu

Další typy (nelineární) regresních funkcí

  • Kvadratická, logaritmická, hyperbolická, exponenciální, mocninná

  • Odhady parametrů regresních funkcí získáme ze soustavy normálních rovnic (metoda nejmenších čtverců)

  • Je-li regresní model lineární v parametrech, je soustava normálních rovnic lineární soustava rovnic = důsledky pro řešitelnost soustavy, důsledky pro vlastnosti odhadů parametrů (jsou-li splněny předpoklady modelu, jsou odhady parametrů nestranné, mají nejmenší rozptyl a mají normální rozdělení)

  • Měření těsnosti závislosti při nelineární regresy Y a X = rozklad pozorované variability Y na Z části (součet čtverců vyrovnaných hodnot a reziduální součet čtverců)

  • Tabulka funkcí ze cvika!!!!

  • Některé regresní funkce, které nejsou v parametrech lineární lze vhodnou transformací linearizovat

  • Regresní funkce nelineární v parametrech = metoda nejmenší čtverců = soustava normálních rovnic pro neznámé parametry modelu = je nelineární pro parametry regresní funkce => hledání řešení postupnými iteracemi (nutno zadat počáteční odhady), n -> + nekonečno

  • Čím vyšší je stupeň nelinearity modelu, tím více se vlastnosti odhadů mohou lišit od vlastností odhadů lineárního modelu (je potřeba posuzovat vždy současně s konkrétním datovým souborem)

Mnohonásobná lineární regrese a korelace

  • Předpoklady modelu = vysvětlující proměnné X1, X2, … jsou nenáhodné a neexistuje mezi nimi lineární závislost, náhodné chyby jsou nezávislé, normálně rozdělené náhodné veličiny s nulovými středními hodnotami a se stejným rozptylem (homoskedascita)

  • Parciální korelační koeficient (jednoduchá lineární závislost, párové korelační koeficienty) = charakterizuje sílu lineární závislosti mezi závisle proměnou a jednou nezávisle proměnou, jsou-li hodnoty zbývajících proměnných v modelu konstantní

  • R na druhou opravená hodnota R na druhou = definice R na druhou nebere v úvahu stupně volnosti, proto vždy u modelu s větším počtem vysvětlujících proměnných vyšší hodnota R na druhou => potřebujeme-li porovnat kvalitu modelů s různým počtem vysvětlujících proměnných pro stejnou vysvětlovanou proměnnou y, použijeme opravenou hodnotu

  • Ze statistické významnosti individuálních parciálních koeficientů nelze automaticky usuzovat významnost společného působení vysvětlujících proměnných na vysvětlovanou proměnou

  • Úplná multikolinearita = lineární závislost mezi vysvětlujícími proměnnými v regresním modelu

  • Neúplná multikolinearita = vysoce korelované vysvětlující proměnné, důsledky = jsou-li předpoklady lineárního regresního modelu splněny, odhady parametrů získané MNČ jsou BLUE (nejlepší nestranné odhady), ale nestrannost se vztahuje k opakovaným výběrům, ne k 1 výběru! => získáme sice odhady s nejmenším rozptylem, ale ten může být velký (důsledkem jsou nevýznamné t testy a široké intervaly spolehlivosti), odhady parametrů i směrodatné chyby jsou nestabilní, citlivé na malé změny v datech