- •Rodzaje badań statystycznych
- •Szeregi statystyczne
- •Szereg szczegółowy ważony
- •Szereg rozdzielczy
- •Rachunek prawdopodobieństwa
- •Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące warunki
- •Oczekiwana wartość I odchylenie standardowe zmiennej losowej
- •Wariancja I odchylenie standardowe zmiennej losowej
- •Twierdzenie Czebyszewa
- •Wybrane rozkłady zmiennej losowej skokowej
- •Rozkład jednopunktowy
- •Rozkład dwupunktowy
- •Rozkład dwumianowy
- •Średnia, wariancja I kształt rozkładu dwumianowego
- •Rozkład Poissona
- •Zmienna losowa ciągła I jej rozkłady
- •Rozkłady zmiennej losowej ciągłej
- •Rozkład chi – kwadrat
- •Rozkład t – Studenta
- •Rozkład f – Snedecora
- •Estymacja punktowa I przedziałowa
- •Pobieranie próby losowej
- •Trzy główne aspekty centralnego twierdzenia granicznego
- •Estymatory I ich własności
- •Estymacja przedziałowa parametrów
- •Weryfikacja hipotez statystycznych
- •Hipotezy alternatywne mogą być sformułowane względem hipotezy zerowej
- •Weryfikacja hipotez statystycznych Podstawowe pojęcia
- •Test dla dwóch średnich
- •Test dla wariancji
- •Test dla dwóch wariancji
- •Test dla wskaźnika struktury
- •Test dla dwóch wskaźników struktury
- •Parametryczne testy istotności – Przykłady
- •Testy nieparametryczne
- •Test zgodności - Kołmogorowa
- •Analiza korelacji I regresji .
- •Wyniki obserwacji pogrupowano I zamieszczono w poniższej tablicy
Estymacja przedziałowa parametrów
Estymacja przedziałowa określonego parametru z populacji generalnej polega na konstrukcji pewnego przedziału liczbowego ( na podstawie wyników z próby losowej pobieranej ze zbiorowości generalnej ) , o którym można powiedzieć ,że z przyjętym z góry prawdopodobieństwem pokryje wartość estymowanego parametru. Przedział taki nazywamy przedziałem ufności Neymana , natomiast prawdopodobieństwo , że przedział ten –będący zmienną losową – pokryje nieznany parametr, nazywamy współczynnikiem ufności i oznaczamy symbolem 1 - . Poziomy współczynników ufności najczęściej przyjmowane są jako : 0,90;0,95 ;0,99.
Przedziałem ufności nazywamy przedział liczbowy, o którym przypuszczamy , że mieści się w nim nieznany parametr populacji . Z przedziałem tym związana jest miara ufności ( pewności ) , że ten przedział naprawdę zawiera interesujący nas parametr , zwana poziomem ufności
Na sposób konstrukcji przedziału ufności ma wpływ liczebność próby losowej . W zależności od rodzaju szacowanego parametru i liczebności próby można wyróżnić kilka przedziałów ufności, których sposób konstruowania zostanie przedstawiony na modelowych przykładach .
Model I. Populacja generalna ma rozkład normalny . Wartość średnia jest nieznana , odchylenie standardowe w populacji jest znane. Z populacji tej pobrano próbę o liczebności n elementów , wylosowanych niezależnie . Wówczas przedział ufności dla średniej populacji otrzymuje się ze wzoru :
gdzie :
- średnia arytmetyczna obliczona z próby
poziom zmiennej standaryzowanej odczytany z tablic rozkładu normalnego N(0,1) przy przyjętym z góry współczynniku ufności
- nadzieja matematyczna w populacji generalnej
- odchylenie standardowe w populacji generalnej
- liczebność próby
Przykład 1. Wybraną w sposób losowy 625 – osobową grupę sportowców zbadano pod względem czasu poświęconego na trening w miesiącu otrzymując : i Wiadomo przy tym ,że czas poświęcony na trening posiada rozkład normalny . Oszacować metodą przedziałową średni miesięczny czas treningu dla ogółu sportowców przyjmując współczynnik ufności 0,95.Dla przyjętego współczynnika ufności 1-=0,95 mamy . Przedział ufności jest następujący :
Ostatecznie otrzymujemy :
Otrzymany wynik interpretujemy następująco : przedział liczbowy od 69,216 godzin do 70,784 godzin jest jednym z tych wszystkich możliwych do otrzymania przedziałów, które z prawdopodobieństwem 0,95 pokrywają szacowany średni czas poświęcony miesięcznie na trening przez ogół sportowców .Oznacza to , że gdybyśmy wielokrotnie powtarzali powyższe postępowanie , to średnio biorąc w 95 przypadkach na 100 otrzymywalibyśmy przedziały dobre ( tzn. pokrywające średni czas poświęcony miesięcznie na trening przez ogół sportowców ) zaś w pozostałych przypadkach – złe .
Model II. Populacja generalna ma rozkład . Nieznana jest zarówno wartość średnia , jak i odchylenie standardowe w populacji . Z populacji tej wylosowano niezależnie małą próbę o liczebności n elementów. Przedział ufności dla średniej populacji otrzymuje się wówczas według wzoru :
lub według wzoru równoważnego
gdzie oznacza średnią arytmetyczną obliczoną z próby , s i są odchyleniami standardowymi z próby obliczonymi według wzorów :
Wartość oznacza wartość zmiennej t – Studenta odczytaną z tablicy tego rozkładu dla n-1 stopni swobody w taki sposób , by dla danego z góry prawdopodobieństwa 1 - była spełniona relacja .
Model III. Populacja generalna ma rozkład bądź dowolny inny rozkład o średniej i skończonej wariancji ( nieznanej ). Z populacji tej pobrano do próby n niezależnych obserwacji , przy czym liczebność próby jest dużą ( co najmniej kilka dziesiątków ) . Wtedy przedział ufności dla średniej populacji wyznaczamy ze wzoru jak w modelu I , z tą tylko różnicą , że zamiast we wzorze tym używamy odchyleń standardowych lub obliczonych z próby. Ze względu na dużą próbę wyniki jej grupuje się w szereg rozdzielczy o r klasach i wtedy wygodnie jest obliczać oraz s według wzorów:
gdzie oznacza środek poszczególnego przedziału klasowego, a jego liczebność. Gdy liczba przedziałów klasowych jest mała , tzn. gdy długość każdego przedziału klasowego jest duża , obliczając z powyższego wzoru wartość należy stosować , tzw. poprawkę grupowania , tj. odjąć od liczbę , a dopiero potem wyciągnąć pierwiastek.
Uwaga : Wzory na przedziały ufności dla średniej w modelu I i II są wyznaczone w oparciu o dokładny rozkład statystyki , natomiast w modelu III w oparciu o jej rozkład graniczny ( z dużej próby ). Ponadto , podczas gdy przedziały ufności otrzymane w oparciu o rozkład normalny mają przy ustalonym n stałą długość , to przedziały ufności otrzymane w oparciu o rozkład Studenta mają w różnych próbach , oprócz końców również zmienną długość.
Współczynnik ufności 1- przyjmuje się subiektywnie, jako dowolnie duże, bliskie 1 , prawdopodobieństwo. Jest ono miarą zaufania do prawidłowego szacunku . Ponieważ duży współczynnik ufności daje szerszy przedział, nie należy więc bez potrzeby przyjmować tego współczynnika zbyt wysokiego. Zwykle przyjmuje się współczynniki ufności 1- wynoszące 0,90 ; 0,95 ( najczęściej ), wreszcie 0,99 lub 0,999 w badaniach gdzie ryzyko pomyłki jest małe.
Przykład 2 . Wytrzymałość pewnego materiału budowlanego jest zmienną losową o rozkładzie normalnym . W celu oszacowania nieznanej średniej wytrzymałości tego materiału dokonano pomiarów wytrzymałości na n=5 wylosowanych niezależnie sztukach tego materiału . Wyniki pomiarów były następujące ( w kg/cm2 ) : 20,4 ; 19,6 ; 22,1 ; 20,8 ; 21,1. Przyjmując współczynnik ufności 1- = 0,99 należy zbudować przedział ufności dla średniej wytrzymałości tego materiału.
Rozwiązanie :
Z treści zadania wynika , że ze względu na nieznajomość odchylenia standardowego oraz małą próbę mamy do czynienia z przedziałem ufności zbudowanym o rozkład t Studenta , czyli :
Należy najpierw obliczyć z próby wartości oraz .
Obliczenia pomocnicze znajdują się w poniższej tablicy
Wyniki pomiaru wytrzymałości |
|
|
20,4 |
0,4 |
0,16 |
19,6 |
1,2 |
0,44 |
22,1 |
1,3 |
1,69 |
20,8 |
0 |
0 |
21,1 |
0,3 |
0,09 |
104,0 |
|
3,38 |
Otrzymujemy :
kg / cm2 , kg / cm2
Następnie z tablic rozkładu Studenta dla 1-=0,99 ( czyli dla =0,01 ) oraz dla n-1 =4 stopni swobody odczytujemy wartość . Podstawiając do wzoru na przedział ufności otrzymujemy :
czyli
Możemy powiedzieć ,że przedział liczbowy o końcach 18,9 i 22,7 kg/cm2 z ufnością 0,99 pokrywa nieznaną średnią wytrzymałość tego materiału.
Przykład 3 . Załóżmy , że chcemy oszacować średni staż pracy pracowników zatrudnionych w pewnej firmie przy produkcji wyrobów . Za pomocą schematu losowania nieograniczonego niezależnego , wylosowano z populacji tych pracowników próbę liczącą n=100 osób i otrzymano następujące wyniki badania tego stażu pracy w latach ( wyniki pogrupowano w szereg rozdzielczy ):
Staż pracy w latach xj |
Liczba pracowników nj |
0-2 |
4 |
2-4 |
10 |
4-6 |
55 |
6-8 |
25 |
8-10 |
6 |
Przyjmując współczynnik ufności 1- =0,90 , zbudować przedział ufności dla średniego stażu pracy badanej populacji pracowników .
Rozwiązanie Z treści zadania wynika , że ze względu na dużą próbę mamy do czynienia z modelem III. Przedział ufności dla średniej populacji należy zbudować w oparciu o rozkład normalny , według wzoru :
przyjmując zamiast wartość jego zgodnego estymatora s z próby . Obliczenia do wyznaczenia i znajdują się w poniższej tablicy :
|
|
|
|
|
|
0-2 |
4 |
1 |
4 |
19,36 |
77,44 |
2-4 |
10 |
3 |
30 |
5,76 |
57,60 |
4-6 |
55 |
5 |
275 |
0,16 |
8,80 |
6-8 |
25 |
7 |
175 |
2,56 |
64,00 |
8-10 |
6 |
9 |
54 |
12,96 |
77,76 |
|
100 |
|
538 |
|
285,60 |
Wobec tego otrzymujemy :
,
Ze względu na małą liczbę przedziałów ( h=2 lata ) należy zastosować poprawkę na grupowanie , tzn. od odjąć . Zatem . Następnie z tablicy rozkładu normalnego N(0,1) odczytujemy wartość Dla 1- =0,90 ( tzn. dla =0,1 ) odczytujemy ,że . Otrzymujemy następujący przedział ufności dla średniego stażu pracy : czyli . Zatem przedział liczbowy o końcach 5,1 i 5,7 obejmuje z ufnością 0,90 prawdziwą średnią stażu pracy w badanej populacji pracowników w badanej firmie.
Przedział ufności dla wskaźnika struktury
Podstawowym parametrem populacji , szacowanym w przypadku badań statystycznych ze względu na cechę niemierzalną ( jakościową ) jest frakcja , prawdopodobieństwo ( lub po przemnożeniu przez 100 – procent ) elementów wyróżnionych w populacji , zwana też wskaźnikiem struktury w populacji .
Zagadnienie sprowadza się do budowy przedziału liczbowego , który z określonym , z góry zadanym prawdopodobieństwem ( współczynnikiem ufności ), będzie zawierał nieznaną wartość odsetka ( wskaźnika struktury, częstości względnej lub procentu ) zbiorowości generalnej .
Ważnym warunkiem jest duża próba , n>100 , a nawet n>120. W zastosowaniach statystyki warunek ten jest znacznie łagodniejszy n>30. Jednak im większa próba tym lepsze wyniki.
Gdy n jest małe ( n<30), wówczas korzysta się z dokładnego rozkładu estymatora , jakim jest rozkład dwumianowy ze średnią i odchyleniem standardowym .
Jeżeli n jest duże ( n>100 ) , a jest małym ułamkiem , to można przyjąć , że estymator ma rozkład asymptotycznie normalny o parametrach a statystyka ma asymptotyczny rozkład normalny zero – jedynkowy N(0,1).
Przedział ufności dla parametru p wyraża się wzorem :
Przykład 4. Pewna firma reklamowa pragnie sprawdzić wyniki kampanii reklamowej towaru A. W tym celu przeprowadziła ankietę wśród 400 osób kupujących ten towar . Okazało się ,że 150 osób do kupna towaru nakłoniła reklama. Przyjmując poziom ufności 1- = 0,95 , ocenić metodą przedziałową odsetek osób , które zaczęły kupować towar A w wyniku przeprowadzonej kampanii reklamowej .
Rozwiązanie
Zakładając , że losowanie osób do próby było niezależne, możemy przyjąć , że rozkład osób kupujących towar A na skutek przeprowadzonej kampanii reklamowej wśród 400 wybranych do badania jest dwumianowy o nieznanym parametrze p. Próba jest duża ( n>30 ) , a zatem przedział ufności możemy wyznaczyć na podstawie powyższego wzoru:
Ostatecznie przedział ten ma postać :
Można stwierdzić ,że przedział [ 32, 8 % , 42,2 % ] z prawdopodobieństwem 1-=0,95 obejmuje procent osób kupujących towar A w wyniku przeprowadzonej kampanii reklamowej.
Przedział ufności dla wariancji i odchylenia standardowego
Przedział ufności dla wariancji w populacji generalnej można wyznaczyć , gdy cecha X charakteryzująca zbiorowość ma rozkład , przy czym parametry są nieznane. Na podstawie próby losowej pochodzącej z tej populacji budujemy przedział ufności dla nieznanej wariancji , przyjmując współczynnik ufności 1- .Estymatorem parametru jest wariancja z próby określona wzorem :
.
Przedział ufności dla może być zbudowany na podstawie rozkładu statystyki , która ma rozkład chi – kwadrat o v=n-1 stopniach swobody. Dla przyjętego współczynnika ufności 1- można znaleźć dwie wartości i , które można zapisać jako :
oraz
Przedział ufności dla wariancji określony jest wzorem :
Przedział ufności dla odchylenia standardowego można wyrazić wzorem :
Przykład 4 .Wylosowano 10 banków , które mają swoje centrale lub odziały na Podkarpaciu Oprocentowanie rocznych lokat złotowych w tych bankach w styczniu 2001 roku wynosiło : 10,9 ; 10,75 ; 11,25 ; 12,30 ; 11,25 ; 9,0 ; 11,3 ; 10,75; 12,25 ;11,2.
Zakładając , że oprocentowanie rocznych lokat ma rozkład normalny, oszacować przedziałowo zróżnicowanie oprocentowania tych lokat we wszystkich bankach działających na Podkarpaciu. Przyjmując poziom ufności 1-=0,96 , należy zbudować przedział ufności dla wariancji przy znajomości parametrów wyznaczonych z małej próby ( n=10 ). Wykorzystanie zostanie wzór na wariancję o następującej postaci :
Wyznaczymy wariancję , a następnie z tablic rozkładu odczytujemy dla n-1=9 stopni swobody oraz dla i wartości i . Tablica pomocnicza do wyznaczenia
-
10,9
-0,195
0,038025
10,75
-0,345
0,119025
11,25
0,155
0,024025
12,30
1,205
1,452025
11,25
0,155
0,024025
9,0
-2,095
4,389025
11,3
0,205
0,042025
10,75
-0,345
0,119025
12,25
1,155
1,334025
11,2
0,105
0,011025
7,55222
Przedział ufności ma postać następującą :
Przedział liczbowy ( 0,384 ; 2,982 ) obejmuje z prawdopodobieństwem 1- =0,96 nieznaną wariancję oprocentowania rocznych lokat złotowych wszystkich banków działających na Podkarpaciu.