
- •Rodzaje badań statystycznych
- •Szeregi statystyczne
- •Szereg szczegółowy ważony
- •Szereg rozdzielczy
- •Rachunek prawdopodobieństwa
- •Rozkład prawdopodobieństwa skokowej zmiennej losowej X spełnia następujące warunki
- •Oczekiwana wartość I odchylenie standardowe zmiennej losowej
- •Wariancja I odchylenie standardowe zmiennej losowej
- •Twierdzenie Czebyszewa
- •Wybrane rozkłady zmiennej losowej skokowej
- •Rozkład jednopunktowy
- •Rozkład dwupunktowy
- •Rozkład dwumianowy
- •Średnia, wariancja I kształt rozkładu dwumianowego
- •Rozkład Poissona
- •Zmienna losowa ciągła I jej rozkłady
- •Rozkłady zmiennej losowej ciągłej
- •Rozkład chi – kwadrat
- •Rozkład t – Studenta
- •Rozkład f – Snedecora
- •Estymacja punktowa I przedziałowa
- •Pobieranie próby losowej
- •Trzy główne aspekty centralnego twierdzenia granicznego
- •Estymatory I ich własności
- •Estymacja przedziałowa parametrów
- •Weryfikacja hipotez statystycznych
- •Hipotezy alternatywne mogą być sformułowane względem hipotezy zerowej
- •Weryfikacja hipotez statystycznych Podstawowe pojęcia
- •Test dla dwóch średnich
- •Test dla wariancji
- •Test dla dwóch wariancji
- •Test dla wskaźnika struktury
- •Test dla dwóch wskaźników struktury
- •Parametryczne testy istotności – Przykłady
- •Testy nieparametryczne
- •Test zgodności - Kołmogorowa
- •Analiza korelacji I regresji .
- •Wyniki obserwacji pogrupowano I zamieszczono w poniższej tablicy
Estymacja przedziałowa parametrów
Estymacja przedziałowa określonego parametru z populacji generalnej polega na konstrukcji pewnego przedziału liczbowego ( na podstawie wyników z próby losowej pobieranej ze zbiorowości generalnej ) , o którym można powiedzieć ,że z przyjętym z góry prawdopodobieństwem pokryje wartość estymowanego parametru. Przedział taki nazywamy przedziałem ufności Neymana , natomiast prawdopodobieństwo , że przedział ten –będący zmienną losową – pokryje nieznany parametr, nazywamy współczynnikiem ufności i oznaczamy symbolem 1 - . Poziomy współczynników ufności najczęściej przyjmowane są jako : 0,90;0,95 ;0,99.
Przedziałem ufności nazywamy przedział liczbowy, o którym przypuszczamy , że mieści się w nim nieznany parametr populacji . Z przedziałem tym związana jest miara ufności ( pewności ) , że ten przedział naprawdę zawiera interesujący nas parametr , zwana poziomem ufności
Na sposób konstrukcji przedziału ufności ma wpływ liczebność próby losowej . W zależności od rodzaju szacowanego parametru i liczebności próby można wyróżnić kilka przedziałów ufności, których sposób konstruowania zostanie przedstawiony na modelowych przykładach .
Model
I. Populacja generalna ma rozkład normalny
.
Wartość średnia
jest nieznana , odchylenie standardowe w populacji jest znane. Z
populacji tej pobrano próbę o liczebności n elementów ,
wylosowanych niezależnie . Wówczas przedział ufności dla średniej
populacji otrzymuje się ze wzoru :
gdzie :
- średnia arytmetyczna obliczona z próby
poziom
zmiennej standaryzowanej odczytany z tablic rozkładu normalnego
N(0,1) przy przyjętym z góry współczynniku ufności
- nadzieja matematyczna w populacji generalnej
- odchylenie standardowe w populacji generalnej
-
liczebność próby
Przykład
1. Wybraną w sposób losowy 625 – osobową grupę sportowców
zbadano pod względem czasu poświęconego na trening w miesiącu
otrzymując :
i
Wiadomo
przy tym ,że czas poświęcony na trening posiada rozkład normalny
. Oszacować metodą przedziałową średni miesięczny czas
treningu dla ogółu sportowców przyjmując współczynnik ufności
0,95.Dla przyjętego współczynnika ufności 1-=0,95
mamy
.
Przedział ufności jest następujący :
Ostatecznie otrzymujemy :
Otrzymany wynik interpretujemy następująco : przedział liczbowy od 69,216 godzin do 70,784 godzin jest jednym z tych wszystkich możliwych do otrzymania przedziałów, które z prawdopodobieństwem 0,95 pokrywają szacowany średni czas poświęcony miesięcznie na trening przez ogół sportowców .Oznacza to , że gdybyśmy wielokrotnie powtarzali powyższe postępowanie , to średnio biorąc w 95 przypadkach na 100 otrzymywalibyśmy przedziały dobre ( tzn. pokrywające średni czas poświęcony miesięcznie na trening przez ogół sportowców ) zaś w pozostałych przypadkach – złe .
Model II. Populacja generalna ma rozkład . Nieznana jest zarówno wartość średnia , jak i odchylenie standardowe w populacji . Z populacji tej wylosowano niezależnie małą próbę o liczebności n elementów. Przedział ufności dla średniej populacji otrzymuje się wówczas według wzoru :
lub według wzoru równoważnego
gdzie
oznacza średnią arytmetyczną obliczoną z próby , s i
są
odchyleniami standardowymi z próby obliczonymi według wzorów :
Wartość
oznacza wartość zmiennej t – Studenta odczytaną z tablicy tego
rozkładu dla n-1 stopni swobody w taki sposób , by dla danego z
góry prawdopodobieństwa 1 -
była spełniona relacja
.
Model
III. Populacja generalna ma rozkład
bądź
dowolny inny rozkład o średniej
i
skończonej wariancji
(
nieznanej ). Z populacji tej pobrano do próby n niezależnych
obserwacji , przy czym liczebność próby jest dużą ( co najmniej
kilka dziesiątków ) . Wtedy przedział ufności dla średniej
populacji
wyznaczamy ze wzoru jak w modelu I , z tą tylko różnicą , że
zamiast
we wzorze tym używamy odchyleń standardowych
lub
obliczonych
z próby. Ze względu na dużą próbę wyniki jej grupuje się w
szereg rozdzielczy o r klasach i wtedy wygodnie jest obliczać
oraz s według wzorów:
gdzie
oznacza
środek poszczególnego przedziału klasowego, a
jego
liczebność. Gdy liczba
przedziałów
klasowych jest mała , tzn. gdy długość
każdego
przedziału klasowego jest duża , obliczając z powyższego wzoru
wartość
należy
stosować , tzw.
poprawkę grupowania
, tj. odjąć od
liczbę
,
a dopiero potem wyciągnąć pierwiastek.
Uwaga : Wzory na przedziały ufności dla średniej w modelu I i II są wyznaczone w oparciu o dokładny rozkład statystyki , natomiast w modelu III w oparciu o jej rozkład graniczny ( z dużej próby ). Ponadto , podczas gdy przedziały ufności otrzymane w oparciu o rozkład normalny mają przy ustalonym n stałą długość , to przedziały ufności otrzymane w oparciu o rozkład Studenta mają w różnych próbach , oprócz końców również zmienną długość.
Współczynnik ufności 1- przyjmuje się subiektywnie, jako dowolnie duże, bliskie 1 , prawdopodobieństwo. Jest ono miarą zaufania do prawidłowego szacunku . Ponieważ duży współczynnik ufności daje szerszy przedział, nie należy więc bez potrzeby przyjmować tego współczynnika zbyt wysokiego. Zwykle przyjmuje się współczynniki ufności 1- wynoszące 0,90 ; 0,95 ( najczęściej ), wreszcie 0,99 lub 0,999 w badaniach gdzie ryzyko pomyłki jest małe.
Przykład 2 . Wytrzymałość pewnego materiału budowlanego jest zmienną losową o rozkładzie normalnym . W celu oszacowania nieznanej średniej wytrzymałości tego materiału dokonano pomiarów wytrzymałości na n=5 wylosowanych niezależnie sztukach tego materiału . Wyniki pomiarów były następujące ( w kg/cm2 ) : 20,4 ; 19,6 ; 22,1 ; 20,8 ; 21,1. Przyjmując współczynnik ufności 1- = 0,99 należy zbudować przedział ufności dla średniej wytrzymałości tego materiału.
Rozwiązanie :
Z treści zadania wynika , że ze względu na nieznajomość odchylenia standardowego oraz małą próbę mamy do czynienia z przedziałem ufności zbudowanym o rozkład t Studenta , czyli :
Należy najpierw obliczyć z próby wartości oraz .
Obliczenia pomocnicze znajdują się w poniższej tablicy
Wyniki pomiaru wytrzymałości
|
|
|
20,4 |
0,4 |
0,16 |
19,6 |
1,2 |
0,44 |
22,1 |
1,3 |
1,69 |
20,8 |
0 |
0 |
21,1 |
0,3 |
0,09 |
104,0 |
|
3,38 |
Otrzymujemy :
kg
/ cm2
,
kg / cm2
Następnie
z tablic rozkładu Studenta dla 1-=0,99
( czyli dla =0,01
) oraz dla n-1 =4 stopni swobody odczytujemy wartość
.
Podstawiając do wzoru na przedział ufności otrzymujemy :
czyli
Możemy powiedzieć ,że przedział liczbowy o końcach 18,9 i 22,7 kg/cm2 z ufnością 0,99 pokrywa nieznaną średnią wytrzymałość tego materiału.
Przykład 3 . Załóżmy , że chcemy oszacować średni staż pracy pracowników zatrudnionych w pewnej firmie przy produkcji wyrobów . Za pomocą schematu losowania nieograniczonego niezależnego , wylosowano z populacji tych pracowników próbę liczącą n=100 osób i otrzymano następujące wyniki badania tego stażu pracy w latach ( wyniki pogrupowano w szereg rozdzielczy ):
Staż pracy w latach xj |
Liczba pracowników nj |
0-2 |
4 |
2-4 |
10 |
4-6 |
55 |
6-8 |
25 |
8-10 |
6 |
Przyjmując współczynnik ufności 1- =0,90 , zbudować przedział ufności dla średniego stażu pracy badanej populacji pracowników .
Rozwiązanie Z treści zadania wynika , że ze względu na dużą próbę mamy do czynienia z modelem III. Przedział ufności dla średniej populacji należy zbudować w oparciu o rozkład normalny , według wzoru :
przyjmując
zamiast
wartość jego zgodnego estymatora s z próby . Obliczenia do
wyznaczenia
i
znajdują się w poniższej tablicy :
|
|
|
|
|
|
0-2 |
4 |
1 |
4 |
19,36 |
77,44 |
2-4 |
10 |
3 |
30 |
5,76 |
57,60 |
4-6 |
55 |
5 |
275 |
0,16 |
8,80 |
6-8 |
25 |
7 |
175 |
2,56 |
64,00 |
8-10 |
6 |
9 |
54 |
12,96 |
77,76 |
|
100 |
|
538 |
|
285,60 |
Wobec tego otrzymujemy :
,
Ze
względu na małą liczbę przedziałów ( h=2 lata ) należy
zastosować poprawkę na grupowanie , tzn. od
odjąć
.
Zatem
. Następnie z tablicy rozkładu normalnego N(0,1) odczytujemy
wartość
Dla 1-
=0,90 ( tzn. dla =0,1
) odczytujemy ,że
.
Otrzymujemy następujący przedział ufności dla średniego stażu
pracy :
czyli
.
Zatem przedział liczbowy o końcach 5,1 i 5,7 obejmuje z ufnością
0,90 prawdziwą średnią
stażu
pracy w badanej populacji pracowników w badanej firmie.
Przedział ufności dla wskaźnika struktury
Podstawowym parametrem populacji , szacowanym w przypadku badań statystycznych ze względu na cechę niemierzalną ( jakościową ) jest frakcja , prawdopodobieństwo ( lub po przemnożeniu przez 100 – procent ) elementów wyróżnionych w populacji , zwana też wskaźnikiem struktury w populacji .
Zagadnienie sprowadza się do budowy przedziału liczbowego , który z określonym , z góry zadanym prawdopodobieństwem ( współczynnikiem ufności ), będzie zawierał nieznaną wartość odsetka ( wskaźnika struktury, częstości względnej lub procentu ) zbiorowości generalnej .
Ważnym warunkiem jest duża próba , n>100 , a nawet n>120. W zastosowaniach statystyki warunek ten jest znacznie łagodniejszy n>30. Jednak im większa próba tym lepsze wyniki.
Gdy
n jest małe ( n<30), wówczas korzysta się z dokładnego
rozkładu estymatora
,
jakim jest rozkład dwumianowy ze średnią
i odchyleniem standardowym
.
Jeżeli
n jest duże ( n>100 ) , a
jest
małym ułamkiem
,
to można przyjąć , że estymator
ma rozkład asymptotycznie normalny o parametrach
a statystyka
ma asymptotyczny rozkład normalny zero – jedynkowy N(0,1).
Przedział ufności dla parametru p wyraża się wzorem :
Przykład 4. Pewna firma reklamowa pragnie sprawdzić wyniki kampanii reklamowej towaru A. W tym celu przeprowadziła ankietę wśród 400 osób kupujących ten towar . Okazało się ,że 150 osób do kupna towaru nakłoniła reklama. Przyjmując poziom ufności 1- = 0,95 , ocenić metodą przedziałową odsetek osób , które zaczęły kupować towar A w wyniku przeprowadzonej kampanii reklamowej .
Rozwiązanie
Zakładając , że losowanie osób do próby było niezależne, możemy przyjąć , że rozkład osób kupujących towar A na skutek przeprowadzonej kampanii reklamowej wśród 400 wybranych do badania jest dwumianowy o nieznanym parametrze p. Próba jest duża ( n>30 ) , a zatem przedział ufności możemy wyznaczyć na podstawie powyższego wzoru:
Ostatecznie przedział ten ma postać :
Można stwierdzić ,że przedział [ 32, 8 % , 42,2 % ] z prawdopodobieństwem 1-=0,95 obejmuje procent osób kupujących towar A w wyniku przeprowadzonej kampanii reklamowej.
Przedział ufności dla wariancji i odchylenia standardowego
Przedział
ufności dla wariancji
w
populacji generalnej można wyznaczyć , gdy cecha X charakteryzująca
zbiorowość ma rozkład
,
przy czym parametry
są nieznane. Na podstawie próby losowej pochodzącej z tej
populacji budujemy przedział ufności dla nieznanej wariancji
,
przyjmując współczynnik ufności 1-
.Estymatorem parametru
jest
wariancja z próby
określona wzorem :
.
Przedział
ufności dla
może
być zbudowany na podstawie rozkładu statystyki
,
która ma rozkład chi – kwadrat o v=n-1 stopniach swobody. Dla
przyjętego współczynnika ufności 1-
można znaleźć dwie wartości
i
,
które można zapisać jako :
oraz
Przedział ufności dla wariancji określony jest wzorem :
Przedział ufności dla odchylenia standardowego można wyrazić wzorem :
Przykład 4 .Wylosowano 10 banków , które mają swoje centrale lub odziały na Podkarpaciu Oprocentowanie rocznych lokat złotowych w tych bankach w styczniu 2001 roku wynosiło : 10,9 ; 10,75 ; 11,25 ; 12,30 ; 11,25 ; 9,0 ; 11,3 ; 10,75; 12,25 ;11,2.
Zakładając , że oprocentowanie rocznych lokat ma rozkład normalny, oszacować przedziałowo zróżnicowanie oprocentowania tych lokat we wszystkich bankach działających na Podkarpaciu. Przyjmując poziom ufności 1-=0,96 , należy zbudować przedział ufności dla wariancji przy znajomości parametrów wyznaczonych z małej próby ( n=10 ). Wykorzystanie zostanie wzór na wariancję o następującej postaci :
Wyznaczymy
wariancję
,
a następnie z tablic rozkładu
odczytujemy
dla n-1=9 stopni swobody oraz dla
i
wartości
i
.
Tablica pomocnicza do wyznaczenia
-
10,9
-0,195
0,038025
10,75
-0,345
0,119025
11,25
0,155
0,024025
12,30
1,205
1,452025
11,25
0,155
0,024025
9,0
-2,095
4,389025
11,3
0,205
0,042025
10,75
-0,345
0,119025
12,25
1,155
1,334025
11,2
0,105
0,011025
7,55222
Przedział ufności ma postać następującą :
Przedział liczbowy ( 0,384 ; 2,982 ) obejmuje z prawdopodobieństwem 1- =0,96 nieznaną wariancję oprocentowania rocznych lokat złotowych wszystkich banków działających na Podkarpaciu.