
- •3.3. Выборочные начальные и центральные моменты. Асимметрия. Эксцесс
- •3.4. Упрощенный способ вычисления выборочных характеристик распределения
- •3.5. Графическое изображение вариационных рядов
- •3.6. Статистические оценки параметров распределения
- •3.7. Интервальное оценивание
- •3.8. Оценки истинного значения измеряемой величины и точности измерений
- •3.9. Статистическая проверка гипотез
- •3.10. Сравнение двух дисперсий нормальных генеральных совокупностей
- •3.11. Сравнение двух средних нормальных генеральных совокупностей
Если исходная информация представлена в виде интервального ряда распределения, то средняя арифметическая взвешенная определяется по формуле:
где Xc - центральное (серединное) значение признака в интервале.
Например: По имеющимся данным определить средний стаж рабочего бригады:
Стаж работы, лет |
0 - 2 |
2 - 4 |
4 - 6 |
6 - 8 |
8 - 10 |
Численность рабочих, чел. (fi) |
3 |
4 |
7 |
10 |
6 |
Для расчёта средней арифметической взвешенной интервального ряда распределения определим центральное (серединное) значение признака в каждом интервале. Среднее значение интервала находится как полусумма нижней границы данного интервала и нижней границы следующего интервала:
Стаж работы, лет |
0 - 2 |
2 - 4 |
4 - 6 |
6 - 8 |
8 - 10 |
(Xc ) |
|
|
|
|
|
Оформим исходные данные а следующем виде:
Стаж работы, лет |
0 - 2 |
2 - 4 |
4 - 6 |
6 - 8 |
8 - 10 |
(Xc ) |
1 |
3 |
5 |
7 |
9 |
Численность рабочих, чел. (fi) |
3 |
4 |
7 |
10 |
6 |
Средний стаж рабочего бригады составляет
Расчет моды и медианы в интервальном ряду
В
отличие от дискретных вариационных
рядов определение моды и медианы по
интервальным рядам требует проведения
определенных расчетов на основе следующих
формул:
,
(5.6)
гдеx0
– нижняя граница модального интервала
(модальным называется интервал, имеющий
наибольшую частоту);
i
– величина модального интервала;
fMo
– частота модального интервала;
fMo-1
– частота интервала, предшествующего
модальному;
fMo+1
– частота интервала, следующего за
модальным.
(5.7)
гдеx0
– нижняя граница медианного интервала
(медианным называется первый интервал,
накопленная частота которого превышает
половину общей суммы частот);
i
– величина медианного интервала;
SMe-1
– накопленная интервала, предшествующего
медианному;
fMe
– частота медианного интервала.
Проиллюстрируем применение этих
формул, используя данные табл. 5.10.
Интервал с границами 60 – 80 в данном
распределении будет модальным, т.к. он
имеет наибольшую частоту. Использую
формулу (5.6), определим моду:
Для
установления медианного интервала
необходимо определять накопленную
частоту каждого последующего интервала
до тех пор, пока она не превысит половины
суммы накопленных частот (в нашем случае
50 %) (табл. 5.11).
Установили, что медианным
является интервал с границами 100 – 120
тыс. руб. Определим теперь медиану:
Таблица
5.10 - Распределение населения РФ по уровню
среднедушевых номинальных денежных
доходов в марте 1994г.
Группы по уровню среднедушевого месячного дохода, тыс. руб. |
Удельный вес населения, % |
До 20 |
1,4 |
20 – 40 |
7,5 |
40 – 60 |
11,9 |
60 – 80 |
12,7 |
80 – 100 |
11,7 |
100 – 120 |
10,0 |
120 – 140 |
8,3 |
140 –160 |
6,8 |
160 – 180 |
5,5 |
180 – 200 |
4,4 |
200 – 220 |
3,5 |
220 – 240 |
2,9 |
240 – 260 |
2,3 |
260 – 280 |
1,9 |
280 – 300 |
1,5 |
Свыше 300 |
7,7 |
Итого |
100,0 |
Таблица 5.11 - Определение медианного интервала
Интервал, тыс. руб. |
Накопленная частота, % |
До 20 |
1,4 |
20 – 40 |
8,9 |
40 – 60 |
20,8 |
60 – 80 |
33,5 |
80 – 100 |
45,2 |
100 – 120 |
55,2 |
Таким образом, в качестве обобщенной характеристики значений определенного признака у единиц ранжированной совокупности могут быть использованы средняя арифметическая, мода и медиана. Основной характеристикой центра распределения является средняя арифметическая, для которой характерно то, что все отклонения от нее (положительные и отрицательные) в сумме равняются нулю. Для медианы характерно, что сумма отклонений от нее по модулю является минимальной, а мода представляет собой значение признака, которое наиболее часто встречается. Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию. В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средней арифметической, тем более асимметричен ряд. Для умеренно асимметричных рядов разность между модой и средней арифметической примерно в три раза превышает разность между медианой и средней, т.е.: |Mo –`x| = 3 |Me –`x|.
Определение моды и медианы графическим методом
Моду
и медиану в интервальном ряду можно
определить графически.
Мода определяется по гистограмме
распределения. Для этого выбирается
самый высокий прямоугольник, который
является в данном случае модальным.
Затем правую вершину модального
прямоугольника соединяем с правым
верхним углом предыдущего прямоугольника.
А левую вершину модального прямоугольника
– с левым верхним углом последующего
прямоугольника. Из точки их пересечения
опускаем перпендикуляр на ось абсцисс.
Абсцисса точки пересечения этих прямых
и будет модой распределения (рис. 5.3).
Рис.
5.3. Графическое определение моды по
гистограмме.
Рис.
5.4. Графическое определение медианы по
кумуляте
Для определения медианы из
точки на шкале накопленных частот
(частостей), соответствующей 50 %, проводится
прямая, параллельная оси абсцисс до
пересечения с кумулятой. Затем из точки
пересечения опускается перпендикуляр
на ось абсцисс. Абсцисса точки пересечения
является медианой.
3.3. Выборочные начальные и центральные моменты. Асимметрия. Эксцесс
Приведем
краткий обзор характеристик, которые
применяются для анализа вариационного
ряда и являются аналогами соответствующих
числовых характеристик случайной
величины.
Начальным
выборочным моментом k-го
порядка называется величина, определяемая
по формуле:
,
гдехi
– наблюдаемое значение с частотой ni,
n
– число наблюдений. В частности, начальный
выборочный момент первого порядка
обозначается
и
называетсявыборочной
средней:
.Медианой
называется значение признака, приходящееся
на середину ранжированного ряда
наблюдений.
Модой
называется вариант, которому соответствует
наибольшая частота.
Вариационный
размах
R
равен разности между наибольшим и
наименьшим вариантом ряда.
Центральным
выборочным моментом k-го порядка
называется величина, определяемая по
формуле:
.
В частности, центральной выборочный
момент второго порядка обозначаетсяS2
и называется выборочной
дисперсией:
.
Средним квадратическим отклонением S
называется арифметическое значение
корня квадратного из дисперсии:
.
Коэффициентом вариации называется
отношение среднего квадратического
отклонения к средней, выраженное в
процентах:
.
Справедливы следующие формулы, выражающие
центральные выборочные моменты различных
порядков через начальные:
и
т.д.
Выборочным коэффициентом
асимметрии называется число
,
определяемое формулой
.
Выборочный коэффициент асимметрии
служит для характеристики асимметрии
полигона (см. далее) вариационного ряда.
Если полигон асимметричен, то одна из
ветвей его, начиная с вершины, имеет
более пологий «спуск», чем другая.
В случае отрицательного коэффициента
асимметрии более пологий «спуск»
полигона наблюдается слева, в противном
случае – справа. В первом случае
асимметрию называют левосторонней, а
во втором – правосторонней.
Выборочным эксцессом или коэффициентом
крутизны называется числоE˜k,
определяемое формулой
.
Выборочный эксцесс служит для сравнения
на «крутость» выборочного распределения
с нормальным распределением. Ранее
подчеркивалось, что эксцесс для случайной
величины, распределенной нормально,
равен нулю. Поэтому за стандартное
значение выборочного эксцесса принимаютE˜k = 0.
Если выборочному распределению
соответствует отрицательный эксцесс,
то соответствующий полигон имеет более
пологую вершину по сравнению с нормальной
кривой. В случае положительного эксцесса
полигон более крутой по сравнению с
нормальной кривой.
3.4. Упрощенный способ вычисления выборочных характеристик распределения
Для
вычисления выборочных характеристик
(выборочной средней, дисперсии, асимметрии
и эксцесса) целесообразно пользоваться
вспомогательной таблицей 3.5, которая
составляется так:
1)
используя данные таблицы 3.3, найдем
середину каждого интервала
и
заполним столбец 1 табл. 3.5;
2) во второй столбец записывают частотыni,
складывают все частоты и их сумму (объем
выборки n)
помещают в нижнюю клетку столбца;
3) в третий столбец записывают условные
варианты
,
причем в качестве ложного нуля С выбирают
варианту, которая имеет наибольшую
частоту или занимает среднее положение
в ряду данных, и полагают h равным разности
между любыми двумя соседними вариантами
(длина интервалаbi
– ai);
по данным примера С
= 31,4, h
= 4,5; практически же третий столбец
заполняется так: в клетке третьего
столбца, которая принадлежит строке,
содержащей наибольшую частоту, пишем
0; над нулем последовательно –1, –2, –3,
а под нулем 1, 2, 3, 4, 5. Дальнейший порядок
заполнения таблицы простой и не требует
пояснений. Последний столбец таблицы
– контрольный. Контроль выполняется
по правилу:
.
В нашем примере имеем: 1707 + 4∙101 + 6∙207 +
4∙(–13) + 90 = 3391. Следовательно, вычисления
произведены правильно.
В итоге получаем расчетную таблицу
3.5.
Таблица 3.5
Вспомогательная таблица для вычисления
выборочных характеристик
xi |
ni |
ui |
ni×ui |
niui2 |
ni×ui3 |
ni×ui4 |
ni×(ui +1)4 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
17,9 |
4 |
–3 |
–12 |
36 |
–108 |
324 |
64 |
22,4 |
11 |
–2 |
–22 |
44 |
–88 |
176 |
11 |
26,9 |
23 |
–1 |
–23 |
23 |
–23 |
23 |
0 |
31,4 |
27 |
0 |
0 |
0 |
0 |
0 |
27 |
35,9 |
13 |
1 |
13 |
13 |
13 |
13 |
208 |
40,4 |
8 |
2 |
16 |
32 |
64 |
128 |
648 |
44,9 |
2 |
3 |
6 |
18 |
54 |
162 |
512 |
49,4 |
1 |
4 |
4 |
16 |
64 |
256 |
625 |
53,9 |
1 |
5 |
5 |
25 |
125 |
625 |
1296 |
Σ |
90 |
|
–13 |
207 |
101 |
1707 |
3391 |
Выборочный условный момент k-го
порядка определяется по формуле
По данным примера
.
Вычислим искомые выборочные среднюю и
дисперсию:
Выборочное среднее квадратическое
отклонение
.
Найдем центральные эмпирические моменты
третьего и четвертого порядка:
Найдем значение коэффициента асимметрии
и эксцесса:
МедианаM˜e
– значение признака, приходящееся на
середину ранжированного ряда
наблюдений.
Для
интервального ряда медиану следует
вычислять по формуле
,
гдеM˜e
означает номер медианного интервала,
(M˜e–1)
– интервала, предшествующего
медианному.
В нашем
примере
.
МодаM˜o
для совокупности наблюдений равна тому
значению признака (табл. 3.2), которому
соответствует наибольшая частота.
Для одномодального интервального ряда
моду можно вычислить по формуле
,
гдеM˜o
означает номер модального интервала
(интервал с наибольшей частотой), (M˜o–1)
и (M˜o+1)
– номера предшествующего модальному
и следующего за ним интервалов.
В примере
.
Так как по величине
,M˜o
и M˜e
мало отличаются друг от друга, есть
основания предполагать теоретическое
распределение нормальным.
Коэффициент вариации
.
Коэффициент вариации является
относительной мерой рассеяния
признака.
Коэффициент
вариации используется и как показатель
однородности выборочных наблюдений.
Считается, что если коэффициент вариации
не превышает 10%, то выборку можно считать
однородной, т.е. полученной из одной
генеральной совокупности.
Однако к коэффициенту вариации нужно
подходить с осторожностью. Продемонстрируем
возможность ошибки на следующем примере.
Если на основании многолетних наблюдений
среднее арифметическое среднесуточных
температур 8 марта составляет в какой-либо
местности 0° С, то получим бесконечный
коэффициент вариации независимо от
разброса температур. Поэтому в данном
случае коэффициент вариации не применим
в качестве показателя рассеяния
температур, а специфику явления более
объективно оценивает стандартное
отклонениеS
.
Практически коэффициент
вариации применяется в основном для
сравнения выборок из однотипных
генеральных совокупностей.