- •Государственное образовательное учреждение высшего профессионального образования новоуральский государственный технологический институт
- •Новоуральск 2004
- •Содержание
- •Предисловие
- •Глава 1 Выборочный метод
- •1.1 Выборка
- •1.2 Основные задачи статистики
- •1.3 Основные способы отбора
- •1.4 Первичный анализ выборки
- •Глава 2 Виды представления выборочных
- •2.3 Эмпирическая плотность распределения
- •3.6 Другие способы представления данных
- •Объём реализации
- •3.6.2 Ленточные диаграммы
- •3.6.3 Столбиковые диаграммы
- •Глава 3 Числовые характеристики выборки
- •3.1 Выборочное среднее, выборочная дисперсия
- •3.1.1 Несгруппированные данные
- •3.1.4Введение «ложного нуля»
- •3.2 Коэффициенты асимметрии, эксцесса и вариации
- •3.2.1 Начальные моменты p-го порядка
- •3.2.3 Связь центральных и начальных моментов
- •3.2.4 Коэффициент асимметрии
- •Мода и медиана
- •4.2 Виды статистических оценок. Исправление дисперсии
- •5 Теоретические распределения
- •5.1 Дискретные случайные величины
- •5.1.1 Биномиальное распределение
- •5.1.2 Альтернативный признак
- •5.1.4 Геометрическое распределение
- •5.1.5 Гипергеометрическое распределение
- •5.2 Непрерывные случайные величины
- •5.2.4 Распределение Хи-квадрат
- •5.2.5 Распределение Стьюдента
- •5.3 Использование MathCad
- •6 Проверка гипотезы о виде распределения
- •6.1 Общие определения
- •6.2 Критерий согласия Пирсона
- •6.3 Критерий согласия Романовского
- •6.4 Критерий согласия Колмогорова
- •6.5 Сравнение наблюдаемой относительной частоты альтернативного признака с его гипотетической вероятностью
- •7 Доверительные интервалы
- •7.1 Понятие доверительного интервала
- •7.2 Наименьший объём выборки
- •7.3 Доверительный интервал для м(х)
- •7.4 Доверительный интервал для (х)
- •7.5 Оценка вероятности по относительной частоте
- •8 Общий план обработки статистических данных
- •8.1 Получение выборочных данных
- •Первичная обработка выборочных данных
- •Теоретическое распределение
- •9 Пример обработки статистических данных
- •10 Контрольное задание
- •Критические точки распределения
- •Критические точки распределения Стьюдента
- •12 Рекомендуемая литература
- •Подписано в печать _______________ Формат а5 Гарнитура
- •624130, Г.Новоуральск, ул. Ленина 85, нгти
1.4 Первичный анализ выборки
В результате отбора и обследования элементов выборки получаем nштукчисловых значенийх1,х2, …..,хn, которые будем считать значениями некоторой случайной величиныX. Если исследуется нечисловой, качественный признак (хорошо – плохо, красный – синий – зелёный, ребёнок – юноша – взрослый – пожилой и другие), то каждому из возможных значений ставится в соответствие определённое число. Например: хорошо – «1», плохо – «-1» либо другой набор. При этом дальнейшую обработку статистических данных можно выполнять с числовыми элементами выборки.
Существенное внимание стоит обратить на то, может ли один элемент быть обследован более одного раза − повторная выборка, либо после его первого обследования повторное обследование исключено −бесповторная выборка. В зависимости от этого различаются погрешности получаемых результатов.
Пусть в результате
отбора из генеральной совокупности
получены значения
некоторой случайной величины Х. На
основании выборочных данных требуется
определить числовые характеристики и
описать вид распределения этой случайной
величины. Представление о распределении
исследуемой случайной величиныX(без сложной обработки результатов)
может дать изображение элементов выборки
в виде точек с координатами
на числовой прямой.
Пример 3В результате измерения диаметров шести деталей получены следующие результаты: 213.1, 213.4, 214.12, 214.41, 213,71 213,90.
Результаты измерения можно представить в следующем виде:

По расположению точек становится видно, что диаметры довольно равномерно распределены от 213,1 до 214,41. Если выборка репрезентативная, то можно с большой степенью уверенности утверждать, что диаметр и следующих деталей обладает таким же свойством т.е. каждый из них лежит от 213 до 214,5 без группировки результатов около одного значения.
Недостаткитакого способа представления данных:
При большом объёме выборки nи малом разбросе значений точки могут слиться, повторение одинаковых значений на рисунке не отражается (точки накладываются друг на друга) и реальная картина может быть искажена.Например, оценки студента по всем экзаменам за несколько лет могут принимать только несколько различных значений (3, 4, 5), которые многократно повторяются. При изображении элементов такой выборки в виде точек прямой будет лишь три точки и никакой информации о количестве их повторений. По таким рисункам сложно сравнить успеваемость нескольких студентов.
В следующих главах данного пособия будут предложены более трудоемкие способы составления вида распределения случайной величины по выборочным данным и оценки погрешности приближения предложенным видом распределения.
Глава 2 Виды представления выборочных
данных
Статистическое распределение выборки
Пусть составлена выборочная совокупность х1,х2, …..,хnобъёмаn, которая называетсястатистическим рядом.
Упорядочив все элементы выборки (ранжируя их)получаетсявариационный ряд.Обычно ранжирование ведётся повозрастанию
(получая новые индексы у тех же элементов).
Среди элементов вариационного ряда некоторое значение хiможет повторяетсяni раз. В таком говорят, чтоварианта xi имеетчастотуni . Очевидно, что сумма частот всех вариант должна быть равна объему выборки т.е.
,
гдеk–число различных
вариант.Частота ni имеет информативность только при учете объема выборкиn .
Помимо частоты
niдля варианты xi
вводят её
относительную частоту (долю,
частость)
=
,
причём
.
Иногда относительную частоту домножают
на 100%, тогда
.
Мало сказать “Восемь деталей в этой партии годные”, необходимо для ясности указать общее количество деталей в данной партии или долюгодных деталей в партии. В таком случае рассмотренная выше фраза может звучать «Из девяти деталей партии восемь оказались годными», либо «Годные детали в данной партии составляют 88,89% от общего числа», «Доля брака в данной партии составляет 11,11%»
Дискретное распределениевыборки – перечисление ранжированных вариантхiи соответствующих им частотni или (и) относительных частот

|
Х |
x1 |
x2 |
…………… |
xk |
|
nx |
n1 |
n2 |
…………… |
nk |
|
wx |
w1 |
w2 |
…………… |
wk |

Интервальное распределение выборки (интервальный статистический ряд), в отличии от дискретного ряда, показывает частоту попаданий в каждый из указанных промежутков.
|
Х |
(x1; x2) |
(x2; x3) |
…………… |
(xk- ; хk+1) |
|
nx |
n1 |
n2 |
…………… |
nk |
|
wx |
w1 |
w2 |
…………… |
wk |
Интервальный ряд применяется, когда число различных вариант в дискретном статистическом распределении выборки велико и перечисление всех различных вариант трудоёмко. К нему прибегают и в случаях, когда элементы выборки являются значениями непрерывной случайной величины X, на что указывает малое отличие элементов выборки или следует из постановки задачи (возможность получить значения меду любыми двумя наблюдаемыми значениями).
Составление интервального ряда:
1) Исследователь
задаёт число промежутков к.
Оптимальноечисло промежутков
можно найти, воспользовавшись формулойСтерджесса:
,
результат округляется до большего
натурального значения;
2) Для каждого
промежутка исследователь задаёт
граничные точки
,
число которых на 1 больше числа промежутков.Шаг каждого
промежутка находится из условия
.
Наиболее часто берут промежуткиравной
длины
,
тогда шаг разбиения
.
В некоторых
случаях наименьшее
и (или) наибольшее
возможное значения могут не указываться,
быть неизвестными заранее. При этом
крайний левый или правый промежутки
считаются открытыми с одной стороны,
одну их границу принимают равной
.
Например при описании заработной
платы первый промежуток может быть взят
«менее 500 руб.» т.е.
;
Последним промежутком может быть взят
«более 10 000 руб.» т.е.
.
Для открытых промежутков с бесконечными границами берётся шаг, равный шагу соседнего промежутка;
3) Определяется
число попаданий элементов выборки в
каждый из промежутков –
частоту
иливеспромежутка с номеромi,
.
Если некоторая
варианта x=
j
с частотойnjпопала на границу двух промежутков, то
возможно два случая:
а) при достаточно большом объеме выборки (n>50) и небольшомnj<5 эту частоту учитывают только в правом из граничных промежутков;
б) в противном случае частоту njделят поровну между граничными промежутками, выделив при нечетномnjбольшую часть вправо.
В результате перечисленных действий получим сгруппированный интервальный статистический ряд (интервальное распределение выборки)
|
Х |
1 |
2 |
3 |
……... |
k |
|
(x1; x2) |
(x2; x3) |
(x3; x4) |
……... |
(xk; х k+1) | |
|
nx |
n1 |
n2 |
n3 |
……. |
nk |
k
– число промежутков, ni
– частота попаданий в i-й промежуток .
От интервального
распределения выборки можно перейти к
дискретному распределению, для этого
из каждого промежутка выбирается его
представитель
.
В дальнейшем для промежутка
с номеромiтаким
представителем будем брать середину
промежутка
.
Для удобства
обработки полученных результатов
разрешается перед нахождением частот
попаданий в промежутки немного увеличить
размахвыборки
.
Такое изменение выполняется с целью
получения более удобных границ и середин
промежутков. При этом самую левую границуx1 можно взять
несколько меньше значенияxmin
из выборки, самую правую границу
x k+1взять несколько больше значенияxmax
. Величина каждого из
изменений не должна превышать величины
.
После выбора
представителей
каждого промежутка можно заменить
интервальный ряд дискретным рядом, где
каждому значению
соответствует частота попадания
в промежуток с номером
.
Если при этом промежутки разбиения были
равной длины и представителем каждого
из них взята середина промежутка, то
получаем дискретный ряд сравноотстоящими
вариантами.
Замечание:В некоторых случаях взятие наибольшего
и наименьшего значений дискретного
ряда границами исследуемого промежутка
приводит к искажению результатов:
например для равноотстоящих, но достаточно
небольшого числаkвариант, будетk–1
промежутков. Шаг таких промежутков
будет меньше, чем расстояние между
исходными значениями. В этом случае
рекомендуется взять шаг разбиения
и в первом промежутке взять левую
границу
,
в последнем промежутке взять правую
границу
.
В результате размах выборки увеличится
на один шаг разбиения, но середины
каждого из промежутков будут находиться
в вариантах исходного вариационного
ряда.

Пример 4
Среди экзаменационных оценок в зачётке имеется три возможных варианты: тройки, четвёрки и пятёрки. Составить распределение оценок одного студента в интервальном виде.
Если взять обычным
образом интервальный ряд с тремя равными
промежутками, то получим шаг разбиения
,
.
Середины промежутков при этом будут
дробными.
При этом рекомендуется
взять
и получить соответствующие промежутки:
первый
,
второй
и третий
.
В таком случае не будет повода задумываться, в какой из промежутков отнести х=4 и как делить частоту для четвёрок.
Переход от
дискретного статистического ряда с
неравноотстоящими вариантами
к интервальному ряду с разбиением на
равные промежутки позволяет в результате
перейти к дискретному же ряду с
равноотстоящими вариантами.
Замечание:Часто используемая вычислительная
системаMathCADимеет
встроенные функцииgistи вMathCAD2001gistogram,
которые разбиение элементов выборки
по промежуткам выполняют автоматически.
Следует обратить внимание, что при
этом попадающая на границу варианта
каждый раз относится к правому из
граничных промежутков. Если варианта
попала на правую границу крайне правого
промежутка, то его частота не учитывается
и объём выборки уменьшается. Из-за этого
размах выборки берётся чуть больше
наблюдаемого, увеличиваятолько
.
Полигон и гистограмма
Пусть дано дискретное распределение выборки
|
Х |
x1 |
x2 |
…………… |
xk |
|
nx |
n1 |
n2 |
…………… |
nk |
|
wx |
w1 |
w2 |
…………… |
wk |
Полигон распределения выборки на плоскостиXOYявляется ломаной с вершинами( хi; ni ) с соединением соседних точек отрезками прямых.

Абсциссы
(и ординаты) точек графика могут находиться
на большом расстоянии от начала координат,
изображение в обычном виде повлекло бы
к изменению масштаба и уменьшению
наглядности. В таком случае на
соответствующей оси ставится знак
разрыва , далее указываются изменения
значений переменных с соблюдением
выбранного масштаба как на рисунке
1.
Замечание:При построении полигона распределения и других графических представлений выборки (гистограмм, кумулятивных кривых, диаграмм и др.) масштабы и единицы измерений на координатных осях могут не совпадать. При их изображении рекомендуется брать такое соотношение для изменений абсцисс и ординат, при которомнаглядностьрисунка будет наибольшей. Обычно берут «золотое сечение», при котором длина рисунка больше его высоты на 50 – 60%.
Для графического представления выборки с интервальным распределением
|
Х |
1 |
2 |
3 |
……... |
k |
|
(x1; x2) |
(x2; x3) |
(x3; x4) |
……... |
(xk; х k+1) | |
|
nx |
n1 |
n2 |
n3 |
……. |
nk |
используется гистограммы частот или относительных частот.
Гистограмма частот– совокупность прямоугольников в плоскостиXOYс параллельными координатным осям сторонами, для которых:
а)Ось абсцисс соответствует значениям
исследуемого признака Х, разбитыми
наkпромежутков
граничными точками. Основание каждого
прямоугольника с номеромi– отрезок
,
;
б) Ось ординат соответствует частотам попадания в указанные промежутки. Высота прямоугольника с номеромi– частота попадания в этот промежутокni.


По гистограмме
частот можно построить полигон
распределения, найти середины
каждого промежутка и соединив соседние
точки(
;ni
) отрезками прямых. Для открытых
промежутков берётся шаг, совпадающий
с шагом соседнего промежутка.
n


Гистограмма
относительных частотстроится
аналогично гистограмме частот, но
высотой прямоугольников берут
относительную частоту
попадания в соответствующий промежуток.
Получаем такой же рисунок, как для
гистограммы частот, но с изменением
масштаба по оси ординат. При этом все
вторые координаты уменьшаются вnраз .
