
Лекция
2: Построение
вариационных рядов и вычисление
статистических характеристик (3 часа +2 часа ПЗ)
Основные вопросы лекции:
1. Введение
2. Первичная статистическая совокупность, её упорядочение.
3. Выборочная функция распределения.
4. Выборочные числовые характеристики распределения.
5. Группированный статистический ряд. Гистограмма.
6. Выравнивание статистических распределений.
7. Заключение
2.1. Введение
В своей практике естествоиспытателю приходится обрабатывать большие массивы данных, полученных в результате эксперимента путем измерений, наблюдений, анализа проб и т.п. Часто этим данным присуща изменчивость, вызванная случайными ошибками. Природа этих ошибок может быть различной: погрешность измерительных приборов, неоднородность образцов проб и др. Как правило, экспериментатор имеет возможность многократно повторить свой опыт и получить большое количество однородных данных. Затем перед исследователем встает задача обработки этих данных, чтобы извлечь как можно более точную информацию об измеряемой величине. Решение этих задач основано на базовых принципах и методах статистической обработки данных.
Задачи, решаемые
математической статистикой, являются,
в некотором смысле, обратными задачам
теории вероятностей. Вероятностные
задачи, как правило, устроены следующим
образом: распределения случайных величин
считаются изначально известными,
основываясь на знании этих распределений
требуется найти вероятности различных
событий, математические
ожидания, дисперсии, моменты распределений
и т.п. В статистических задачах само
распределение считается неизвестным,
и целью исследования является получение
более или менее достоверной информации
об этом распределении на основе данных,
собранных в результате наблюдений
(экспериментов). Основополагающее
понятие в вероятностно-статистических
методах принятия решений – выборка.
Выборка
– это набор наблюдаемых значений или
множество объектов, отобранные из
изучаемой совокупности. Например,
единицы продукции, отобранные из
контролируемой партии или потока
продукции для контроля и принятия
решений. Наблюдаемые значения обозначим
x1, x2,…, xn,
где n – объем выборки, т.е. число
наблюдаемых значений, составляющих
выборку. В вероятностной модели выборки
первого вида наблюдаемые значения
обычно рассматривают как реализацию
независимых одинаково распределенных
случайных величин
.
При этом считают, что полученные при
наблюдениях конкретные значения x1,
x2,…, xn
соответствуют определенному элементарному
событию
,
т.е.
.
При повторных
наблюдениях будут получены иные
наблюдаемые значения, соответствующие
другому элементарному событию
.
Цель обработки статистических данных
состоит в том, чтобы по результатам
наблюдений, соответствующим элементарному
событию
,
сделать выводы о вероятностной мере Р
и результатах наблюдений при различных
возможных
.
Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках – блоки, в выбранных блоках – пачки, а в пачках – сигареты. Четыре ступени отбора. Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет.
Из приведенного
выше определения математической
статистики следует, что описание
статистических данных дается с помощью
частот. Частота
– это отношение числа Х
наблюдаемых единиц, которые принимают
заданное значение или лежат в заданном
интервале, к общему числу наблюдений
n, т.е. частота –
это Х/n.
(В более старой литературе иногда Х/n
называется относительной частотой, а
под частотой имеется в виду Х. (В
старой терминологии можно сказать, что
относительная частота – это отношение
частоты к общему числу наблюдений.)
Обсуждаемое определение приспособлено
к нуждам одномерной статистики. В случае
многомерного статистического анализа,
статистики случайных процессов и
временных рядов, статистики объектов
нечисловой природы нужны несколько
иные определения понятия «статистические
данные». В подавляющем большинстве
практических постановок исходные
статистические данные – это выборка
или несколько выборок. А выборка – это
конечная совокупность соответствующих
математических объектов (чисел, векторов,
функций, объектов нечисловой природы).Число
Х имеет биномиальное
распределение, задаваемое вероятностью
р того, что
случайная величина, с помощью которой
моделируются результаты наблюдений,
принимает заданное значение или лежит
в заданном интервале, и общим числом
наблюдений n. Из закона больших чисел
(теорема Бернулли) следует, что
при n→∞ (сходимость по вероятности),
т.е. частота сходится к вероятности.
Теорема Муавра-Лапласа позволяет
уточнить скорость сходимости в этом
предельном соотношении. Пусть требуется
изучить данную совокупность объектов
относительно некоторого признака.
Например, рассматривая работу
диспетчера (продавца, парикмахера,...),
можно исследовать: его загруженность,
тип клиентов, скорость обслуживания,
моменты поступления заявок и т. д. Каждый
такой признак (и их комбинации) образует
случайную величину, наблюдения над
которой мы и производим. Совокупность
всех подлежащих изучению объектов или
возможных результатов
всех мыслимых наблюдений, производимых
в неизменных условиях
над одним объектом, называется генеральной
совокупностью. Более
строго: генеральная совокупность - это
с. в. Х(w),
заданная на
пространстве элементарных событий
,
с выделенным
в нем классом S
подмножеств событий, для которых указаны
их вероятности. Зачастую
проводить сплошное
обследование,
когда изучаются
все объекты (например — перепись
населения), трудно или дорого, экономически
нецелесообразно (например — не вскрывать
же каждую консервную
банку для проверки качества продукции),
а иногда невозможно.
В этих случаях наилучшим способом
обследования является выборочное
наблюдение:
выбирают из
генеральной
совокупности
часть ее объектов
(«выборку»)
и подвергают их изучению.
Выборочной
совокупностью {выборкой)
называется
совокупность объектов,
отобранных случайным образом из
генеральной совокупности.
Более строго:
выборка —
это последовательность Х1,Х2,
..,Хп
независимых
одинаково распределенных случайных
величин, распределение каждой из
которых совпадает с распределением
генеральной случайной величины.
Число объектов
(наблюдений) в совокупности, генеральной
или выборочной,
называется ее объемом
иобозначается
соответственно через N
и
п.
Конкретные
значения выборки, полученные в результате
наблюдений
(испытаний), называют реализацией
выборки
и обозначают
строчными
буквами x1,x2…xn.
Метод
статистического исследования, состоящий
в том, что на основе
изучения выборочной совокупности
делается заключение о всей генеральной
совокупности, называется выборочным.
Для получения
хороших оценок характеристик генеральной
совокупности
необходимо, чтобы выборка была
репрезентативной
(или
представительной),
т. е. достаточно полно представлять
изучаемые признаки
генеральной совокупности. Условием
обеспечения репрезентативности
выборки является, согласно закону
больших чисел, соблюдение
случайности отбора, т. е. все объекты
генеральной совокупности должны
иметь равные
вероятности попасть в выборку.
Различают выборки с
возвращением (повторные) и
без
возвращения
(бесповторные).
В первом
случае отобранный объект возвращается
в генеральную
совокупность перед извлечением
следующего; во втором
- не возвращается. На практике чаще
используется бесповторная
выборка.
Заметим, если
объем выборки значительно меньше объема
генеральной
совокупности, различие между повторной
и бесповторной выборками
очень мало, его можно не учитывать.
В зависимости от конкретных условий для обеспечения репрезентативности применяют различные способы отбора: простой, при котором из генеральной совокупности извлекают по одному объекту; типический, при котором генеральную совокупность делят на «типические» части и отбор осуществляется из каждой части (например, мнение о референдуме спросить у случайно отобранных людей, разделенных по признаку пола, возраста,...); механический, при котором отбор производится через определенный интервал (например, мнение спросить у каждого шестидесятого...); серийный, при котором объекты из генеральной совокупности отбираются «сериями», которые должны исследоваться при помощи сплошного обследования. На практике пользуются сочетанием вышеупомянутых способов отбора.
Пример. Десять абитуриентов проходят тестирование по математике. Каждый из них может набрать от 0 до 5 баллов включительно. Пусть Хk- количество баллов, набранных k-м (к = 1,2,..., 10) абитуриентом. Тогда значения 0, 1, 2, 3, 4, 5 — все возможные количества баллов, набранных одним абитуриентом, - образуют генеральную совокупность.
Выборка Х1,Х2,Х3,..., Х10 - результат тестирования 10 абитуриентов. Реализациями выборки могут быть следующие наборы чисел:.{5, 3. 0, 1, 4, 2, 5, 4, 1, 5} или {4, 4, 5, 3, 3, 1, 5, 5, 2, 5} или {3, 4, 5, 0, 1, 2, 4, 5, 4} и т.д.
В соответствии с поставленными основными задачами математической статистики рассмотрим абстрактный эксперимент Е. В результате его проведения мы измеряем (наблюдаем) значение х изучаемой случайной величины X. В реальных условиях случайной величиной X являются, например, высота волн в акватории, амплитуда отражённого от объекта сигнала, любой общий количественный признак определенного множества объектов.
Определение 2.1. Генеральной совокупностью называется множество возможных значений изучаемой случайной величины X с приписанным этому множеству законом распределения X: L(Х).
Примеры.
X - число рождений в городе за рассматриваемый промежуток времени. Генеральной совокупностью здесь является множество чисел {0,1,2,..., N}, ограниченное сверху каким-то числом N. Так как заранее для всех случаев указать какое-либо конкретное число N невозможно, то с целью упрощения математической теории здесь удобно рассматривать идеализированную генеральную совокупность - все множество целых неотрицательных чисел {0,1,2,... } с некоторым законом распределения.
X - величина отклонения детали от заданного размера при массовом производстве. Для удобства исследований за генеральную совокупность здесь принимают все множество вещественных чисел с некоторым законом распределения.
X - длительность обслуживания в системе массового обслуживания. Здесь генеральной совокупностью является множество неотрицательных вещественных чисел с некоторым законом распределения.
Числа, составляющие генеральную совокупность, называются ее элементами. Закон L(X) распределения случайной величины X называется генеральным законом распределения, а числовые характеристики X - генеральными числовыми характеристиками.Так как генеральная совокупность - большая, то перебрать все ее элементы невозможно, поэтому для изучения генеральной совокупности из нее делают выборку и по ее свойствам судят о свойствах генеральной совокупности.
Определение 2.2. Выборкой называется множество измеренных значений хъхг,...,хn случайной величины X.
Выборка записывается в виде n-мерной точки (х1х2...хn). Числа, составляющие выборку, называются ее элементами; их количество п – объемом выборки. Выборку нельзя составлять произвольно. Иначе она не будет правильно характеризовать генеральную совокупность.
Определение 2.3. Процесс составления выборки называется выбором.
Различных типов выбора существует несколько. Следует, во-первых, различать выбор с возвращением и без возвращения. Оба типа выбора имеют смысл для конечной перенумерованной генеральной совокупности. Их можно уподобить выбору шаров из урны. При выборе без возвращения шары выбираются последовательно и в урну не возвращаются. При выборе с возвращением шар вынимается из урны, запоминается его номер, а далее шар возвращается обратно в урну. Таким образом, при последующих выборах он снова может быть извлечен.
Кажущееся различие этих двух типов выбора на самом деле не меняет вероятности попадания каждого элемента в выборку при условии, что элемент попадает в выборку только один раз в случае выбора с возвращением, хотя выбран может быть много раз (не будете же вы опрашивать одного и того же респондента несколько раз при социологическом опросе или исследовать одну и ту же деталь при контроле на брак партии).
Действительно, при выборе с возвращением вероятность вынуть конкретный шар из урны, содержащей N шаров, равна 1/N - одна и та же при каждом выборе шара. При выборе без возвращения вероятность попадания меченого шара в выборку при к -м выеме (к = 1,2,...,N) равна
т. е. также одна и та же независимо от того, на каком этапе составления выборки шар в ней появится. Это есть вероятность того, что при последнем к -м выеме меченый шар появился, а во всех предыдущих (к -1) выемах - нет.
Во-вторых, будем различать выбор случайный, т. е. проводимый с помощью какого-либо случайного механизма, и неслучайный (пристрастный, по закономерности). В статистике применяется в основном случайный выбор как более надежный в отражении свойств генеральной совокупности.
Определение 2.4. Простым случайным выбором называется выбор, удовлетворяющий следующим требованиям:
Выбор является случайным.
Каждый элемент генеральной совокупности может быть выбран.
Каждый элемент выбирается независимо от остальных.
Все элементы выборки получаются в равных условиях.
Реально такой выбор можно осуществить на основе урновой схемы из конечной генеральной совокупности, перенумеровав все ее элементы, а затем выбирая номера с помощью какого-либо случайного механизма: выбор карточек из колоды, чисел из таблицы равномерно распределенных случайных чисел (таблица VI приложения), одинаковых шаров из барабана и т. д. (выбор без возвращения или с возвращением). Так можно выбирать массивы экспериментальных данных по перечню для исследования, корабли и суда определённого типа для испытания, приборы из партии для контроля и т. д.
В реальных условиях простой случайный выбор не всегда осуществим. Он является как бы эталонным идеальным выбором. Реальный выбор лишь приближенно можно считать простым случайным. Его нельзя, например, осуществить из бесконечной генеральной совокупности (время обслуживания, отклонение результата измерения от нормы), из генеральной совокупности, образование которой не завершено и может продолжаться бесконечно долго (исследуется средняя температура июля в Санкт-Петербурге; июли могут продолжаться потенциально бесконечно долго).
Виды реальных выборов.
Механический выбор. В этом случае элементы генеральной совокупности выбираются по какой-либо закономерности. Например, измерения производятся через равные промежутки времени, контролируется каждая десятая деталь, сходящая с конвейера, каждый пятый человек по списку. Применяется для автоматизированного контроля.
Серийный выбор. Элементы в этом случае выбираются не по одному, а сериями. Например, контролю подвергается не одна таблетка лекарства, а упаковка, не один человек из какой-либо группы, а вся группа. Диктуется условиями производства и обследования.
Типический выбор. В этом случае генеральная совокупность делится на непересекающиеся части. Из каждой части выбираются элементы в количестве, пропорциональном объему части. Так можно получить сведения о средней зарплате в отрасли, об урожайности поля, о политических предпочтениях людей. Характерен для экономических и социологических исследований.
Субъективный выбор - на основе какого-либо субъективного принципа. Например, обследуются не все партии продукции, а лишь одна, наиболее подозрительная на содержание брака, ведется опрос по телефону, а не всех слоев населения. Он экономит время, средства, но может привести к большим ошибкам.
Выбор с помощью случайных независимых измерений (температура среды, величина тока, загрязненность реки). Характерен для инженерных и естественнонаучных исследований.
Все типы выборов могут комбинироваться между собой. Существуют и другие типы выборов. В математической статистике рассматривается только простой случайный выбор. Отметим одно его важное свойство - случайность (рандомизированность). Случайный выбор - объективен, гарантирует от пропуска скрытых закономерностей в генеральной совокупности, поэтому реальный выбор следует организовывать так, чтобы свойство случайности присутствовало. В механическом и субъективном выборах случайность отсутствует, поэтому они менее надежны. (Например, каждая десятая деталь, снимаемая с конвейера, может поставляться бракоделом. Такой контроль может исказить результаты).
Обратимся снова к анализу выборки. Повторяя выборку (x1,x2,…,xn) несколько раз, мы будем в общем случае получать каждый раз новые элементы, поэтому элементы выборки рассматриваются как случайные величины. Так как они принимают значения из одной и той же генеральной совокупности, то распределены одинаково - так же, как случайная величина X, образующая рассматриваемую генеральную совокупность x1,x2,…,xn - это n копий случайной величины X. Далее, так как каждый элемент выборки получен независимо от остальных, то все элементы выборки рассматриваются как взаимно независимые случайные величины.
Итак, с теоретической точки зрения выборка (x1,x2,…,xn) - это n-мерная случайная величина, все компоненты которой - взаимно независимые одинаково распределенные случайные величины. Их закон распределения - такой же, как у изучаемой случайной величины X. Такую теоретическую выборку следует отличать от ее реализации, т. е. набора n чисел, полученных в конкретном выборе (в конкретных измерениях). Чтобы подчеркнуть это различие, теоретическую выборку, т. е. n-мерную случайную величину, иногда обозначают символом (Х1, Х2,..., Хn), составленным из больших букв, а ее реализацию – символом (x1,x2,…,xn ), составленным из малых букв. В дальнейшем с целью упрощения записей и теоретическую выборку, и ее реализацию будем обозначать одним и тем же символом (x1,x2,…,xn), так как из текста обычно ясно, о чем идет речь. Обсудим еще последнее свойство простого случайного выбора - о том, что все элементы выборки получаются в равных условиях. Это свойство можно выразить, введя случайную величину X* , принимающую выборочные значения x1,x2,…,xn с одной и той же вероятностью 1/n. Дискретное равномерное распределение с законом, заданным формулой
Р(Х*=xk) = 1/n, k= 1,2,...,n, (2.1)
называется выборочным распределением, а его числовые характеристики - выборочными числовыми характеристиками (иначе - числовыми характеристиками выборки).
К выборкам, как и к выбору, предъявляется ряд требований. Важнейшим из них является требование репрезентативности (представительности). Это требование означает, что выборка должна хорошо представлять всю генеральную совокупность. Например, изучая среднюю зарплату отрасли, нельзя ограничиться данными одного завода, одного месяца и т. д. Для составления репрезентативной выборки более всего подходит типический выбор. Простой случайный выбор тоже репрезентативен, так как теоретически любой элемент генеральной совокупности может попасть в выборку, но менее надежен, чем типический, так как в силу независимости и случайности выбора элементов возможна их концентрация и, следовательно, недостаточно представительный охват генеральной совокупности.
Другим требованием является требование однородности выборки. Это означает, что условия проведения экспериментов для получения выборки не должны меняться. Выборка должна быть получена из одной генеральной совокупности, а не из нескольких. В ней должны отсутствовать выбросы. Неоднородная выборка не может дать правильного прогноза. Различают малые и большие выборки, так как они отличаются методами обработки. Для обработки большой выборки привлекаются асимптотические методы, основанные на центральной предельной теореме. В статистической практике принято считать выборку с объемом п > 30 большой. Для изучения двумерной случайной величины (Х,У) создается двумерная выборка, представляющая таблицу пар чисел (xi, yi) (i = 1,2,...,n).
Существуют выборки любой размерности.