Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция2.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
534.02 Кб
Скачать

Лекция 2: Построение вариационных рядов и вычисление

статистических характеристик (3 часа +2 часа ПЗ)

Основные вопросы лекции:

1. Введение

2. Первичная статистическая совокупность, её упорядочение.

3. Выборочная функция распределения.

4. Выборочные числовые характеристики распределения.

5. Группированный статистический ряд. Гистограмма.

6. Выравнивание статистических распределений.

7. Заключение

2.1. Введение

В своей практике естествоиспытателю приходится обрабатывать большие массивы данных, полученных в результате эксперимента путем измерений, наблюдений, анализа проб и т.п. Часто этим данным присуща изменчивость, вызванная случайными ошибками. Природа этих ошибок может быть различной: погрешность измерительных приборов, неоднородность образцов проб и др. Как правило, экспериментатор имеет возможность многократно повторить свой опыт и получить большое количество однородных данных. Затем перед исследователем встает задача обработки этих данных, чтобы извлечь как можно более точную информацию об измеряемой величине. Решение этих задач основано на базовых принципах и методах статистической обработки данных.

Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. Вероятностные задачи, как правило, устроены следующим образом: распределения случайных величин считаются изначально известными, основываясь на знании этих распределений требуется найти вероятности различных событий, математические ожидания, дисперсии, моменты распределений и т.п. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении на основе данных, собранных в результате наблюдений (экспериментов). Основополагающее понятие в вероятностно-статистических методах принятия решений – выборка. Выборка – это набор наблюдаемых значений или множество объектов, отобранные из изучаемой совокупности. Например, единицы продукции, отобранные из контролируемой партии или потока продукции для контроля и принятия решений. Наблюдаемые значения обозначим x1, x2,…, xn, где nобъем выборки, т.е. число наблюдаемых значений, составляющих выборку. В вероятностной модели выборки первого вида наблюдаемые значения обычно рассматривают как реализацию независимых одинаково распределенных случайных величин . При этом считают, что полученные при наблюдениях конкретные значения x1, x2,…, xn соответствуют определенному элементарному событию , т.е. .

При повторных наблюдениях будут получены иные наблюдаемые значения, соответствующие другому элементарному событию . Цель обработки статистических данных состоит в том, чтобы по результатам наблюдений, соответствующим элементарному событию , сделать выводы о вероятностной мере Р и результатах наблюдений при различных возможных .

Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках – блоки, в выбранных блоках – пачки, а в пачках – сигареты. Четыре ступени отбора. Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет.

Из приведенного выше определения математической статистики следует, что описание статистических данных дается с помощью частот. Частота – это отношение числа Х наблюдаемых единиц, которые принимают заданное значение или лежат в заданном интервале, к общему числу наблюдений n, т.е. частота – это Х/n. (В более старой литературе иногда Х/n называется относительной частотой, а под частотой имеется в виду Х. (В старой терминологии можно сказать, что относительная частота – это отношение частоты к общему числу наблюдений.) Обсуждаемое определение приспособлено к нуждам одномерной статистики. В случае многомерного статистического анализа, статистики случайных процессов и временных рядов, статистики объектов нечисловой природы нужны несколько иные определения понятия «статистические данные». В подавляющем большинстве практических постановок исходные статистические данные – это выборка или несколько выборок. А выборка – это конечная совокупность соответствующих математических объектов (чисел, векторов, функций, объектов нечисловой природы).Число Х имеет биномиальное распределение, задаваемое вероятностью р того, что случайная величина, с помощью которой моделируются результаты наблюдений, принимает заданное значение или лежит в заданном интервале, и общим числом наблюдений n. Из закона больших чисел (теорема Бернулли) следует, что при n→∞ (сходимость по вероятности), т.е. частота сходится к вероятности. Теорема Муавра-Лапласа позволяет уточнить скорость сходимости в этом предельном соотношении. Пусть требуется изучить данную совокупность объектов относи­тельно некоторого признака. Например, рассматривая работу диспет­чера (продавца, парикмахера,...), можно исследовать: его загружен­ность, тип клиентов, скорость обслуживания, моменты поступления заявок и т. д. Каждый такой признак (и их комбинации) образует слу­чайную величину, наблюдения над которой мы и производим. Совокупность всех подлежащих изучению объектов или возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью. Более строго: генеральная совокупность - это с. в. Х(w), заданная на пространстве элементарных событий , с выделенным в нем классом S подмножеств событий, для которых указаны их вероятности. Зачастую проводить сплошное обследование, когда изучаются все объекты (например — перепись населения), трудно или дорого, эконо­мически нецелесообразно (например — не вскрывать же каждую кон­сервную банку для проверки качества продукции), а иногда невозмож­но. В этих случаях наилучшим способом обследования является вы­борочное наблюдение: выбирают из генеральной совокупности часть ее объектов («выборку») и подвергают их изучению. Выборочной совокупностью {выборкой) называется совокупность объектов, отобранных случайным образом из генеральной совокупно­сти. Более строго: выборка — это последовательность Х12, ..,Хп независимых одинаково распределенных случайных величин, распределение каждой из которых совпадает с распределением генеральной случайной вели­чины. Число объектов (наблюдений) в совокупности, генеральной или вы­борочной, называется ее объемом иобозначается соответственно через N и п. Конкретные значения выборки, полученные в результате наблюде­ний (испытаний), называют реализацией выборки и обозначают строч­ными буквами x1,x2xn. Метод статистического исследования, состоящий в том, что на осно­ве изучения выборочной совокупности делается заключение о всей ге­неральной совокупности, называется выборочным. Для получения хороших оценок характеристик генеральной сово­купности необходимо, чтобы выборка была репрезентативной (или представительной), т. е. достаточно полно представлять изучаемые признаки генеральной совокупности. Условием обеспечения репрезен­тативности выборки является, согласно закону больших чисел, соблю­дение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку. Различают выборки с возвращением (повторные) и без возвраще­ния (бесповторные). В первом случае отобранный объект возвращается в генеральную совокупность перед извлечением следующего; во вто­ром - не возвращается. На практике чаще используется бесповторная выборка. Заметим, если объем выборки значительно меньше объема гене­ральной совокупности, различие между повторной и бесповторной вы­борками очень мало, его можно не учитывать.

В зависимости от конкретных условий для обеспечения репрезента­тивности применяют различные способы отбора: простой, при котором из генеральной совокупности извлекают по одному объекту; типический, при котором генеральную совокупность делят на «типические» части и отбор осуществляется из каждой части (например, мнение о референдуме спросить у случайно отобранных людей, разделенных по признаку пола, возраста,...); механический, при котором отбор производится через определенный интервал (например, мнение спросить у каждого шестидесятого...); серийный, при котором объекты из гене­ральной совокупности отбираются «сериями», которые должны иссле­доваться при помощи сплошного обследования. На практике пользуются сочетанием вышеупомянутых способов от­бора.

Пример. Десять абитуриентов проходят тестирование по матема­тике. Каждый из них может набрать от 0 до 5 баллов включительно. Пусть Хk- количество баллов, набранных k-м (к = 1,2,..., 10) абитуриентом. Тогда значения 0, 1, 2, 3, 4, 5 — все возможные количества бал­лов, набранных одним абитуриентом, - образуют генеральную совокупность.

Выборка Х123,..., Х10 - результат тестирования 10 абитуриентов. Реализациями выборки могут быть следующие наборы чисел:.{5, 3. 0, 1, 4, 2, 5, 4, 1, 5} или {4, 4, 5, 3, 3, 1, 5, 5, 2, 5} или {3, 4, 5, 0, 1, 2, 4, 5, 4} и т.д.

В соответствии с поставленными основными задачами математической ста­тистики рассмотрим абстрактный эксперимент Е. В результате его проведения мы измеряем (наблюдаем) значение х изучаемой случайной величины X. В реальных условиях случайной величиной X являются, например, высота волн в акватории, амплитуда отражённого от объекта сигнала, любой общий ко­личественный признак определенного множества объектов.

Определение 2.1. Генеральной совокупностью называется множе­ство возможных значений изучаемой случайной величины X с приписан­ным этому множеству законом распределения X: L(Х).

Примеры.

  1. X - число рождений в городе за рассматриваемый промежуток времени. Генеральной совокупностью здесь является множество чисел {0,1,2,..., N}, ог­раниченное сверху каким-то числом N. Так как заранее для всех случаев ука­зать какое-либо конкретное число N невозможно, то с целью упрощения математической теории здесь удобно рассматривать идеализированную генеральную совокупность - все множество целых неотрицательных чисел {0,1,2,... } с не­которым законом распределения.

  2. X - величина отклонения детали от заданного размера при массовом производстве. Для удобства исследований за генеральную совокупность здесь принимают все множество вещественных чисел с некоторым законом распреде­ления.

  3. X - длительность обслуживания в системе массового обслуживания. Здесь генеральной совокупностью является множество неотрицательных веще­ственных чисел с некоторым законом распределения.

Числа, составляющие генеральную совокупность, называются ее элемента­ми. Закон L(X) распределения случайной величины X называется генераль­ным законом распределения, а числовые характеристики X - генеральными чи­словыми характеристиками.Так как генеральная совокупность - большая, то перебрать все ее элементы невозможно, поэтому для изучения генеральной совокупности из нее делают выборку и по ее свойствам судят о свойствах генеральной совокупности.

Определение 2.2. Выборкой называется множество измеренных зна­чений хъхг,...,хn случайной величины X.

Выборка записывается в виде n-мерной точки 1х2...хn). Числа, со­ставляющие выборку, называются ее элементами; их количество п – объемом выборки. Выборку нельзя составлять произвольно. Иначе она не будет правильно ха­рактеризовать генеральную совокупность.

Определение 2.3. Процесс составления выборки называется выбором.

Различных типов выбора существует несколько. Следует, во-первых, различать выбор с возвращением и без возвращения. Оба типа выбора имеют смысл для конечной перенумерованной генеральной сово­купности. Их можно уподобить выбору шаров из урны. При выборе без возвра­щения шары выбираются последовательно и в урну не возвращаются. При вы­боре с возвращением шар вынимается из урны, запоминается его номер, а далее шар возвращается обратно в урну. Таким образом, при последующих выборах он снова может быть извлечен.

Кажущееся различие этих двух типов выбора на самом деле не меняет веро­ятности попадания каждого элемента в выборку при условии, что элемент по­падает в выборку только один раз в случае выбора с возвращением, хотя выбран может быть много раз (не будете же вы опрашивать одного и того же респон­дента несколько раз при социологическом опросе или исследовать одну и ту же деталь при контроле на брак партии).

Действительно, при выборе с возвращением вероятность вынуть конкретный шар из урны, содержащей N шаров, равна 1/N - одна и та же при каждом вы­боре шара. При выборе без возвращения вероятность попадания меченого шара в выборку при к -м выеме (к = 1,2,...,N) равна

т. е. также одна и та же независимо от того, на каком этапе составления выбор­ки шар в ней появится. Это есть вероятность того, что при последнем к -м вы­еме меченый шар появился, а во всех предыдущих (к -1) выемах - нет.

Во-вторых, будем различать выбор случайный, т. е. проводимый с помощью какого-либо случайного механизма, и неслучайный (пристрастный, по законо­мерности). В статистике применяется в основном случайный выбор как более надежный в отражении свойств генеральной совокупности.

Определение 2.4. Простым случайным выбором называется выбор, удовлетворяющий следующим требованиям:

  1. Выбор является случайным.

  2. Каждый элемент генеральной совокупности может быть выбран.

  3. Каждый элемент выбирается независимо от остальных.

  4. Все элементы выборки получаются в равных условиях.

Реально такой выбор можно осуществить на основе урновой схемы из ко­нечной генеральной совокупности, перенумеровав все ее элементы, а затем выбирая номера с помощью какого-либо случайного механизма: выбор карточек из колоды, чисел из таблицы равномерно распределенных случайных чисел (таблица VI приложения), одинаковых шаров из барабана и т. д. (выбор без воз­вращения или с возвращением). Так можно выбирать массивы экспериментальных данных по перечню для исследования, корабли и суда определённого типа для испытания, приборы из партии для контроля и т. д.

В реальных условиях простой случайный выбор не всегда осуществим. Он является как бы эталонным идеальным выбором. Реальный выбор лишь при­ближенно можно считать простым случайным. Его нельзя, например, осущест­вить из бесконечной генеральной совокупности (время обслуживания, отклоне­ние результата измерения от нормы), из генеральной совокупности, образова­ние которой не завершено и может продолжаться бесконечно долго (исследуется средняя температура июля в Санкт-Петербурге; июли могут про­должаться потенциально бесконечно долго).

Виды реальных выборов.

  1. Механический выбор. В этом случае элементы генеральной совокупности выбираются по какой-либо закономерности. Например, измерения производятся через равные промежутки времени, контролируется каждая десятая деталь, сходящая с конвейера, каждый пятый человек по списку. Применяется для автоматизированного контроля.

  2. Серийный выбор. Элементы в этом случае выбираются не по одному, а сериями. Например, контролю подвергается не одна таблетка лекарства, а упа­ковка, не один человек из какой-либо группы, а вся группа. Диктуется условия­ми производства и обследования.

  3. Типический выбор. В этом случае генеральная совокупность делится на непересекающиеся части. Из каждой части выбираются элементы в количестве, пропорциональном объему части. Так можно получить сведения о средней зарплате в отрасли, об урожайно­сти поля, о политических предпочтениях людей. Характерен для экономических и социологических исследований.

  1. Субъективный выбор - на основе какого-либо субъективного принципа. Например, обследуются не все партии продукции, а лишь одна, наиболее по­дозрительная на содержание брака, ведется опрос по телефону, а не всех слоев населения. Он экономит время, средства, но может привести к большим ошиб­кам.

  2. Выбор с помощью случайных независимых измерений (температура среды, величина тока, загрязненность реки). Характерен для инженерных и естествен­нонаучных исследований.

Все типы выборов могут комбинироваться между собой. Существуют и дру­гие типы выборов. В математической статистике рассматривается только простой случайный выбор. Отметим одно его важное свойство - случайность (рандомизированность). Случайный выбор - объективен, гарантирует от пропуска скрытых зако­номерностей в генеральной совокупности, поэтому реальный выбор следует ор­ганизовывать так, чтобы свойство случайности присутствовало. В механиче­ском и субъективном выборах случайность отсутствует, поэтому они менее на­дежны. (Например, каждая десятая деталь, снимаемая с конвейера, может по­ставляться бракоделом. Такой контроль может исказить результаты).

Обратимся снова к анализу выборки. Повторяя выборку (x1,x2,…,xn) не­сколько раз, мы будем в общем случае получать каждый раз новые элементы, поэтому элементы выборки рассматриваются как случайные величины. Так как они принимают значения из одной и той же генеральной совокупности, то рас­пределены одинаково - так же, как случайная величина X, образующая рас­сматриваемую генеральную совокупность x1,x2,…,xn - это n копий случай­ной величины X. Далее, так как каждый элемент выборки получен независимо от остальных, то все элементы выборки рассматриваются как взаимно незави­симые случайные величины.

Итак, с теоретической точки зрения выборка (x1,x2,…,xn) - это n-мерная случайная величина, все компоненты которой - взаимно независимые одинако­во распределенные случайные величины. Их закон распределения - такой же, как у изучаемой случайной величины X. Такую теоретическую выборку следует отличать от ее реализации, т. е. на­бора n чисел, полученных в конкретном выборе (в конкретных измерениях). Чтобы подчеркнуть это различие, теоретическую выборку, т. е. n-мерную слу­чайную величину, иногда обозначают символом (Х1, Х2,..., Хn), составленным из больших букв, а ее реализацию – символом (x1,x2,…,xn ), составленным из малых букв. В дальнейшем с целью упрощения записей и теоретическую вы­борку, и ее реализацию будем обозначать одним и тем же символом (x1,x2,…,xn), так как из текста обычно ясно, о чем идет речь. Обсудим еще последнее свойство простого случайного выбора - о том, что все элементы выборки получаются в равных условиях. Это свойство можно выразить, введя случайную величину X* , принимаю­щую выборочные значения x1,x2,…,xn с одной и той же вероятностью 1/n. Дискретное равномерное распределение с законом, заданным формулой

Р(Х*=xk) = 1/n, k= 1,2,...,n, (2.1)

называется выборочным распределением, а его числовые характеристики - вы­борочными числовыми характеристиками (иначе - числовыми характеристи­ками выборки).

К выборкам, как и к выбору, предъявляется ряд требований. Важнейшим из них является требование репрезентативности (представительности). Это требование означает, что выборка должна хорошо представлять всю ге­неральную совокупность. Например, изучая среднюю зарплату отрасли, нельзя ограничиться данными одного завода, одного месяца и т. д. Для составления репрезентативной выборки более всего подходит типический выбор. Простой случайный выбор тоже репрезентативен, так как теоретически любой элемент генеральной совокупности может попасть в выборку, но менее надежен, чем типический, так как в силу независимости и случайности выбора элементов возможна их концентрация и, следовательно, недостаточно представительный охват генеральной совокупности.

Другим требованием является требование однородности выборки. Это оз­начает, что условия проведения экспериментов для получения выборки не должны меняться. Выборка должна быть получена из одной генеральной сово­купности, а не из нескольких. В ней должны отсутствовать выбросы. Неодно­родная выборка не может дать правильного прогноза. Различают малые и большие выборки, так как они отличаются мето­дами обработки. Для обработки большой выборки привлекаются асимптотиче­ские методы, основанные на центральной предельной теореме. В статистиче­ской практике принято считать выборку с объемом п > 30 большой. Для изучения двумерной случайной величины (Х,У) создается двумерная выборка, представляющая таблицу пар чисел (xi, yi) (i = 1,2,...,n).

Существуют выборки любой размерности.