
- •5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез Виды выборок
- •5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез Частоты
- •5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез Эмпирическая функция распределения
- •5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез Выборочные характеристики распределения
5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез Виды выборок
Основополагающее понятие в вероятностно-статистических методах принятия решений – выборка. Как уже говорилось, выборка – это
1) набор наблюдаемых значений или 2) множество объектов, отобранные из изучаемой совокупности.
Например, единицы продукции, отобранные из контролируемой партии или потока продукции для контроля и принятия решений. Наблюдаемые значения обозначим x1, x2,…, xn, где n – объем выборки, т.е. число наблюдаемых значений, составляющих выборку. О втором виде выборок уже шла речь при рассмотрении гипергеометрического распределения, когда под выборкой понимался набор единиц продукции, отобранных из партии. Там же обсуждалась вероятностная модель случайной выборки.
В вероятностной
модели выборки первого вида наблюдаемые
значения обычно рассматривают как
реализацию независимых одинаково
распределенных случайных величин
.
При этом считают, что полученные при
наблюдениях конкретные значения x1,
x2,…, xn
соответствуют определенному элементарному
событию
,
т.е.
.
При повторных
наблюдениях будут получены иные
наблюдаемые значения, соответствующие
другому элементарному событию
.
Цель обработки статистических данных
состоит в том, чтобы по результатам
наблюдений, соответствующим элементарному
событию
,
сделать выводы о вероятностной мере Р
и результатах наблюдений при различных
возможных
.
Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках – блоки, в выбранных блоках – пачки, а в пачках – сигареты. Четыре ступени отбора. Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет.
5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез Частоты
Из приведенного выше определения математической статистики следует, что описание статистических данных дается с помощью частот. Частота – это отношение числа Х наблюдаемых единиц, которые принимают заданное значение или лежат в заданном интервале, к общему числу наблюдений n, т.е. частота – это Х/n. (В более старой литературе иногда Х/n называется относительной частотой, а под частотой имеется в виду Х. В старой терминологии можно сказать, что относительная частота – это отношение частоты к общему числу наблюдений.)
Отметим, что обсуждаемое определение приспособлено к нуждам одномерной статистики. В случае многомерного статистического анализа, статистики случайных процессов и временных рядов, статистики объектов нечисловой природы нужны несколько иные определения понятия «статистические данные». Не считая нужным давать такие определения, отметим, что в подавляющем большинстве практических постановок исходные статистические данные – это выборка или несколько выборок. А выборка – это конечная совокупность соответствующих математических объектов (чисел, векторов, функций, объектов нечисловой природы).
Число Х имеет биномиальное распределение, задаваемое вероятностью р того, что случайная величина, с помощью которой моделируются результаты наблюдений, принимает заданное значение или лежит в заданном интервале, и общим числом наблюдений n. Из закона больших чисел (теорема Бернулли) следует, что
при n→∞ (сходимость по вероятности), т.е. частота сходится к вероятности. Теорема Муавра-Лапласа позволяет уточнить скорость сходимости в этом предельном соотношении.