Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка_итог.doc
Скачиваний:
56
Добавлен:
05.05.2019
Размер:
3.77 Mб
Скачать

Эмпирическая функция распределения

В отличие от теории вероятностей, статистика для получения выводов использует данные экспериментов, которые уже произошли, и позволяет сделать некоторые далеко идущие выводы и прогнозы. Для удобства эти данные представляют в виде эмпирической функции распределения, которая похожа на обычную функцию распределения, с тем отличием, что вместо вероятностей исходам эксперимента xi сопоставляются относительные частоты их появления . Относительные частоты (частости) получены именно практическим путем и есть отношение: , где ni-число испытаний, в которых величина x была равна xi (частота появления), а N – общее число опытов.

Очень часто относительные частоты разных наборов измерений упорно ведут себя очень похоже или даже почти одинаково, тогда их среднее принимают за статистическую вероятностью данного события. И изучают статистическую закономерность данного явления.

К эмпирической функции распределения можно применять все результаты «обычной» теории вероятностей, считая ее настоящей функцией распределения случайной величины. Наиболее интересной стороной такой подмены является тот факт, что любые данные можно изучать, как если бы они были сгенерированы настоящей случайной величиной. К примеру, результат броска монетки предопределен импульсом и моментом вращения, переданными ей во время броска, колебаниями воздуха, его вязкостью, зависящей от температуры, и многими другими факторами, что совсем не мешает считать исход броска полностью случайным и получать хорошие предсказания.

К несчастью, слепое применение этого подхода часто приводит к «обоснованным» результатам, типа «Вода вызывает рак — все заболевшие раком пили воду!», поэтому объявлять что-то случайной величиной следует с большой осторожностью. На практике статистически изучают в основном такие явления, про все причины появления которых невозможно узнать. Например, очень затруднительно определить заранее цвет ботинок прохожего, который первым выйдет из троллейбуса номер четыре на остановке «Стадион „Труд“» в девять утра в понедельник; для наблюдателя-иследователя это является случайной величиной. Для самого прохожего это не так — он знал, какого цвета наденет сегодня ботинки, что поедет именно на этом троллейбусе, выйдет именно на этой остановке, и специально сел поближе к выходу. Хотя есть очень маленькая вероятность, что не знал - это редкое событие, но для наблюдателя того же типа. Результат можно рассматривать как случайный, также как случайны результаты броска монеты или игральной кости (кубика). Чтобы отличать настоящие случайные величины от неслучайных, и затем делать выводы на основе статистической обработки нужно быть очень вдумчивым наблюдателем.

В дальнейшем нигде, кроме следующего раздела мы не будем различать эмпирическую функцию распределения и настоящую.

Гистограмма распределения

Рассмотрим данные, которые мы получили в результате измерения некоторой физической величины с помощью прибора. Вообще говоря, результат эксперимента это не xi, а , интервал, размеры которого определяются систематической погрешностью прибора (почти всегда это — цена деления). Поэтому эмпирическую функцию распределения обычно интерпретируют не как множество точек, а как систему интервалов. Такой график называют гистограммой.

Поскольку о том, как ведет себя величина внутри цены деления прибора ничего не известно, то обычно принимают, что никакое значение из интервала для измеряемой величины не является более предпочтительным, чем другое, и вероятности принять любое из этих значений равны.

Рис.2 Гистограмма

Таким образом, мы расширили эмпирическую функцию распределения из определенной на дискретном множестве (в некоторых точках) до определенной на континууме (на всей числовой оси). Полученная таким образом функция не эквивалентна исходной, поскольку построить ее можно было массой различных способов, и в каждом из них мы в исходные данные вносили свои предположения. Поэтому для точного анализа такое представление результатов, как правило, не используется, однако оно намного более наглядно, чем исходное, и почти всегда используется для визуального представления результатов экспериментов, опросов и т.п.

Далее, если картина все еще слишком сложна для восприятия, производят переопределение интервалов.

Новую ширину интервала вычисляют следующим образом:

, где — мощность множества Х, в данном случае это просто количество произведенных экспериментов.

Рис.3 Увеличение интервалов гистограммы

Если деление не выполняется нацело, то обычно округляют в большую сторону. При этом нужно помнить, что ширина интервала не может быть меньше цены деления прибора.