
Обработка выборок с помощью Python 3.X
Для каждой выборки выполним следующую последовательность действий:
В командной строке запустим скрипт calculate sample params.py и получим некоторые параметры выборки, которые запишем в виде таблицы.
Исключим промахи по правилу 3-х сигм.
Построим гистограммы с помощью скрипта plot histogram.py и по их виду определим к какому распределению относится данная выборка с большей вероятностью.
Проверим гипотезу о нормальности распределения (критерий 2). Для этого запустим скрипт practical chi2 calculate.py с параметрами нужного распределения и выборкой и получим практическое значение 2.
Запустим скрипт table values of chi2.py с указанием числа степеней свободы (k) и уровнями значимости верхней (q) и нижней значений (1-q) теоретического 2.
Сравним теоретическое значение 2теор с практическим 2 и сделаем выводы относительно гипотезы о том, что выборка подчиняется нормальному закону распределения.
Определим среднее квадратическое отклонение результата измерения. Рассчитаем доверительные границы интервала случайной составляющей погрешности измерения без учета знака. Значение квантили Стьюдента рассчитаем при помощи скрипта table values of two-tailed student distribution.py с указанием параметров (доверительную вероятность примаем равной 95%, Two-tailed, df определяем размером выборки)
Для выборки №1:
Таблица 1. Выборка №1
-
Среднее арифметическое выборки (Mean)
-8.224835
Минимальное значение в выборке (Minimum value)
-8.22541
Максимальное значение в выборке (Maximum value)
-8.224404
Среднеквадратическое отклонение (Standard deviation)
2.269948
10-4
Число элементов в выборке (Number of elements)
3178
Медианное значение (Median)
-8.22479
Среднеквадратическое отклонение среднего арифметического (Standard deviation of the mean)
4.026605 10-6
Дисперсия (Variance)
5.152665 10-8
Правило трех сигм основанно на условном предположении, что все наблюдения выборки укладываются в интервал . Результаты наблюдений, которые выходят за пределы интервала , считаются промахами и из выборки исключаются.
Интервал 3σ min -8.2255159844
Интервал 3σ max -8.2241540156
Рисунок 5. Гистограмма для выборки №1 (Распределение Каши)
2 = 1551.6501
2теор
= 35.5999, при q=0.05
и 𝑘=𝐿−3
(где 𝐿=54 (число
интервалов), L =
– критерий Хайнхольда и Гаеде)
2теор = 68.6693, при 1-q=0.95 и 𝑘=𝐿−3 (где 𝐿=54)
Так как 2теор ≤ 2 ≤ 2теор, где q=0.05 и 1-q=0.95 соответственно, то делаем вывод о том, что значение не попадает в интервал, поэтому мы отвергаем гипотезу о том, что распределение нормальное. Значит, точно функцию распределения установить не удается.
Тогда в качестве числовой характеристики типа распределения экспериментальных данных принимаем значение , вычисляемое по формуле:
2.21557745124239
Т.к.
,
тогда X =
X = -8.224835
Среднее квадратическое отклонение результата измерения:
Доверительная граница интервала, рассчитанная с помощью квантиля Стьюдента по формуле:
,
где - оценка среднего квадратичного отклонения результата измерения, - коэффициент Стьюдента для доверительной вероятности (95%) и числа n результатов наблюдений.
Среднее квадратическое отклонение 4.026604384050084 10-6
Коэффициент Стьюдента 0.06271173353740618
Доверительные границы 2.525153411931 10-7
Определили количество цифр, заслуживающих
доверия по формуле
,
где
- максимальная степень числа 10 при
разложении значения математического
ожидания в многочлен, а
- степень 10 при представлении доверительного
интервала в экспоненциальной форме. По
нашим данным
,
следовательно,
.
А = 2,5251534 +-0.0000000
Для выборки №2:
Таблица 2. Выборка №2
-
Среднее арифметическое выборки (Mean)
-9.452186
Минимальное значение в выборке (Minimum value)
-9.452556
Максимальное значение в выборке (Maximum value)
-9.451947
Среднеквадратическое отклонение (Standard deviation)
1.202055 10-4
Число элементов в выборке (Number of elements)
2270
Медианное значение (Median)
-9.452157
Среднеквадратическое отклонение среднего арифметического (Standard deviation of the mean)
2.522966 10-6
Дисперсия (Variance)
1.444936 10-8
Правило трех сигм основанно на условном предположении, что все наблюдения выборки укладываются в интервал . Результаты наблюдений, которые выходят за пределы интервала , считаются промахами и из выборки исключаются.
Интервал 3σ min -9.4525466165
Интервал 3σ max -9.4518253835
Рисунок 6. Гистограмма для выборки №2 (Распределение Каши)
2 = 690.9809
2теор = 28.1440, при q=0.05 и 𝑘=𝐿−3 (где 𝐿=45)
2теор = 58.1240, при 1-q=0.95 и 𝑘=𝐿−3 (где 𝐿=45)
Так как 2теор ≤ 2 ≤ 2теор, где q=0.05 и 1-q=0.95 соответственно, то делаем вывод о том, что значение не попадает в интервал, поэтому мы отвергаем гипотезу о том, что распределение нормальное. Значит, точно функцию распределения установить не удается.
Тогда в качестве числовой характеристики типа распределения экспериментальных данных принимаем значение , вычисляемое по формуле:
2.9326503223374085
Т.к. , тогда X =
X = -9.452186
Среднее квадратическое отклонение результата измерения:
Доверительная граница интервала, рассчитанная с помощью квантиля Стьюдента по формуле:
,
где - оценка среднего квадратичного отклонения результата измерения, - коэффициент Стьюдента для доверительной вероятности (95%) и числа n результатов наблюдений.
Среднее квадратическое отклонение 2.5229660740253362 10-6
Коэффициент Стьюдента 0.06271371763418658
Доверительные границы 1.5822458196705722 10-7
Определили количество цифр, заслуживающих доверия по формуле , где - максимальная степень числа 10 при разложении значения математического ожидания в многочлен, а - степень 10 при представлении доверительного интервала в экспоненциальной форме. По нашим данным , следовательно, .
А = 1.5822458 +-0.0000000
Для выборки №3:
Таблица 3. Выборка №3
-
Среднее арифметическое выборки (Mean)
5.042971
Минимальное значение в выборке (Minimum value)
4.996648
Максимальное значение в выборке (Maximum value)
5.081947
Среднеквадратическое отклонение (Standard deviation)
0.021053
Число элементов в выборке (Number of elements)
2634
Медианное значение (Median)
5.042074
Среднеквадратическое отклонение среднего арифметического (Standard deviation of the mean)
0.000410
Дисперсия (Variance)
0.000443
Правило трех сигм основанно на условном предположении, что все наблюдения выборки укладываются в интервал . Результаты наблюдений, которые выходят за пределы интервала , считаются промахами и из выборки исключаются.
Интервал 3σ min 4.979812
Интервал 3σ max 5.10613
Рисунок 7. Гистограмма для выборки №3 (Распределение Каши)
2 = 2360.2612
2теор = 31.4389, при q=0.05 и 𝑘=𝐿−3 (где 𝐿=49)
2теор = 62.8296, при 1-q=0.95 и 𝑘=𝐿−3 (где 𝐿=49)
Так как 2теор ≤ 2 ≤ 2теор, где q=0.05 и 1-q=0.95 соответственно, то делаем вывод о том, что значение не попадает в интервал, поэтому мы отвергаем гипотезу о том, что распределение нормальное. Значит, точно функцию распределения установить не удается.
Тогда в качестве числовой характеристики типа распределения экспериментальных данных принимаем значение , вычисляемое по формуле:
2.183751248239864
Т.к. , тогда X =
X = 5.042971
Среднее квадратическое отклонение результата измерения:
Доверительная граница интервала, рассчитанная с помощью квантиля Стьюдента по формуле:
,
где - оценка среднего квадратичного отклонения результата измерения, - коэффициент Стьюдента для доверительной вероятности (95%) и числа n результатов наблюдений.
Среднее квадратическое отклонение 0.4001574875122777 10-3
Коэффициент Стьюдента 0.06271275784338397
Доверительные границы 2.5094979613574416 10-4
Определили количество цифр, заслуживающих доверия по формуле , где - максимальная степень числа 10 при разложении значения математического ожидания в многочлен, а - степень 10 при представлении доверительного интервала в экспоненциальной форме. По нашим данным , следовательно, .
А = 2.5095+-0.0000
Для выборки №4:
Таблица 4. Выборка №4
-
Среднее арифметическое выборки (Mean)
9.317397 10-6
Минимальное значение в выборке (Minimum value)
-2.50765 10-5
Максимальное значение в выборке (Maximum value)
4.800129 10-5
Среднеквадратическое отклонение (Standard deviation)
1.00083 10-5
Число элементов в выборке (Number of elements)
2786
Медианное значение (Median)
9.225323 10-6
Среднеквадратическое отклонение среднего арифметического (Standard deviation of the mean)
1.896137 10-7
Дисперсия (Variance)
1.001661 10-10
Правило трех сигм основанно на условном предположении, что все наблюдения выборки укладываются в интервал . Результаты наблюдений, которые выходят за пределы интервала , считаются промахами и из выборки исключаются.
Интервал 3σ min -0.000020707503
Интервал 3σ max 0.000039342297
Рисунок 8. Гистограмма для выборки №4 (Каши)
2 = 160.7947
2теор = 32.2676, при q=0.05 и 𝑘=𝐿−3 (где 𝐿=50)
2теор = 64.0011, при 1-q=0.95 и 𝑘=𝐿−3 (где 𝐿=50)
Так как 2теор ≤ 2 ≤ 2теор, где q=0.05 и 1-q=0.95 соответственно, то делаем вывод о том, что значение не попадает в интервал, поэтому мы отвергаем гипотезу о том, что распределение нормальное. Значит, точно функцию распределения установить не удается.
Тогда в качестве числовой характеристики типа распределения экспериментальных данных принимаем значение , вычисляемое по формуле:
2.8428144497547
Т.к. , тогда X =
X = 9.317397 10-6
Среднее квадратическое отклонение результата измерения:
Доверительная граница интервала, рассчитанная с помощью квантиля Стьюдента по формуле:
,
где - оценка среднего квадратичного отклонения результата измерения, - коэффициент Стьюдента для доверительной вероятности (95%) и числа n результатов наблюдений.
Среднее квадратическое отклонение 1.902292396460899 10-7
Коэффициент Стьюдента 0.06271246813137542
Доверительные границы 1.192974512896119 10-8
Определили количество цифр, заслуживающих
доверия по формуле
,
где
- максимальная степень числа 10 при
разложении значения математического
ожидания в многочлен, а
- степень 10 при представлении доверительного
интервала в экспоненциальной форме. По
нашим данным
,
следовательно,
.
А = 1.19+-0.00