- •Курсовая работа
- •«Статистические методы контроля и управления качеством»
- •1.Причинно-следственная диаграмма
- •2. Научная организация учебного труда студента
- •3. Гистограммы
- •4. Диаграмма Парето
- •5. Контрольные карты
- •6. Корреляционный анализ статистических данных
- •7. Дисперсионный анализ статистических данных
3. Гистограммы
Для наглядного представления тенденции изменения наблюдаемых значений применяют графическое изображение статистического материала. Наиболее распространенными графиками, к которым прибегают при анализе распределения случайной величины, являются полигон, гистограмма и кумулятивная кривая. Однако когда говорят о втором инструменте контроля качества, то упоминают только гистограмму, как наиболее часто применяемое на практике графическое изображение распределения.
Гистограмма - это инструмент, позволяющий зрительно оценить закон распределения величины разброса данных, а также принять решение о том, на чем следует сфокусировать внимание для целей улучшения процесса.
Гистограмма отображается серией столбиков одинаковой ширины, но разной высоты. Ширина столбика представляет интервал в диапазоне наблюдений, высота — количество наблюдений (измерений), попавших в данный интервал. При нормальном законе распределения данных существует тенденция расположения большинства результатов наблюдений ближе к центру распределения (к центральному значению) с постепенным уменьшением при удалении от центра.[6]
Гистограмма применяется главным образом для анализа значений измеренных параметров, но может использоваться и для расчетных значений. Благодаря простоте и наглядности гистограммы нашли применение в различных областях:
- для анализа сроков получения заказа (за контрольный норматив принимается срок поставки согласно договору);
- для анализа времени реагирования группы обслуживания от момента получения заявки от клиента, времени обработки рекламации от момента ее получения и т.д.;
- для анализа значений показателей качества, таких как размеры, масса, механические характеристики, химический состав, выход продукции и т.д. при контроле готовой продукции, при приемочном контроле, при контроле процесса в самых разных сферах деятельности;
- для анализа чистого времени операций, времени износа режущей поверхности и т.д.;
- для анализа числа бракованных изделий, числа дефектов, числа поломок и т.д.[17]
Распределение единиц совокупности на группы по количественному признаку, по степени возрастания или убывания числового значения признака называется вариационным рядом. Составными элементами каждого вариационного ряда являются два ряда чисел: ряд вариантов и ряд частот или частостей.
Варианты – отдельные числовые значения варьирующего признака.
Частоты – абсолютные числа, показывающие, сколько раз встречается та или иная варианта в данной совокупности. Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями.
Вариационный ряд графически обычно изображается при помощи гистограммы распределения или полигона распределения.[7]
Полигоном частот называется ломаная, состоящая из отрезков прямых, соединяющих последовательно точки (хi, ni) или (хi, wi), i = 1, 2,…, m.
Для иллюстрации рядов распределения используются также кумуляты и огивы. Для построения кумуляты на оси абсцисс отмечаются значения признака (концы интервалов), а на оси ординат – отрезки, длины которых пропорциональны накопленным частотам или частостям. А для построения огивы на оси абсцисс отмечаются частоты или частости, а на оси ординат - значения признака.
Определение числа интервалов на гистограмме часто осуществляют по формуле Старджесса:
,(3.1)
где n – число наблюдений, а величина интервала:
, (3.2)
где (xmax – xmin) – разность между наибольшим и наименьшим значениями признака.
Следующий после группировки этап обработки данных наблюдений представляет собой расчет статистических характеристик:
1)
средняя арифметическая:
, (3.3)
где xi – варианты дискретного ряда или середины интервалов;
2)
медианой (
)
называется серединная варианта
упорядоченного вариационного ряда,
расположенного в возрастающем или
убывающем порядке. Она является
центральным членом и делит вариационный
ряд пополам в тех случаях, если этот ряд
нечетный;
3)
мода (
)
– вариант, которому соответствует
наибольшая частота, т.е. значение во
множестве наблюдений, встречающееся
наиболее часто;[15]
4) вариационный размах – разность между наибольшей и наименьшей вариантой:
(3.4)
5)
дисперсия:
;
(3.5)
6)
среднее квадратическое отклонение:
;
(3.6)
7)
коэффициент вариации:
;
(3.7)
8)
начальный момент k-го
порядка:
;
(3.8)
9)
центральный момент k-го
порядка:
;
(3.9)
10)
асимметрия:
;
(3.10)
11)
эксцесс:
.
(3.11)
В данном задании необходимо представить ряд данных в виде гистограммы, рассчитать статистические показатели распределения случайной величины и проанализировать результаты ТС-2010, русский, нечётные. Сравнить: специальность 210106.
Таблица 3.1 – Исходные данные












Расчётная часть.
1) Рассмотрим ТС-2010, русский, нечётные.
Количество наблюдений n=541, максимальное и минимальное значения:
xmax
=94;
xmin
=36.
Количество интервалов:

Длина
интервалов:
.
Таблица 3.2 – Описательные статистики результатов измерений

В этой таблице:
1 MEAN - выборочное среднее;
2 MEDIAN - медиана выборки. Значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы (если наблюдения отсортированы по возрастанию);
3 SD - среднеквадратическое отклонение;
4 VALID_N - количество наблюдений (оббьем выборки);
5 SUM - сумма всех результатов наблюдений;
6 MIN - минимальное наблюдение в выборке;
7 MAX - максимальное наблюдение в выборке;
8 _25th% - значение, ниже которого располагается 25% выборочных данных (если наблюдения отсортированы по возрастанию);
9 _75th% - значение, ниже которого располагается 75% выборочных данных (если наблюдения отсортированы по возрастанию).
Таблица 3.3− Результаты вычисления описательных статистик
|
Variable |
Descriptive Statistics (Spreadsheet1.sta) | ||||||||
|
Valid N |
Mean |
Median |
Mode |
Frequency of mode |
Sum |
Minimum |
Maximum |
Std.Dev. | |
|
Балл по русскому |
541 |
64,78743
|
65,00000 |
67,00000 |
29 |
35050,00 |
36,00000 |
94,00000 |
8,972856 |
Таблица 3.4− Результаты группировки
|
Category |
Frequency table: Балл по русскому (Spreadsheet2.sta) K-S d=,04359, p> .20; Lilliefors p<,05
| |||||||||
|
Co unt |
Cu mulati ve Co unt |
Percent of Valid |
Cumul % of Valid |
% of all Cases |
Cumul ative % of All |
Expe cted Count |
Cumul ative Expected |
Perc ent Expected |
Cumul ative % Expe cted | |
|
30,00000<x= 40,00000 |
5 |
5 |
0,92421 |
0,9242 |
0,92421 |
0,9242 |
1,5516 |
1,5516 |
0,28681 |
0,28681 |
|
40,00000<x= 50,00000 |
25 |
30 |
4,62107 |
5,5453 |
4,62107 |
5,5453 |
25,3222 |
26,8739 |
4,68063 |
4,96745 |
|
50,00000<x= 60,00000 |
131 |
161 |
24,21442 |
29,7597 |
24,21442 |
29,7597 |
133,7100 |
160,5839 |
24,71534 |
29,68279 |
|
60,00000<x= 70,00000 |
246 |
407 |
45,47135 |
75,2311 |
45,47135 |
75,2311 |
228,5872 |
389,1711 |
42,25271 |
71,93550 |
|
70,00000<x<= 80,00000 |
111 |
518 |
20,51756 |
95,7486 |
20,51756 |
95,7486 |
127,4840 |
516,6551 |
23,56451 |
95,50001 |
|
80,00000<x<= 90,00000 |
21 |
539 |
3,88170 |
99,6303 |
3,88170 |
99,6303 |
23,0043 |
539,6594 |
4,25218 |
99,75219 |
|
90,00000<x<= 100,0000 |
2 |
541 |
0,36969 |
100,0000 |
0,36969 |
100,0000 |
1,3171 |
540,9765 |
0,24346 |
99,99565 |
|
Missing |
0 |
541 |
0,00000 |
|
0,00000 |
100,0000 |
|
|
|
|
В этой таблице:
1 Count - количество значений, попавших в данный интервал;
2 Cumulative Count - количество значений с накоплением;
3 Percent of Valid - процент попавших в интервал значений;
4 Cumul % of Valid - процент попавших в интервал значений с накоплением;
5 % of all Cases - процент значений, попавших в интервал от общего количества;
6 Cumulative % of All - процент значений, попавших в интервал от общего количества с накоплением;
7 Expected Count - ожидаемое количество значений, попавших в интервал;
8 Cumulative Expected - ожидаемое количество значений, попавших в интервал с накоплением;
9 Percent Expected - ожидаемый процент попавших в интервал значений;
10 Cumulative % Expected – ожидаемый процент попавших в интервал значений с накоплением.

Рисунок 3.1- Гистограмма распределения результатов измерений
Из гистограммы видно, что малая часть учащихся -246человек (меньше половины) набрали баллы по ЕГЭ по русскому языку в интервале от 60 до 70, т.е. показали средний уровень подготовки.

Рисунок 3.2 – Кумулята
Вычислим статистические характеристики качества процесса:

Медиана:
=65
Мода
:
=67
Вариационный
размах:

Дисперсия:

С.К.О.:

Коэффициент вариации:

Коэффициент вариации не высок (<50%), следовательно значения признака близки к однородности.
Проверка нормальности распределения
Необходимо провести проверку соответствия распределения результатов измерения контролируемого параметра нормальному закону распределения.
Таблица 3.5 – Результаты аппроксимации распределения
|
Variable: Балл по русскому, Distribution: Normal (Spreadsheet2.sta) Chi-Square = 23,50347, df = 7 (adjusted) , p = 0,00139 | |||||||||
|
|
Observed Frequency |
Cumulative Obse rved |
Perc ent Observed |
Cumul. % Obse rved |
Expected Frequency |
Cumu lative Expected |
Percent Expected |
Cumul. % Expected |
Observed Expected |
|
<= 35,00000 |
0 |
0 |
0,00000 |
0,0000 |
0,2437 |
0,2437 |
0,04505 |
0,0451 |
-0,2437 |
|
40,00000 |
5 |
5 |
0,92421 |
0,9242 |
1,3079 |
1,5516 |
0,24176 |
0,2868 |
3,6921 |
|
45,00000 |
12 |
17 |
2,21811 |
3,1423 |
5,8699 |
7,4215 |
1,08500 |
1,3718 |
6,1301 |
|
50,00000 |
13 |
30 |
2,40296 |
5,5453 |
19,4524 |
26,8739 |
3,59563 |
4,9674 |
-6,4524 |
|
55,00000 |
39 |
69 |
7,20887 |
12,7542 |
47,6134 |
74,4872 |
8,80099 |
13,7684 |
-8,6134 |
|
60,00000 |
92 |
161 |
17,00555 |
29,7597 |
86,0966 |
160,5839 |
15,91435 |
29,6828 |
5,9034 |
|
65,00000 |
121 |
282 |
22,36599 |
52,1257 |
115,0287 |
275,6125 |
21,26223 |
50,9450 |
5,9713 |
|
70,00000 |
125 |
407 |
23,10536 |
75,2311 |
113,5585 |
389,1711 |
20,99048 |
71,9355 |
11,4415 |
|
75,00000 |
82 |
489 |
15,15712 |
90,3882 |
82,8372 |
472,0083 |
15,31187 |
87,2474 |
-0,8372 |
|
80,00000 |
29 |
518 |
5,36044 |
95,7486 |
44,6468 |
516,6551 |
8,25264 |
95,5000 |
-15,6468 |
|
85,00000 |
17 |
535 |
3,14233 |
98,8909 |
17,7766 |
534,4317 |
3,28588 |
98,7859 |
-0,7766 |
|
90,00000 |
4 |
539 |
0,73937 |
99,6303 |
5,2277 |
539,6594 |
0,96630 |
99,7522 |
-1,2277 |
|
95,00000 |
2 |
541 |
0,36969 |
100,0000 |
1,1352 |
540,7945 |
0,20983 |
99,9620 |
0,8648 |
|
< Infinity |
0 |
541 |
0,00000 |
100,0000 |
0,2055 |
541,0000 |
0,03798 |
100,0000 |
-0,2055 |
В этой таблице:
1 Observed Frequency - частота наблюдений, попавших в интервал;
2 Cumulative Frequency - частота наблюдений, попавших в интервал с накоплением;
3 Percent Observed - процент наблюдений, попавших в интервал;
4 Cumul. % Observed - процент наблюдений, попавших в интервал с накоплением;
5 Expected Frequency - предсказанная частота наблюдений, попавших в интервал в соответствии с нормальным законом распределения;
6 Cumulative Expected - предсказанная частота наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;
7 Percent Expected - предсказанный процент наблюдений, попавших в интервал в соответствии с нормальным законом распределения;
8 Cumul. % Expected - предсказанный процент наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;
9 Observed- Expected - разность между частотой наблюдений, попавших в интервал и предсказанной частотой наблюдений, в соответствии с нормальным законом распределения.

Рисунок 3.3 – Графические результаты аппроксимации распределения
2) Рассмотрим специальность 210106, русский.
Таблица 3.6- Исходные данные

Количество наблюдений n=35, максимальное и минимальное значения:
xmax
=76;
xmin
=36.
Количество интервалов:

Длина
интервалов:
.
Таблица 3.7 – Описательные статистики результатов измерений

В этой таблице:
1 MEAN - выборочное среднее;
2 MEDIAN - медиана выборки. Значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы (если наблюдения отсортированы по возрастанию);
3 SD - среднеквадратическое отклонение;
4 VALID_N - количество наблюдений (оббьем выборки);
5 SUM - сумма всех результатов наблюдений;
6 MIN - минимальное наблюдение в выборке;
7 MAX - максимальное наблюдение в выборке;
8 _25th% - значение, ниже которого располагается 25% выборочных данных (если наблюдения отсортированы по возрастанию);
9 _75th% - значение, ниже которого располагается 75% выборочных данных (если наблюдения отсортированы по возрастанию).
Таблица 3.8− Результаты вычисления описательных статистик
|
Descriptive Statistics (Spreadsheet4.sta) | |||||||||
|
|
Valid N |
Mean |
Median |
Mode |
Frequency - of Mode |
Sum |
Minimum |
Maximum |
Std.Dev. |
|
Балл по русскому |
35 |
63,11429 |
64,00000 |
64,00000 |
5 |
2209,000 |
36,00000 |
76,00000 |
7,954915 |
Таблица 3.9− Результаты группировки
|
Frequency table: Балл по русскому (Spreadsheet4.sta) K-S d=,17629, p> .20; Lilliefors p<,01 | ||||||||||
|
Category |
Count |
Cumulative - Count |
Percent - of Valid |
Cumul % - of Valid |
% of all - Cases |
Cumulative % - of All |
Expected - Count |
Cumulative - Expected |
Percent - Expected |
Cumulative % - Expected |
|
30,00000<x<=40,00000 |
1 |
1 |
2,85714 |
2,8571 |
2,85714 |
2,8571 |
0,06413 |
0,06413 |
0,18324 |
0,18324 |
|
40,00000<x<=50,00000 |
1 |
2 |
2,85714 |
5,7143 |
2,85714 |
5,7143 |
1,67247 |
1,73660 |
4,77848 |
4,96172 |
|
50,00000<x<=60,00000 |
7 |
9 |
20,00000 |
25,7143 |
20,00000 |
25,7143 |
10,43349 |
12,17009 |
29,80996 |
34,77168 |
|
60,00000<x<=70,00000 |
22 |
31 |
62,85714 |
88,5714 |
62,85714 |
88,5714 |
16,06242 |
28,23251 |
45,89264 |
80,66431 |
|
70,00000<x<=80,00000 |
4 |
35 |
11,42857 |
100,0000 |
11,42857 |
100,0000 |
6,17632 |
34,40883 |
17,64664 |
98,31095 |
|
Missing |
0 |
35 |
0,00000 |
|
0,00000 |
100,0000 |
|
|
|
|
В этой таблице:
1 Count - количество значений, попавших в данный интервал;
2 Cumulative Count - количество значений с накоплением;
3 Percent of Valid - процент попавших в интервал значений;
4 Cumul % of Valid - процент попавших в интервал значений с накоплением;
5 % of all Cases - процент значений, попавших в интервал от общего количества;
6 Cumulative % of All - процент значений, попавших в интервал от общего количества с накоплением;
7 Expected Count - ожидаемое количество значений, попавших в интервал;
8 Cumulative Expected - ожидаемое количество значений, попавших в интервал с накоплением;
9 Percent Expected - ожидаемый процент попавших в интервал значений;
10 Cumulative % Expected – ожидаемый процент попавших в интервал значений с накоплением.

Рисунок 3.4 - Гистограмма распределения результатов измерений
Из гистограммы видно, что большая часть учащихся -22 человека (больше половины) набрали баллы по ЕГЭ по русскому языку в интервале от 60 до 70, т.е. показали средний уровень подготовки.

Рисунок 3.5 – Кумулята
Вычислим статистические характеристики качества процесса:

Медиана:
=64
Мода
:
=64
Вариационный
размах:

Дисперсия:

С.К.О.:

Коэффициент вариации:

Коэффициент вариации не высок (<50%), следовательно значения признака близки к однородности.
Проверка нормальности распределения
Необходимо провести проверку соответствия распределения результатов измерения контролируемого параметра нормальному закону распределения.
Таблица 3.10 – Результаты аппроксимации распределения
|
Variable: Балл по русскому, Distribution: Normal (Spreadsheet4.sta) Chi-Square = 5,69467, df = 2 (adjusted) , p = 0,05800 | |||||||||
|
Upper Boundary |
Observed - Frequency |
Cumulative - Observed |
Percent - Observed |
Cumul. % - Observed |
Expected - Frequency |
Cumulative - Expected |
Percent - Expected |
Cumul. % - Expected |
Observed- - Expected |
|
<= 35,00000 |
0 |
0 |
0,00000 |
0,0000 |
0,007158 |
0,00716 |
0,02045 |
0,0205 |
-0,00716 |
|
40,00000 |
1 |
1 |
2,85714 |
2,8571 |
0,056976 |
0,06413 |
0,16279 |
0,1832 |
0,94302 |
|
45,00000 |
1 |
2 |
2,85714 |
5,7143 |
0,334501 |
0,39863 |
0,95572 |
1,1390 |
0,66550 |
|
50,00000 |
0 |
2 |
0,00000 |
5,7143 |
1,337968 |
1,73660 |
3,82276 |
4,9617 |
-1,33797 |
|
55,00000 |
1 |
3 |
2,85714 |
8,5714 |
3,648361 |
5,38496 |
10,42389 |
15,3856 |
-2,64836 |
|
60,00000 |
6 |
9 |
17,14286 |
25,7143 |
6,785124 |
12,17009 |
19,38607 |
34,7717 |
-0,78512 |
|
65,00000 |
14 |
23 |
40,00000 |
65,7143 |
8,609100 |
20,77919 |
24,59743 |
59,3691 |
5,39090 |
|
70,00000 |
8 |
31 |
22,85714 |
88,5714 |
7,453322 |
28,23251 |
21,29521 |
80,6643 |
0,54668 |
|
75,00000 |
2 |
33 |
5,71429 |
94,2857 |
4,402532 |
32,63504 |
12,57866 |
93,2430 |
-2,40253 |
|
< Infinity |
2 |
35 |
5,71429 |
100,0000 |
2,364957 |
35,00000 |
6,75702 |
100,0000 |
-0,36496 |
В этой таблице:
1 Observed Frequency - частота наблюдений, попавших в интервал;
2 Cumulative Frequency - частота наблюдений, попавших в интервал с накоплением;
3 Percent Observed - процент наблюдений, попавших в интервал;
4 Cumul. % Observed - процент наблюдений, попавших в интервал с накоплением;
5 Expected Frequency - предсказанная частота наблюдений, попавших в интервал в соответствии с нормальным законом распределения;
6 Cumulative Expected - предсказанная частота наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;
7 Percent Expected - предсказанный процент наблюдений, попавших в интервал в соответствии с нормальным законом распределения;
8 Cumul. % Expected - предсказанный процент наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;
9 Observed- Expected - разность между частотой наблюдений, попавших в интервал и предсказанной частотой наблюдений, в соответствии с нормальным законом распределения.

Рисунок 3.6 – Графические результаты аппроксимации распределения
3) Сравнение и анализ полученных результатов.
По результатам расчета и построенным гистограммам видно, что большинство абитуриентов 2010 года показало средний уровень подготовки, т.е. набрали 60-70 баллов. Из гистограмм видно, что распределение результатов достаточно близко к нормальному.
Таким образом, сравнивая баллы по русскому языку у всего потока ТС-2010 (нечётные номера) и у специальности 210106 можно сказать, что специальность 210106 показала более высокий результат, т.к. больше половины её студентов набрали от 60 до 70 баллов.
