Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив2 / курсовая docx9 / kursovaya_moya_Vosstanovlen.docx
Скачиваний:
502
Добавлен:
07.08.2013
Размер:
4.67 Mб
Скачать

3. Гистограммы

Для наглядного представления тенденции изменения наблюдаемых значений применяют графическое изображение статистического материала. Наиболее распространенными графиками, к которым прибегают при анализе распределения случайной величины, являются полигон, гистограмма и кумулятивная кривая. Однако когда говорят о втором инструменте контроля качества, то упоминают только гистограмму, как наиболее часто применяемое на практике графическое изображение распределения.

Гистограмма - это инструмент, позволяющий зрительно оценить закон распределения величины разброса данных, а также принять решение о том, на чем следует сфокусировать внимание для целей улучшения процесса.

Гистограмма отображается серией столбиков одинаковой ширины, но разной высоты. Ширина столбика представляет интервал в диапазоне наблюдений, высота — количество наблюдений (измерений), попавших в данный интервал. При нормальном законе распределения данных существует тенденция расположения большинства результатов наблюдений ближе к центру распределения (к центральному значению) с постепенным уменьшением при удалении от центра.[6]

Гистограмма применяется главным образом для анализа значений измеренных параметров, но может использоваться и для расчетных значений. Благодаря простоте и наглядности гистограммы нашли применение в различных областях:

- для анализа сроков получения заказа (за контрольный норматив принимается срок поставки согласно договору);

- для анализа времени реагирования группы обслуживания от момента получения заявки от клиента, времени обработки рекламации от момента ее получения и т.д.;

- для анализа значений показателей качества, таких как размеры, масса, механические характеристики, химический состав, выход продукции и т.д. при контроле готовой продукции, при приемочном контроле, при контроле процесса в самых разных сферах деятельности;

- для анализа чистого времени операций, времени износа режущей поверхности и т.д.;

- для анализа числа бракованных изделий, числа дефектов, числа поломок и т.д.[17]

Распределение единиц совокупности на группы по количественному признаку, по степени возрастания или убывания числового значения признака называется вариационным рядом. Составными элементами каждого вариационного ряда являются два ряда чисел: ряд вариантов и ряд частот или частостей.

Варианты – отдельные числовые значения варьирующего признака.

Частоты – абсолютные числа, показывающие, сколько раз встречается та или иная варианта в данной совокупности. Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями.

Вариационный ряд графически обычно изображается при помощи гистограммы распределения или полигона распределения.[7]

Полигоном частот называется ломаная, состоящая из отрезков прямых, соединяющих последовательно точки (хi, ni) или (хi, wi), i = 1, 2,…, m.

Для иллюстрации рядов распределения используются также кумуляты и огивы. Для построения кумуляты на оси абсцисс отмечаются значения признака (концы интервалов), а на оси ординат – отрезки, длины которых пропорциональны накопленным частотам или частостям. А для построения огивы на оси абсцисс отмечаются частоты или частости, а на оси ординат - значения признака.

Определение числа интервалов на гистограмме часто осуществляют по формуле Старджесса:

,(3.1)

где n – число наблюдений, а величина интервала:

, (3.2)

где (xmax – xmin) – разность между наибольшим и наименьшим значениями признака.

Следующий после группировки этап обработки данных наблюдений представляет собой расчет статистических характеристик:

1) средняя арифметическая: , (3.3)

где xi – варианты дискретного ряда или середины интервалов;

2) медианой () называется серединная варианта упорядоченного вариационного ряда, расположенного в возрастающем или убывающем порядке. Она является центральным членом и делит вариационный ряд пополам в тех случаях, если этот ряд нечетный;

3) мода () – вариант, которому соответствует наибольшая частота, т.е. значение во множестве наблюдений, встречающееся наиболее часто;[15]

4) вариационный размах – разность между наибольшей и наименьшей вариантой:

(3.4)

5) дисперсия: ; (3.5)

6) среднее квадратическое отклонение: ; (3.6)

7) коэффициент вариации: ; (3.7)

8) начальный момент k-го порядка: ; (3.8)

9) центральный момент k-го порядка: ; (3.9)

10) асимметрия: ; (3.10)

11) эксцесс: . (3.11)

В данном задании необходимо представить ряд данных в виде гистограммы, рассчитать статистические показатели распределения случайной величины и проанализировать результаты ТС-2010, русский, нечётные. Сравнить: специальность 210106.

Таблица 3.1 – Исходные данные

Расчётная часть.

1) Рассмотрим ТС-2010, русский, нечётные.

Количество наблюдений n=541, максимальное и минимальное значения:

xmax =94; xmin =36. Количество интервалов:

Длина интервалов: .

Таблица 3.2 – Описательные статистики результатов измерений

В этой таблице:

1 MEAN - выборочное среднее;

2 MEDIAN - медиана выборки. Значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы (если наблюдения отсортированы по возрастанию);

3 SD - среднеквадратическое отклонение;

4 VALID_N - количество наблюдений (оббьем выборки);

5 SUM - сумма всех результатов наблюдений;

6 MIN - минимальное наблюдение в выборке;

7 MAX - максимальное наблюдение в выборке;

8 _25th% - значение, ниже которого располагается 25% выборочных данных (если наблюдения отсортированы по возрастанию);

9 _75th% - значение, ниже которого располагается 75% выборочных данных (если наблюдения отсортированы по возрастанию).

Таблица 3.3− Результаты вычисления описательных статистик

Variable

Descriptive Statistics (Spreadsheet1.sta)

Valid N

Mean

Median

Mode

Frequency

of mode

Sum

Minimum

Maximum

Std.Dev.

Балл по русскому

541

64,78743

65,00000

67,00000

29

35050,00

36,00000

94,00000

8,972856


Таблица 3.4− Результаты группировки

Category

Frequency table: Балл по русскому (Spreadsheet2.sta)

K-S d=,04359, p> .20; Lilliefors p<,05

Co

unt

Cu

mulati

ve

Co

unt

Percent

of Valid

Cumul %

of Valid

% of

all

Cases

Cumul

ative %

of All

Expe

cted

Count

Cumul

ative

Expected

Perc

ent

Expected

Cumul

ative %

Expe

cted

30,00000<x=

40,00000

5

5

0,92421

0,9242

0,92421

0,9242

1,5516

1,5516

0,28681

0,28681

40,00000<x=

50,00000

25

30

4,62107

5,5453

4,62107

5,5453

25,3222

26,8739

4,68063

4,96745

50,00000<x=

60,00000

131

161

24,21442

29,7597

24,21442

29,7597

133,7100

160,5839

24,71534

29,68279

60,00000<x=

70,00000

246

407

45,47135

75,2311

45,47135

75,2311

228,5872

389,1711

42,25271

71,93550

70,00000<x<=

80,00000

111

518

20,51756

95,7486

20,51756

95,7486

127,4840

516,6551

23,56451

95,50001

80,00000<x<=

90,00000

21

539

3,88170

99,6303

3,88170

99,6303

23,0043

539,6594

4,25218

99,75219

90,00000<x<=

100,0000

2

541

0,36969

100,0000

0,36969

100,0000

1,3171

540,9765

0,24346

99,99565

Missing

0

541

0,00000

0,00000

100,0000

В этой таблице:

1 Count - количество значений, попавших в данный интервал;

2 Cumulative Count - количество значений с накоплением;

3 Percent of Valid - процент попавших в интервал значений;

4 Cumul % of Valid - процент попавших в интервал значений с накоплением;

5 % of all Cases - процент значений, попавших в интервал от общего количества;

6 Cumulative % of All - процент значений, попавших в интервал от общего количества с накоплением;

7 Expected Count - ожидаемое количество значений, попавших в интервал;

8 Cumulative Expected - ожидаемое количество значений, попавших в интервал с накоплением;

9 Percent Expected - ожидаемый процент попавших в интервал значений;

10 Cumulative % Expected – ожидаемый процент попавших в интервал значений с накоплением.

Рисунок 3.1- Гистограмма распределения результатов измерений

Из гистограммы видно, что малая часть учащихся -246человек (меньше половины) набрали баллы по ЕГЭ по русскому языку в интервале от 60 до 70, т.е. показали средний уровень подготовки.

Рисунок 3.2 – Кумулята

Вычислим статистические характеристики качества процесса:

Медиана: =65

Мода : =67

Вариационный размах:

Дисперсия:

С.К.О.:

Коэффициент вариации:

Коэффициент вариации не высок (<50%), следовательно значения признака близки к однородности.

Проверка нормальности распределения

Необходимо провести проверку соответствия распределения результатов измерения контролируемого параметра нормальному закону распределения.

Таблица 3.5 – Результаты аппроксимации распределения

Variable: Балл по русскому, Distribution: Normal (Spreadsheet2.sta) Chi-Square = 23,50347, df = 7 (adjusted) , p = 0,00139

Observed Frequency

Cumulative Obse

rved

Perc

ent Observed

Cumul. % Obse

rved

Expected Frequency

Cumu

lative Expected

Percent Expected

Cumul. % Expected

Observed Expected

<= 35,00000

0

0

0,00000

0,0000

0,2437

0,2437

0,04505

0,0451

-0,2437

40,00000

5

5

0,92421

0,9242

1,3079

1,5516

0,24176

0,2868

3,6921

45,00000

12

17

2,21811

3,1423

5,8699

7,4215

1,08500

1,3718

6,1301

50,00000

13

30

2,40296

5,5453

19,4524

26,8739

3,59563

4,9674

-6,4524

55,00000

39

69

7,20887

12,7542

47,6134

74,4872

8,80099

13,7684

-8,6134

60,00000

92

161

17,00555

29,7597

86,0966

160,5839

15,91435

29,6828

5,9034

65,00000

121

282

22,36599

52,1257

115,0287

275,6125

21,26223

50,9450

5,9713

70,00000

125

407

23,10536

75,2311

113,5585

389,1711

20,99048

71,9355

11,4415

75,00000

82

489

15,15712

90,3882

82,8372

472,0083

15,31187

87,2474

-0,8372

80,00000

29

518

5,36044

95,7486

44,6468

516,6551

8,25264

95,5000

-15,6468

85,00000

17

535

3,14233

98,8909

17,7766

534,4317

3,28588

98,7859

-0,7766

90,00000

4

539

0,73937

99,6303

5,2277

539,6594

0,96630

99,7522

-1,2277

95,00000

2

541

0,36969

100,0000

1,1352

540,7945

0,20983

99,9620

0,8648

< Infinity

0

541

0,00000

100,0000

0,2055

541,0000

0,03798

100,0000

-0,2055

В этой таблице:

1 Observed Frequency - частота наблюдений, попавших в интервал;

2 Cumulative Frequency - частота наблюдений, попавших в интервал с накоплением;

3 Percent Observed - процент наблюдений, попавших в интервал;

4 Cumul. % Observed - процент наблюдений, попавших в интервал с накоплением;

5 Expected Frequency - предсказанная частота наблюдений, попавших в интервал в соответствии с нормальным законом распределения;

6 Cumulative Expected - предсказанная частота наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;

7 Percent Expected - предсказанный процент наблюдений, попавших в интервал в соответствии с нормальным законом распределения;

8 Cumul. % Expected - предсказанный процент наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;

9 Observed- Expected - разность между частотой наблюдений, попавших в интервал и предсказанной частотой наблюдений, в соответствии с нормальным законом распределения.

Рисунок 3.3 – Графические результаты аппроксимации распределения

2) Рассмотрим специальность 210106, русский.

Таблица 3.6- Исходные данные

Количество наблюдений n=35, максимальное и минимальное значения:

xmax =76; xmin =36. Количество интервалов:

Длина интервалов: .

Таблица 3.7 – Описательные статистики результатов измерений

В этой таблице:

1 MEAN - выборочное среднее;

2 MEDIAN - медиана выборки. Значение, которое разбивает выборку на две равные части. Половина наблюдений лежит ниже медианы, и половина наблюдений лежит выше медианы (если наблюдения отсортированы по возрастанию);

3 SD - среднеквадратическое отклонение;

4 VALID_N - количество наблюдений (оббьем выборки);

5 SUM - сумма всех результатов наблюдений;

6 MIN - минимальное наблюдение в выборке;

7 MAX - максимальное наблюдение в выборке;

8 _25th% - значение, ниже которого располагается 25% выборочных данных (если наблюдения отсортированы по возрастанию);

9 _75th% - значение, ниже которого располагается 75% выборочных данных (если наблюдения отсортированы по возрастанию).

Таблица 3.8− Результаты вычисления описательных статистик

Descriptive Statistics (Spreadsheet4.sta)

Valid N

Mean

Median

Mode

Frequency - of Mode

Sum

Minimum

Maximum

Std.Dev.

Балл по русскому

35

63,11429

64,00000

64,00000

5

2209,000

36,00000

76,00000

7,954915

Таблица 3.9− Результаты группировки

Frequency table: Балл по русскому (Spreadsheet4.sta) K-S d=,17629, p> .20; Lilliefors p<,01

Category

Count

Cumulative - Count

Percent - of Valid

Cumul % - of Valid

% of all - Cases

Cumulative % - of All

Expected - Count

Cumulative - Expected

Percent - Expected

Cumulative % - Expected

30,00000<x<=40,00000

1

1

2,85714

2,8571

2,85714

2,8571

0,06413

0,06413

0,18324

0,18324

40,00000<x<=50,00000

1

2

2,85714

5,7143

2,85714

5,7143

1,67247

1,73660

4,77848

4,96172

50,00000<x<=60,00000

7

9

20,00000

25,7143

20,00000

25,7143

10,43349

12,17009

29,80996

34,77168

60,00000<x<=70,00000

22

31

62,85714

88,5714

62,85714

88,5714

16,06242

28,23251

45,89264

80,66431

70,00000<x<=80,00000

4

35

11,42857

100,0000

11,42857

100,0000

6,17632

34,40883

17,64664

98,31095

Missing

0

35

0,00000

0,00000

100,0000

В этой таблице:

1 Count - количество значений, попавших в данный интервал;

2 Cumulative Count - количество значений с накоплением;

3 Percent of Valid - процент попавших в интервал значений;

4 Cumul % of Valid - процент попавших в интервал значений с накоплением;

5 % of all Cases - процент значений, попавших в интервал от общего количества;

6 Cumulative % of All - процент значений, попавших в интервал от общего количества с накоплением;

7 Expected Count - ожидаемое количество значений, попавших в интервал;

8 Cumulative Expected - ожидаемое количество значений, попавших в интервал с накоплением;

9 Percent Expected - ожидаемый процент попавших в интервал значений;

10 Cumulative % Expected – ожидаемый процент попавших в интервал значений с накоплением.

Рисунок 3.4 - Гистограмма распределения результатов измерений

Из гистограммы видно, что большая часть учащихся -22 человека (больше половины) набрали баллы по ЕГЭ по русскому языку в интервале от 60 до 70, т.е. показали средний уровень подготовки.

Рисунок 3.5 – Кумулята

Вычислим статистические характеристики качества процесса:

Медиана: =64

Мода : =64

Вариационный размах:

Дисперсия:

С.К.О.:

Коэффициент вариации:

Коэффициент вариации не высок (<50%), следовательно значения признака близки к однородности.

Проверка нормальности распределения

Необходимо провести проверку соответствия распределения результатов измерения контролируемого параметра нормальному закону распределения.

Таблица 3.10 – Результаты аппроксимации распределения

Variable: Балл по русскому, Distribution: Normal (Spreadsheet4.sta) Chi-Square = 5,69467, df = 2 (adjusted) , p = 0,05800

Upper Boundary

Observed - Frequency

Cumulative - Observed

Percent - Observed

Cumul. % - Observed

Expected - Frequency

Cumulative - Expected

Percent - Expected

Cumul. % - Expected

Observed- - Expected

<= 35,00000

0

0

0,00000

0,0000

0,007158

0,00716

0,02045

0,0205

-0,00716

40,00000

1

1

2,85714

2,8571

0,056976

0,06413

0,16279

0,1832

0,94302

45,00000

1

2

2,85714

5,7143

0,334501

0,39863

0,95572

1,1390

0,66550

50,00000

0

2

0,00000

5,7143

1,337968

1,73660

3,82276

4,9617

-1,33797

55,00000

1

3

2,85714

8,5714

3,648361

5,38496

10,42389

15,3856

-2,64836

60,00000

6

9

17,14286

25,7143

6,785124

12,17009

19,38607

34,7717

-0,78512

65,00000

14

23

40,00000

65,7143

8,609100

20,77919

24,59743

59,3691

5,39090

70,00000

8

31

22,85714

88,5714

7,453322

28,23251

21,29521

80,6643

0,54668

75,00000

2

33

5,71429

94,2857

4,402532

32,63504

12,57866

93,2430

-2,40253

< Infinity

2

35

5,71429

100,0000

2,364957

35,00000

6,75702

100,0000

-0,36496

В этой таблице:

1 Observed Frequency - частота наблюдений, попавших в интервал;

2 Cumulative Frequency - частота наблюдений, попавших в интервал с накоплением;

3 Percent Observed - процент наблюдений, попавших в интервал;

4 Cumul. % Observed - процент наблюдений, попавших в интервал с накоплением;

5 Expected Frequency - предсказанная частота наблюдений, попавших в интервал в соответствии с нормальным законом распределения;

6 Cumulative Expected - предсказанная частота наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;

7 Percent Expected - предсказанный процент наблюдений, попавших в интервал в соответствии с нормальным законом распределения;

8 Cumul. % Expected - предсказанный процент наблюдений, попавших в интервал с накоплением, в соответствии с нормальным законом распределения;

9 Observed- Expected - разность между частотой наблюдений, попавших в интервал и предсказанной частотой наблюдений, в соответствии с нормальным законом распределения.

Рисунок 3.6 – Графические результаты аппроксимации распределения

3) Сравнение и анализ полученных результатов.

По результатам расчета и построенным гистограммам видно, что большинство абитуриентов 2010 года показало средний уровень подготовки, т.е. набрали 60-70 баллов. Из гистограмм видно, что распределение результатов достаточно близко к нормальному.

Таким образом, сравнивая баллы по русскому языку у всего потока ТС-2010 (нечётные номера) и у специальности 210106 можно сказать, что специальность 210106 показала более высокий результат, т.к. больше половины её студентов набрали от 60 до 70 баллов.