Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дьячков.doc
Скачиваний:
17
Добавлен:
21.09.2019
Размер:
618.5 Кб
Скачать

80 Огива всегда

70 начинается с точки на

60 вертикальной оси.

50

40 %

  1. 20 30 40 50 60 70 80 90 100

Сглаженная кривая представляет собой неубывающую функцию. С помощью сглаженной кривой можно находить приближенно процентили. Р35=74.

Может ли такая кривая быть огивой? Нет, т.к.огива – неубывающая функция.

С помощью сглаженной кривой можно судить о наличии малых и больших значений исследуемого показателя.

Мало умных или нет?(IQ)

Мало больших значений

Н ормальная кривая

(на компьютере – нестандартная)

10 80 %

Иногда при построении гистограммы и полигона частот по вертикальной оси откладываются не частоты, которые вычисляются путем деления частоты на количество наблюдений. В этом случае максимальное значение по вертикальной оси не превосходит единицы.

9. Меры центральной тенденции

В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение.

Мода – это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду.

1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды.

4, 2, 6, 7, 5, 10 – не имеет моды.

4, 2, 4, 2, 4, 2, 6, 6, 6 – не имеет моды.

4, 2, 4, 2, 4, 2, - не имеет моды.

4, 4, 4, 4, 4 – мода равняется 4 хmod=4.

2 ситуация. Когда два соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин.

1, 4, 3, 3, 6, 2, 8, 2, 10

1, 2, 2, 3, 3, 4, 6, 8, 10 – упорядоченная выборка.

Хmod= (2+3):2=2,5

1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений – то соседние значения) хmod= (2+5):2=3,5

1, 4, 3, 3, 6, 6, 8, 2, 10 – это не вторая ситуация, а третья. Выборка здесь не упорядочена.

3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной).

Пример: 4, 2, 3, 6, 4, 2

2, 2, 3, 4, 4, 6

4, 2, 3, 6, 4, 2, 6

2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5

2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4

4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6

Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько.

4, 4, 4, 2, 6, 7 – хmod=4

Медиана – это такое значение, которое делит упорядоченную выборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md.

xmed=K0,5(квантиль)=P50(процентиль)=D5(дециль)=Q2(квартиль).

При вычислении медианы возможны две ситуации:

1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в середине упорядоченной выборки.

3, 8, 6, 5, 4

3, 4, 5. 6. 8 – сначала упорядочиваем выборку, Хmed=5.

2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки.

2, 3, 5, 8, 7, 10

2, 3, 5, 7, 8, 10 хmed=(5+7):2=6

хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая –108 и больше.

Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:

Границы интервалов

Частоты

Накопленные частоты

4-6

6-8

8-10

10-12

12-14

2

5

4

13

3

2

7

11

24

27



13+1+13=27 – медианой будет выступать 14-ое значение, Хmed=11.

Среднее значение вычисляется следующим образом: суммируются все элементы выборки и полученная сумма делится на количество элементов в выборке. Обозначается х. хср, х.

x=(x1+x2+…+xn) : n= xi : n

n

xi=x1+x2+...+xn

i=1

48

х6+х7+…+х48= хi

i=6

21

y4+y5+…+y21= yk

k=4

n 2 2 2 2

xi = x1 + x2 +...+ xn

i=1

Если выборка представлена в виде частотного ряда

zi

z1

z2

...

zk

ni

n1

n2

...

nk

k k

x=(z1 n1+z2 n2+...+zk nk) : (n1+n2+...+nk)= (zi ni) : ni

i=1 i=1

Пример: вычислить моду, медиану и среднее значение следующей выборки: 7, 3, 3, 6, 4, 5, 1, 2, 1, 3

xmod=3

1, 1, 2, 3, 3, 3, 4, 5, 6, 7

n=10

xmed=(3+3):2=3

x= (7+3+3+6+4+5+1+2+1+3):10=35:10=3,5

Пример: вычислить моду, медиану и среднее значение для выборки, представленной в виде следующего частотного ряда:

zi

2

3

4

5

7

10

ni

3

1

2

3

4

2

=15

xmod=7 (самое большое число во второй строчке)

n=15

xmed=5

x=(2 3+3 1+4 2+5 3+7 4+10 2):15=80:15=5,33

Свойства среднего значения.

1. Если выборка состоит из одного и того же значения, то среднее значение этой выборки будет равно этому значению. 1245, 1245, 1245 х=1245.

2. Если к каждому элементу выборки добавить одну и ту же величину с, то среднее значение новой выборки будет равняться среднему значению старой выборки, измененному на эту величину с. хнов.=хстар.+с. с может быть положительным и отрицательным. 220, 221, 223, 225

0 1 3 5

хнов.=(0+1+3+5):4=9:4=2,25

хнов.=хстар.+с хстар.=хнов.-с=2,25-(-220)=2,25+220=222,25

3. Если каждый элемент выборки умножить на одну и ту же величину с, то среднее значение новой выборки будет равно среднему значению старой выборки, измененному в с раз. 2, 3, 5, 8 с=120

х=(2+3+5+8):4=18:4=4,5

240. 360, 600, 960 хнов.=4,5 120=540

Вычисление мер центральной тенденции можно производить с помощью мастера функций, имеющегося вMicrosoft Excel (fx). Мода выборки вычисляется с помощью функции Мода (исходный диапазон). В качестве аргумента указывается диапазон ячеек, в которых находится исходная выборка. Мода (А1:А38) #Н/Д (моды нет)

А

В

С

Д

1

2

3

38

К сожалению, в случае нескольких мод у одной выборки в качестве результата выдается только одна из них (не дают информации, что несколько мод).

Для вычисления медианы используется функция Медиана (исходный диапазон) С1:С36. Для вычисления среднего значения используется функция Срзнач (исходный диапазон)

Желательно при обработке исходных данных использовать все 3 меры центральной тенденции. Отметим некоторые особенности рассмотрения мер центральной тенденции.

1. В небольших выборках мода может быть совершенно не стабильной. 1, 1, 1, 3, 5, 7, 7, 8 хmod=1 xmod=7.

2. На медиану не влияют величины самых больших и самых малых значений. 1, 1, 3, 5, 7 хmed=3.

3. На величину среднего значения оказывает влияние каждый элемент выборки, если какой-либо элемент выборки изменится на величину с, то среднее значение изменится в том же направлении, на величину с/n.

4. Некоторые выборки вообще нельзя охарактеризовать с помощью мер центральной тенденции. Особенно это справедливо для выборок, имеющих более, чем 1 моду.

Пусть тест успеваемости, состоящий из 8 различных задач, позволяет разделить исследуемую группу учащихся на тех, кто усвоил определенные понятия и тех, кто не усвоил. Предположим, что усвоившие получают оценки 6,7,8, а не усвоившие 0,1,2. В ходе эксперимента получаемые результаты можно представить в виде следующей гистограммы:

Частоты

15

10

5

Оценка, баллы

  1. 1 2 3 4 5 6 7 8

    1. 24

В данном примере среднее значение х=3,85, хотя мы видим, что даже не существует ученика, получившего 4. Медиана этой выборки =2,17, хотя имеется достаточно большое количество значений =8. В данном примере ни медиана, ни среднее значение не дают правильного представления об изучаемой выборке. Наиболее простой правильной характеристикой для данной выборки является следующее утверждение: «Гистограмма является бимодальной и имеет V-образную форму. хmod1=0, xmod2=8».

5. Если выборка является унимодальной, т.е. имеет 1 моду и гистограмма такой выборки является симметричной, то в этом случае мода, медиана и среднее значение совпадают.

Наиболее просто из рассмотренных 3 мер центральной тенденции вычисляется мода, ее можно легко вычислить по гистограмме или полигону частот.

С точки зрения трудности вычисления медиана занимает промежуточное положение между модой и средним значением. Рассмотрим пример, как изменяются меры центральной тенденции, если выборки отличаются хотя бы одним элементом.

1, 3, 3, 5, 6, 7, 8 xmod=3 xmed=5 x=(1+3+3+5+6+7+8):7=33/7

1, 3, 3, 5, 6, 7, 16 xmod=3 xmed=2 x=(1+3+3+5+6+7+16):7=41/7

Мода и медиана являются более устойчивыми характеристиками, чем среднее значение. В общем случае нельзя однозначно сказать, какая из мер центральной тенденции больше, а какая меньше, т.е. имеется в виду если изображать на числовой оси, могут оказаться различные варианты.