- •1. Введение
- •2. Основные этапы статистического анализа данных
- •3. Генеральная совокупность и выборка из нее. Репрезентативность выборки
- •4. Основные способы организации выборки
- •5. Шкалы измерений
- •6. Табулирование данных
- •7. Квантиль
- •8. Графическое представление данных
- •80 Огива всегда
- •9. Меры центральной тенденции
- •10. Меры изменчивости
- •Для получения более точной меры изменчивости, которая
- •Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).
- •11. Нормальное распределение
- •В ысота опред. , площадь под
- •12. Предварительный анализ выборки
- •13. Статистический вывод. Проверка гипотез
- •14. Общая схема проверки статистической гипотезы
- •15. Сравнение средних значений количественных признаков двух независимых выборок
- •16. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок
- •17. Сравнение средних значений ранжированных признаков двух независимых выборок
- •18. Сравнение средних значений ранжированных признаков двух связанных выборок
- •19. Сравнение дисперсий двух независимых выборок
- •20. Сравнение дисперсий двух зависимых (связанных) выборок
- •22. Значимость коэффициента корреляции
- •23. Анализ взаимосвязи ранжированных признаков
- •24. Коэффициент ранговой корреляции кендалла
- •25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
- •26. Бисериальный коэффициент корреляции (бкк)
- •27. Ранговый бисериальный коэффициент корреляции
- •28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
- •29. Однофакторный анализ (офа)
- •30. Однофакторный дисперсионный анализ (ода)
- •31. Двухфакторный анализ
- •32. Двухфакторный дисперсионный анализ (дда)
- •33. Проверка нормальности распределения исходных данных
- •Статистическая обработка исходных данных с помощью Microsoft Excel.
- •Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.К. Требует знания дисперсии гс, что на практике редко встречается.
- •Литература
80 Огива всегда
70 начинается с точки на
60 вертикальной оси.
50
40 %
20 30 40 50 60 70 80 90 100
Сглаженная кривая представляет собой неубывающую функцию. С помощью сглаженной кривой можно находить приближенно процентили. Р35=74.
Может ли такая кривая быть огивой? Нет, т.к.огива – неубывающая функция.
С помощью сглаженной кривой можно судить о наличии малых и больших значений исследуемого показателя.
Мало умных или нет?(IQ)
Мало больших значений
Н ормальная кривая
(на компьютере – нестандартная)
10 80 %
Иногда при построении гистограммы и полигона частот по вертикальной оси откладываются не частоты, которые вычисляются путем деления частоты на количество наблюдений. В этом случае максимальное значение по вертикальной оси не превосходит единицы.
9. Меры центральной тенденции
В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение.
Мода – это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду.
1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды.
4, 2, 6, 7, 5, 10 – не имеет моды.
4, 2, 4, 2, 4, 2, 6, 6, 6 – не имеет моды.
4, 2, 4, 2, 4, 2, - не имеет моды.
4, 4, 4, 4, 4 – мода равняется 4 хmod=4.
2 ситуация. Когда два соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин.
1, 4, 3, 3, 6, 2, 8, 2, 10
1, 2, 2, 3, 3, 4, 6, 8, 10 – упорядоченная выборка.
Хmod= (2+3):2=2,5
1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений – то соседние значения) хmod= (2+5):2=3,5
1, 4, 3, 3, 6, 6, 8, 2, 10 – это не вторая ситуация, а третья. Выборка здесь не упорядочена.
3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной).
Пример: 4, 2, 3, 6, 4, 2
2, 2, 3, 4, 4, 6
4, 2, 3, 6, 4, 2, 6
2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5
2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4
4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6
Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько.
4, 4, 4, 2, 6, 7 – хmod=4
Медиана – это такое значение, которое делит упорядоченную выборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md.
xmed=K0,5(квантиль)=P50(процентиль)=D5(дециль)=Q2(квартиль).
При вычислении медианы возможны две ситуации:
1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в середине упорядоченной выборки.
3, 8, 6, 5, 4
3, 4, 5. 6. 8 – сначала упорядочиваем выборку, Хmed=5.
2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки.
2, 3, 5, 8, 7, 10
2, 3, 5, 7, 8, 10 хmed=(5+7):2=6
хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая –108 и больше.
Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:
Границы интервалов |
Частоты |
Накопленные частоты |
4-6 6-8 8-10 10-12 12-14 |
2 5 4 13 3 |
2 7 11 24 27 |
13+1+13=27 – медианой будет выступать 14-ое значение, Хmed=11.
Среднее значение вычисляется следующим образом: суммируются все элементы выборки и полученная сумма делится на количество элементов в выборке. Обозначается х. хср, х.
x=(x1+x2+…+xn) : n= xi : n
n
xi=x1+x2+...+xn
i=1
48
х6+х7+…+х48= хi
i=6
21
y4+y5+…+y21= yk
k=4
n 2 2 2 2
xi = x1 + x2 +...+ xn
i=1
Если выборка представлена в виде частотного ряда
-
zi
z1
z2
...
zk
ni
n1
n2
...
nk
k k
x=(z1 n1+z2 n2+...+zk nk) : (n1+n2+...+nk)= (zi ni) : ni
i=1 i=1
Пример: вычислить моду, медиану и среднее значение следующей выборки: 7, 3, 3, 6, 4, 5, 1, 2, 1, 3
xmod=3
1, 1, 2, 3, 3, 3, 4, 5, 6, 7
n=10
xmed=(3+3):2=3
x= (7+3+3+6+4+5+1+2+1+3):10=35:10=3,5
Пример: вычислить моду, медиану и среднее значение для выборки, представленной в виде следующего частотного ряда:
zi |
2 |
3 |
4 |
5 |
7 |
10 |
|
ni |
3 |
1 |
2 |
3 |
4 |
2 |
=15 |
xmod=7 (самое большое число во второй строчке)
n=15
xmed=5
x=(2 3+3 1+4 2+5 3+7 4+10 2):15=80:15=5,33
Свойства среднего значения.
1. Если выборка состоит из одного и того же значения, то среднее значение этой выборки будет равно этому значению. 1245, 1245, 1245 х=1245.
2. Если к каждому элементу выборки добавить одну и ту же величину с, то среднее значение новой выборки будет равняться среднему значению старой выборки, измененному на эту величину с. хнов.=хстар.+с. с может быть положительным и отрицательным. 220, 221, 223, 225
0 1 3 5
хнов.=(0+1+3+5):4=9:4=2,25
хнов.=хстар.+с хстар.=хнов.-с=2,25-(-220)=2,25+220=222,25
3. Если каждый элемент выборки умножить на одну и ту же величину с, то среднее значение новой выборки будет равно среднему значению старой выборки, измененному в с раз. 2, 3, 5, 8 с=120
х=(2+3+5+8):4=18:4=4,5
240. 360, 600, 960 хнов.=4,5 120=540
Вычисление мер центральной тенденции можно производить с помощью мастера функций, имеющегося вMicrosoft Excel (fx). Мода выборки вычисляется с помощью функции Мода (исходный диапазон). В качестве аргумента указывается диапазон ячеек, в которых находится исходная выборка. Мода (А1:А38) #Н/Д (моды нет)
|
А |
В |
С |
Д |
1 |
… |
|
… |
|
2 |
… |
|
… |
|
3 |
… |
|
… |
|
… |
… |
|
… |
|
38 |
… |
|
… |
|
К сожалению, в случае нескольких мод у одной выборки в качестве результата выдается только одна из них (не дают информации, что несколько мод).
Для вычисления медианы используется функция Медиана (исходный диапазон) С1:С36. Для вычисления среднего значения используется функция Срзнач (исходный диапазон)
Желательно при обработке исходных данных использовать все 3 меры центральной тенденции. Отметим некоторые особенности рассмотрения мер центральной тенденции.
1. В небольших выборках мода может быть совершенно не стабильной. 1, 1, 1, 3, 5, 7, 7, 8 хmod=1 xmod=7.
2. На медиану не влияют величины самых больших и самых малых значений. 1, 1, 3, 5, 7 хmed=3.
3. На величину среднего значения оказывает влияние каждый элемент выборки, если какой-либо элемент выборки изменится на величину с, то среднее значение изменится в том же направлении, на величину с/n.
4. Некоторые выборки вообще нельзя охарактеризовать с помощью мер центральной тенденции. Особенно это справедливо для выборок, имеющих более, чем 1 моду.
Пусть тест успеваемости, состоящий из 8 различных задач, позволяет разделить исследуемую группу учащихся на тех, кто усвоил определенные понятия и тех, кто не усвоил. Предположим, что усвоившие получают оценки 6,7,8, а не усвоившие 0,1,2. В ходе эксперимента получаемые результаты можно представить в виде следующей гистограммы:
Частоты
15
10
5
Оценка, баллы
1 2 3 4 5 6 7 8
24
В данном примере среднее значение х=3,85, хотя мы видим, что даже не существует ученика, получившего 4. Медиана этой выборки =2,17, хотя имеется достаточно большое количество значений =8. В данном примере ни медиана, ни среднее значение не дают правильного представления об изучаемой выборке. Наиболее простой правильной характеристикой для данной выборки является следующее утверждение: «Гистограмма является бимодальной и имеет V-образную форму. хmod1=0, xmod2=8».
5. Если выборка является унимодальной, т.е. имеет 1 моду и гистограмма такой выборки является симметричной, то в этом случае мода, медиана и среднее значение совпадают.
Наиболее просто из рассмотренных 3 мер центральной тенденции вычисляется мода, ее можно легко вычислить по гистограмме или полигону частот.
С точки зрения трудности вычисления медиана занимает промежуточное положение между модой и средним значением. Рассмотрим пример, как изменяются меры центральной тенденции, если выборки отличаются хотя бы одним элементом.
1, 3, 3, 5, 6, 7, 8 xmod=3 xmed=5 x=(1+3+3+5+6+7+8):7=33/7
1, 3, 3, 5, 6, 7, 16 xmod=3 xmed=2 x=(1+3+3+5+6+7+16):7=41/7
Мода и медиана являются более устойчивыми характеристиками, чем среднее значение. В общем случае нельзя однозначно сказать, какая из мер центральной тенденции больше, а какая меньше, т.е. имеется в виду если изображать на числовой оси, могут оказаться различные варианты.