- •1. Введение
- •2. Основные этапы статистического анализа данных
- •3. Генеральная совокупность и выборка из нее. Репрезентативность выборки
- •4. Основные способы организации выборки
- •5. Шкалы измерений
- •6. Табулирование данных
- •7. Квантиль
- •8. Графическое представление данных
- •80 Огива всегда
- •9. Меры центральной тенденции
- •10. Меры изменчивости
- •Для получения более точной меры изменчивости, которая
- •Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).
- •11. Нормальное распределение
- •В ысота опред. , площадь под
- •12. Предварительный анализ выборки
- •13. Статистический вывод. Проверка гипотез
- •14. Общая схема проверки статистической гипотезы
- •15. Сравнение средних значений количественных признаков двух независимых выборок
- •16. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок
- •17. Сравнение средних значений ранжированных признаков двух независимых выборок
- •18. Сравнение средних значений ранжированных признаков двух связанных выборок
- •19. Сравнение дисперсий двух независимых выборок
- •20. Сравнение дисперсий двух зависимых (связанных) выборок
- •22. Значимость коэффициента корреляции
- •23. Анализ взаимосвязи ранжированных признаков
- •24. Коэффициент ранговой корреляции кендалла
- •25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
- •26. Бисериальный коэффициент корреляции (бкк)
- •27. Ранговый бисериальный коэффициент корреляции
- •28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
- •29. Однофакторный анализ (офа)
- •30. Однофакторный дисперсионный анализ (ода)
- •31. Двухфакторный анализ
- •32. Двухфакторный дисперсионный анализ (дда)
- •33. Проверка нормальности распределения исходных данных
- •Статистическая обработка исходных данных с помощью Microsoft Excel.
- •Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.К. Требует знания дисперсии гс, что на практике редко встречается.
- •Литература
6. Табулирование данных
Для анализа и интерпретации исходных количественных данных их необходимо обобщить. Чаще всего 1 этапом представления исходных данных является упорядочивание их по величине (по возрастанию или по убыванию). Если исходная выборка упорядочена по возрастанию, т.е. сначала расположено наблюдение, наименьшее по величине, затем 2 по величине и т.д., то такая выборка называется вариационным рядом и обозначается следующим образом: х(1), х(2), …, х(n) - упорядочены, х(1) < х(2) < … < х(n) (некоторые элементы 84, 84, 106, 106 могут совпадать); х1, х2 - не упорядочены, в произвольном порядке.
Когда исходная выборка имеет достаточно большой объем, то используют табулирование данных – т.е. представляют исходную выборку в виде таблицы соответствующего вида. Табулирование обычно осуществляется в 4 этапа:
1 этап – определение размаха выборки. Для этого из максимального элемента выборки вычитают минимальный.
R= хmax – xmin = x(n) - x(1), где R – размах выборки.
2 этап – определение ширины интервала, группирование данных. Прежде чем искать ширину интервала, необходимо определиться с количеством интервалов в группировании. Очень небольшое количество интервалов может слишком упростить и сгладить общую тенденцию, а слишком большое количество интервалов может привести к излишней детализации рассматриваемого явления. Рекомендация: количество интервалов выбирается таким образом, чтобы в каждый интервал попадало в среднем 5-6 элементов выборки. Для этого объем выборки делим на 5 и на 6, в результате получаем два числа.
k1=n/5, k2 = n/6, где n - объем выборки. После этого в качестве требуемого количества интервала выбирается целое число к, находящееся между k1 и k2 . Пример: n=32, k1=32/5=6,4; k2 =32/6=5,3; отсюда получается в качестве к будет 6 (к=6 или к=5). Тогда ширина интервала группирования получается путем деления размаха выборки на количество интервалов.
h= R/k, где h – ширина.
Т.к. в большинстве случаев наши исходные данные являются целыми числами, то ширину интервала можно также округлить до ближайшего целого числа. h=50/6=8,3=8
3 этап – определение границ интервалов группирования данных. При этом нужно обращать внимание на то, чтобы левая граница первого интервала не оказалась справа от наименьшего значения на числовой оси.
( * * * * * * * )
xmin xmax
( )( )( )( )( )( )( )
х min=42, левая граница не может быть 44, а может 40, т.е. левая граница первого интервала не может быть больше наименьшего значения. Каждая последующая граница получается путем прибавления ширины интервала к предыдущей границе.
h=8, x min =42. Левая граница 40; 40 – 48; 48 – 56.
4 этап – непосредственно само табулирование данных. На этом этапе мы подсчитываем, сколько элементов выборки попало в каждый интервал. Количество наблюдений, попавших в интервал, называется частотой. Результатом табулирования данных является таблица, состоящая из двух столбцов, первый из которых содержит границы интервала, второй – частоты. Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные исходные данные. xmin=44; xmax=112; R=112-44=68; n=38; k1=38/5=7,5; k2=38/6=6,3 ; k=7. Находим ширину:h=R/k; h= 68/7=9,7=10.
Границы интервалов |
Частоты |
40-50 50-60 60-70 70-80 80-90 90-100 100-110 110-120 |
11 2 1111 4 11111 5 11111111 8 1111111 7 1111111 7 1111 4 1 1 |
|
38 |
Перед непосредственным подсчетом частот мы определяем для себя, в какой интервал будем включать значения, попадающие точно на границу интервала (левую и правую). Для контроля правильности вычисления нужно сложить все полученные частоты, если мы все сделали правильно, то сумма частот должна равняться количеству наблюдений в выборке.
Иногда выборка может быть представлена в виде частотного ряда. Частотным рядом называется таблица следующего вида:
zi |
z1 |
z2 |
... |
zk |
ni |
n1 |
n2 |
... |
nk |
z1, z2, …, zn - различные значения элементов исходной выборки.
x1, х2, …, хn
k < n
n1, n2, …,nk – частота встречаемости того или иного различного значения в выборке.
Имеет смысл задача построения частотного ряда, если в исходной выборке встречается много одинаковых значений. Пример: на занятиях по статистике проводится эксперимент по регистрации номера месяца рождения каждого из студентов. Опрос проводится по списку. Представить полученную выборку в виде вариационного и частотного рядов, а также определить размах выборки.
4, 12, 12, 6, 5, 1, 8, 6, 12, 8, 7, 1, 10, 6, 10, 8, 12, 12, 10, 1, 11, 12, 2, 4, 10, 12. n=26;
в виде вариационного ряда (по возрастанию):1, 1, 1, 2, 4, 4, 5, 6, 6, 6, 7, 8, 8, 8, 10, 10, 10, 11, 12, 12, 12, 12, 12, 12, 12.
В виде частотного ряда:
z(i) |
1 |
2 |
4 |
5 |
6 |
7 |
8 |
10 |
11 |
12 |
n(i) |
3 |
1 |
2 |
1 |
3 |
1 |
3 |
4 |
1 |
7 |
n=26 (общее количество) ; к=10.
Для контроля правильности вычислений можно просуммировать частоты n1+n2+…+nk=n
Находим размах выборки: R=12-1=11; max –12; min –1; меньше 11 может быть, 1/2 - 26, 1 – 50.