- •1. Введение
- •2. Основные этапы статистического анализа данных
- •3. Генеральная совокупность и выборка из нее. Репрезентативность выборки
- •4. Основные способы организации выборки
- •5. Шкалы измерений
- •6. Табулирование данных
- •7. Квантиль
- •8. Графическое представление данных
- •80 Огива всегда
- •9. Меры центральной тенденции
- •10. Меры изменчивости
- •Для получения более точной меры изменчивости, которая
- •Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).
- •11. Нормальное распределение
- •В ысота опред. , площадь под
- •12. Предварительный анализ выборки
- •13. Статистический вывод. Проверка гипотез
- •14. Общая схема проверки статистической гипотезы
- •15. Сравнение средних значений количественных признаков двух независимых выборок
- •16. Сравнение средних значений количественных признаков двух зависимых (связанных) выборок
- •17. Сравнение средних значений ранжированных признаков двух независимых выборок
- •18. Сравнение средних значений ранжированных признаков двух связанных выборок
- •19. Сравнение дисперсий двух независимых выборок
- •20. Сравнение дисперсий двух зависимых (связанных) выборок
- •22. Значимость коэффициента корреляции
- •23. Анализ взаимосвязи ранжированных признаков
- •24. Коэффициент ранговой корреляции кендалла
- •25. Анализ взаимосвязи номинальных признаков с помощью корреляционного анализа
- •26. Бисериальный коэффициент корреляции (бкк)
- •27. Ранговый бисериальный коэффициент корреляции
- •28. Анализ взаимосвязей номинальных признаков с помощью таблиц сопряженности
- •29. Однофакторный анализ (офа)
- •30. Однофакторный дисперсионный анализ (ода)
- •31. Двухфакторный анализ
- •32. Двухфакторный дисперсионный анализ (дда)
- •33. Проверка нормальности распределения исходных данных
- •Статистическая обработка исходных данных с помощью Microsoft Excel.
- •Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.К. Требует знания дисперсии гс, что на практике редко встречается.
- •Литература
33. Проверка нормальности распределения исходных данных
2
Для решения такой задачи чаще всего используют -критерий Пирсона. В качестве приближенного метода можно воспользоваться методикой проверки нормальности распределения исходных данных, имеющихся в книге Сидоренко Е.В. (с.230-234).
Статистическая обработка исходных данных с помощью Microsoft Excel.
Эта обработка может проводиться тремя способами:
С помощью статистических функций
С помощью пакета анализа данных (ПАД).
Путем программирования самим пользователем необходимых расчетных формул.
С помощью статистических функций. Описательная статистика с помощью статистических функций для этого используется «мастер функций». Прежде, чем вызвать fx, необходимо выделить ячейку, в которую мы хотим поместить результат работы функций. «Мастер функций» вызывается путем нажатия кнопки fx на панели инструментов «стандартная». В появившемся окне в левой половине выбираем категорию «статистические», тогда в правой половине окна будет расположен список всех статистических функций, имеющихся в Excel в алфавитном порядке. Если мы недавно пользовались какой-либо функцией, то повторно ее можно использовать через категорию «10 недавно пользовавшихся».
Для нахождения среднего значения выборки используется функция СРЗНАЧ. В качестве аргумента этой функции необходимо указать диапазон ячеек, в котором находится исходная выборка.
Для вычисления дисперсии выборки используется функция ДИСП. Для вычисления стандартного отклонения выборки используется функция СТАНДОТКЛОН. Функции МАКС и МИН вычисляют соответственно наибольший и наименьший элементы выборки.
Для нахождения медианы выборки используется функция МЕДИАНА (делит упорядоченную выборку пополам). Для нахождения мода используют МОДА. Если выборка не имеет моды, то функция возвращает значение #Н/Д.
К сожалению, если выборка имеет две моды и больше, то функция мода возвращает только одну моду.
Для вычисления асимметрии выборки используется функция СКОС. Если коэффициент асимметрии больше 0, то распределение (гистограмма) является несимметричным с правой асимметрии, т.е. более широкий диапазон значений расположен справа от моды.
> 0, правая асимметрия
Если асимметрия меньше 0, то распределение (гистограмма) имеет левую асимметрию, т.е. более широкий диапазон значений расположен слева от моды.
Если асимметрия равна 0, то распределение (гистограмма) является симметричным.
Д ля вычисления эксцесса выборки используется функция ЭКСЦЕСС. Если эксцесс > 0, то распределение (гистограмма) является островершинной, если эксцесс < 0, то гистограмма является плосковершинной. Если эксцесс = 0, то это соответствует нормальному распределению.
> 0
= 0
< 0
Функция КВАРТИЛЬ возвращает соответственную квартиль выборки. Эта функция имеет два аргумента: 1 «МАССИВ» - указывается диапазон ячеек, где находится исходная выборка; 2 «ЗНАЧЕНИЕ» - минимальное = 0; первый квартиль = 1; медиана = 2; третий квартиль = 3; максимальное значение = 4 (медиана = 2 квартиль).
Подключение ПАД.
Для запуска пакета анализа данных необходимо выполнить команду «СЕРВИС», если в появившемся подменю имеется строка «АНАЛИЗ ДАННЫХ», то ПАД подключен и мы его запускаем путем нажатия этой строки. Если этой строки нет, то мы выбираем строку надстройки в появившемся окне находим строку «ПАКЕТ АНАЛИЗА» и устанавливаем птичку в квадратике, затем нажимаем ОК и смотрим начало подпункта.
Описательная статистика с помощью ПАД.
Для этого используется раздел «ОПИСАТЕЛЬНАЯ СТАТИСТИКА». В отличие от статистических функций ПАД позволяет вычислять основные статистические характеристики для нескольких выборок одновременно. Для запуска данного раздела осуществляется выбор его в окне пакета, после чего нажимается ОК и указываются в появившемся окне необходимые параметры:
1 параметр - входной интервал – указывается диапазон ячеек, где
находятся все исходные данные.
параметр – группирование – указывается как расположены наши исходные выборки (по столбцам или по строкам).
параметр – метки в первой строке. Если этот параметр включен ( ), то во входном интервале необходимо включать названия переменных, которые задаются в 1 строке. Тогда в таблице результатов будут также приведены названия этих переменных. Если же этот параметр не включен ( ), то во входном интервале мы должны указывать только те ячейки (без заголовка), где находятся числа. Тогда в таблице результатов будут указаны стандартные названия переменных (столбец 1, столбец 2 и т.д.). Лучше включать этот режим ( ).
параметры вывода – таблица результатов может располагаться тремя способами: 1) на том же рабочем листе, что и исходные данные. В этом случае делаем активным параметр выходной интервал. Затем в соседнем прямоугольнике указываем координаты левой верхней ячейки, с которой будет располагаться таблица результатов. (Лучше этим режимом не пользоваться). 2) на новом рабочем листе. Для этого делаем активным «новый рабочий лист» и в соседнем прямоугольнике указываем название этого листа. Если это название не указать, то листу будет присвоено «лист…». Лучше пользоваться этим способом. 3) в новой рабочей книге. Делаем активным параметр «новая рабочая книга» (это второй файл; лучше, когда все хранится в одном файле).
итоговая статистика – данный параметр должен быть включен ( ), если мы хотим увидеть таблицу результатов.
уровень надежности к-ый наименьший
к-ый наибольший позволяют находить соответствующие по порядку элементы выборки. В таблице результатов не путать стандартные ошибки (строка 2) со структурными отклонениями (7). Интервал - это размах выборки, 14 строчка – сумма элементов соответствующей выборки; 15 – количество элементов в соответствующей выборке. Сумма – сумма элементов соответствующей выборки; счет – количество элементов в соответствующей выборке.
Построение гистограммы с помощью ПАД.
«Гистограмма» - анализа данных.
«Входной интервал» - указывается диапазон ячеек, где находится исходная выборка.
«Интервал карманов» - если этот параметр не указывать, то автоматически разобьет диапазон значений элементов выборки на необходимое количество интервалов. Однако эти интервалы могут иметь не целые границы. В таком случае мы можем сами выбрать границы. Интервалов, которые в пакете называются «карманами». Эти границы должны быть набраны на том же рабочем листе, где находятся исходные данные. Обязательно перед вызовом отдела гистограммы.
В качестве кармана принято указывать правую границу интервала. Число карманов как правило меньше на 1, чем количество интервалов. Поэтому при включении параметра «интервал карманов» мы должны указать диапазон ячеек, в которых располагаются карманы. Параметр «метки» и параметр «выводы» аналогичны разделу «описательная статистика» (2 способ).
«Парето» (отсортированная гистограмма). Если данный параметр включен ( ), то столбцы гистограммы выводятся в порядке убывания частот.
«Интегральный процент» - это накопленные частоты в процентах.
«Вывод графика» - этот параметр должен быть включен, если мы желаем увидеть гистограмму.
Вычисление коэффициента корреляции Пирсона.
Его можно вычислить с помощью статистической функции KOPPEL в качестве аргументов массив 1, массив 2, указываются диапазоны ячеек, содержащие первую и вторую исходные выборки, между которыми вычисляется корреляция. Обе выборки должны быть одинакового объема и не должны содержать текстовую информацию. #Н/Д – ошибка.
КК Пирсона можно также вычислить с помощью анализа ПАД, причем пакет позволяет вычислить одновременно несколько КК, для этого необходимо использовать раздел корреляция (ПАД). При этом задаются необходимые параметры:
«вход интервалов», указывается диапазон ячеек, содержащих все исходные данные. Причем в этом диапазоне не должно быть пустых ячеек. Результаты расчета приводятся в таблице «корреляционная матрица» (называется в статистике). Так как она является симметричной, то на экране выводится только ее левая нижняя часть. На главной диагноле всегда будут расположены единички, т.к. это КК каждой переменной с самой собой. (max = 1). Число, стоящее в какой-либо другой ячейке, представляет собой КК Пирсона между переменными, названия которых содержатся в соответствующих строке и столбце.
Проверка значимости КК Пирсона.
К сожалению, в Excel не имеется стандартной процедуры для решения данной задачи. Поэтому необходимые формулы запрограммируем самостоятельно (параграф 22, 3 этап).
2
tнабл = n – 2 rxy : 1 - rxy
Для этого сначала на новом рабочем листе в ячейке А1 введем название (можно русскими буквами) n=, а в ячейке В1 его значение, т.е. количество элементов выборки. После этого в ячейке А2 введем название КК=, а в ячейке В2 вычисленное значение КК (лист 2). В ячейке А3 введем название Тнабл =, а в ячейке В3 вводим формулу для его вычисления
n – 2 корень (B1 – 2)
r xy B2
2
1 – rxy корень (1 – B2 B2)
Для того, чтобы набрать формулу, вводят вначале =
= корень (В1 – 2) В2 / корень (1 – В2 В2)
щелкать по ячейке * в правой части клавиатуры.
В ячейке А4 набираем название АЛЬФА =, а в ячейке В; значение выбранного нами уровня значимости, например, 0,05. В ячейке А5 набираем название Ткр., а в ячейке В5 вычисляем это значение с помощью статистической функции СТЬЮДРАСПОБР. Эта функция имеет два аргумента: 1) вероятность – указывается выбранный уровень значимости, т.е. В4 (ячейка щелкнуть); 2) степени свободы – указывается = n – 2, а в нашем случае В1 – 2. После вычисления Тнабл и tкр делаем вывод о значимости КК по правилу (см. параграф 25, этап 5).
tнабл
зн. незн. зн.
-tкр tкр
незн.
-2,18 0,7 2,18
Пример: проверить значимость КК. С листа 1 запоминаем число, переходим на лист 2 и 10 считается по шаблону.
Вычисления КРК Спиреана.
В Excel не имеется стандартной процедуры для его вычисления, поэтому создадим шаблон для расчета КРК Спирмена.
2 2
rc = 1 – 6 (xi – yi) + Tx + Ty : n (n – 1)
Следовательно, сначала мы должны проранжировать исходные выборки (сервис, анализ данных). Так как раздел «ранг и персентиль» ПАД при ранжировании переставляет исходные данные, то мы им воспользоваться не можем, поэтому ранжирование проводится вручную. Если 300 человек выборки, то сделать «ранг и персентиль» и одинаковые ранги пересчитать и по возрастанию поставить, а не по убыванию (как там стоит).
После ранжирования на новом рабочем листе помещаем ранги первой выборки в столбец А, а ранги второй выборки в столбец В. В столбце С необходимо получить разности этих рангов, поэтому в ячейке С1 введем название разности, а в ячейке С2 вводим формулу = А2 – В2. Теперь тиражируем формулу для остальных ячеек столбца С. Квадрат этих разностей будем получать в столбце Д. Для этого в ячейке Д1 вводим название квадраты, а в ячейке Д2 вводим формулу = С2 С2. Затем тиражируем эту формулу для остальных ячеек столбца Д. Дальнейшие необходимые значения Д. В ячейке Е1 вводим название русскими буквами СУММА =, а в ячейке F1 получаем сумму ячеек столбца Д с помощью f суммирования ( ). В ячейке Е2 вводим обозначение Тх = ; а в ячейке Е3 ту = . В ячейках F2 и F3 вводим значения вычисленных вручную поправок Тх и Ту, если совпадающих значений (рангов) нет, то в качестве поправки выбирается
3
Тх = (аi – ai) : 12
3 3
Tx = ((3 – 3)+(2 – 2)) :12 = 2,5
В ячейке F2 вводим 2,5
3 3
Ту = ((4 – 4)+(3 – 3)) : 12 = 7
В ячейку F4 вводим 7. В ячейку F4 вводим П= , а в ячейку F4 вводим 14. В ячейке Е5 вводим обозначения КРК=, а в ячейке F5 формулу для его вычисления
2 2
rs = 1 – 6 ( (xi – xi) + Tx+Ty) : n (n – 1)
п рограммируем числитель
= 1 – 6 (F1+F2+F3) / (F4 (F4 F4 – 1)) (a/bc = a (b c) = a/b c)
Проверка значимости КРК Спирмена полностью идентична проверке значимости КК Пирсона, поэтому можно воспользоваться шаблоном проверки значимости , созданным нами ранее (лист 2). Вычислить КРК Спирмена между психологами Н и психологами В. (Вставляем столбец. Вставка – столбец). 3 2 3
((3 – 3) + (2 – 2) + (2 – 2)) : 12 = 3 КРК = 0,129371
Проверка статистических гипотез с помощью ПАД.
Для проверки статистических гипотез в ПАД имеется следующий раздел:
Двухвыборочный F-тест для дисперсии.
Парный двухвыборочный t-тест для средних.
Двухвыборочный t-тест с одинаковыми дисперсиями.
Двухвыборочный t-тест с различными значениями.
Двухвыборочный Z-тест для средних.