Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дьячков.doc
Скачиваний:
17
Добавлен:
21.09.2019
Размер:
618.5 Кб
Скачать

33. Проверка нормальности распределения исходных данных

2

Для решения такой задачи чаще всего используют -критерий Пирсона. В качестве приближенного метода можно воспользоваться методикой проверки нормальности распределения исходных данных, имеющихся в книге Сидоренко Е.В. (с.230-234).

Статистическая обработка исходных данных с помощью Microsoft Excel.

Эта обработка может проводиться тремя способами:

  1. С помощью статистических функций

  2. С помощью пакета анализа данных (ПАД).

  3. Путем программирования самим пользователем необходимых расчетных формул.

С помощью статистических функций. Описательная статистика с помощью статистических функций для этого используется «мастер функций». Прежде, чем вызвать fx, необходимо выделить ячейку, в которую мы хотим поместить результат работы функций. «Мастер функций» вызывается путем нажатия кнопки fx на панели инструментов «стандартная». В появившемся окне в левой половине выбираем категорию «статистические», тогда в правой половине окна будет расположен список всех статистических функций, имеющихся в Excel в алфавитном порядке. Если мы недавно пользовались какой-либо функцией, то повторно ее можно использовать через категорию «10 недавно пользовавшихся».

Для нахождения среднего значения выборки используется функция СРЗНАЧ. В качестве аргумента этой функции необходимо указать диапазон ячеек, в котором находится исходная выборка.

Для вычисления дисперсии выборки используется функция ДИСП. Для вычисления стандартного отклонения выборки используется функция СТАНДОТКЛОН. Функции МАКС и МИН вычисляют соответственно наибольший и наименьший элементы выборки.

Для нахождения медианы выборки используется функция МЕДИАНА (делит упорядоченную выборку пополам). Для нахождения мода используют МОДА. Если выборка не имеет моды, то функция возвращает значение #Н/Д.

К сожалению, если выборка имеет две моды и больше, то функция мода возвращает только одну моду.

Для вычисления асимметрии выборки используется функция СКОС. Если коэффициент асимметрии больше 0, то распределение (гистограмма) является несимметричным с правой асимметрии, т.е. более широкий диапазон значений расположен справа от моды.

> 0, правая асимметрия

Если асимметрия меньше 0, то распределение (гистограмма) имеет левую асимметрию, т.е. более широкий диапазон значений расположен слева от моды.

Если асимметрия равна 0, то распределение (гистограмма) является симметричным.

Д ля вычисления эксцесса выборки используется функция ЭКСЦЕСС. Если эксцесс > 0, то распределение (гистограмма) является островершинной, если эксцесс < 0, то гистограмма является плосковершинной. Если эксцесс = 0, то это соответствует нормальному распределению.

> 0

= 0

< 0

Функция КВАРТИЛЬ возвращает соответственную квартиль выборки. Эта функция имеет два аргумента: 1 «МАССИВ» - указывается диапазон ячеек, где находится исходная выборка; 2 «ЗНАЧЕНИЕ» - минимальное = 0; первый квартиль = 1; медиана = 2; третий квартиль = 3; максимальное значение = 4 (медиана = 2 квартиль).

Подключение ПАД.

Для запуска пакета анализа данных необходимо выполнить команду «СЕРВИС», если в появившемся подменю имеется строка «АНАЛИЗ ДАННЫХ», то ПАД подключен и мы его запускаем путем нажатия этой строки. Если этой строки нет, то мы выбираем строку надстройки в появившемся окне находим строку «ПАКЕТ АНАЛИЗА» и устанавливаем птичку в квадратике, затем нажимаем ОК и смотрим начало подпункта.

Описательная статистика с помощью ПАД.

Для этого используется раздел «ОПИСАТЕЛЬНАЯ СТАТИСТИКА». В отличие от статистических функций ПАД позволяет вычислять основные статистические характеристики для нескольких выборок одновременно. Для запуска данного раздела осуществляется выбор его в окне пакета, после чего нажимается ОК и указываются в появившемся окне необходимые параметры:

1 параметр - входной интервал – указывается диапазон ячеек, где

находятся все исходные данные.

  1. параметр – группирование – указывается как расположены наши исходные выборки (по столбцам или по строкам).

  2. параметр – метки в первой строке. Если этот параметр включен ( ), то во входном интервале необходимо включать названия переменных, которые задаются в 1 строке. Тогда в таблице результатов будут также приведены названия этих переменных. Если же этот параметр не включен ( ), то во входном интервале мы должны указывать только те ячейки (без заголовка), где находятся числа. Тогда в таблице результатов будут указаны стандартные названия переменных (столбец 1, столбец 2 и т.д.). Лучше включать этот режим ( ).

  3. параметры вывода – таблица результатов может располагаться тремя способами: 1) на том же рабочем листе, что и исходные данные. В этом случае делаем активным параметр выходной интервал. Затем в соседнем прямоугольнике указываем координаты левой верхней ячейки, с которой будет располагаться таблица результатов. (Лучше этим режимом не пользоваться). 2) на новом рабочем листе. Для этого делаем активным «новый рабочий лист» и в соседнем прямоугольнике указываем название этого листа. Если это название не указать, то листу будет присвоено «лист…». Лучше пользоваться этим способом. 3) в новой рабочей книге. Делаем активным параметр «новая рабочая книга» (это второй файл; лучше, когда все хранится в одном файле).

  4. итоговая статистика – данный параметр должен быть включен ( ), если мы хотим увидеть таблицу результатов.

  5. уровень надежности к-ый наименьший

к-ый наибольший позволяют находить соответствующие по порядку элементы выборки. В таблице результатов не путать стандартные ошибки (строка 2) со структурными отклонениями (7). Интервал - это размах выборки, 14 строчка – сумма элементов соответствующей выборки; 15 – количество элементов в соответствующей выборке. Сумма – сумма элементов соответствующей выборки; счет – количество элементов в соответствующей выборке.

Построение гистограммы с помощью ПАД.

«Гистограмма» - анализа данных.

«Входной интервал» - указывается диапазон ячеек, где находится исходная выборка.

«Интервал карманов» - если этот параметр не указывать, то автоматически разобьет диапазон значений элементов выборки на необходимое количество интервалов. Однако эти интервалы могут иметь не целые границы. В таком случае мы можем сами выбрать границы. Интервалов, которые в пакете называются «карманами». Эти границы должны быть набраны на том же рабочем листе, где находятся исходные данные. Обязательно перед вызовом отдела гистограммы.

В качестве кармана принято указывать правую границу интервала. Число карманов как правило меньше на 1, чем количество интервалов. Поэтому при включении параметра «интервал карманов» мы должны указать диапазон ячеек, в которых располагаются карманы. Параметр «метки» и параметр «выводы» аналогичны разделу «описательная статистика» (2 способ).

«Парето» (отсортированная гистограмма). Если данный параметр включен ( ), то столбцы гистограммы выводятся в порядке убывания частот.

«Интегральный процент» - это накопленные частоты в процентах.

«Вывод графика» - этот параметр должен быть включен, если мы желаем увидеть гистограмму.

Вычисление коэффициента корреляции Пирсона.

Его можно вычислить с помощью статистической функции KOPPEL в качестве аргументов массив 1, массив 2, указываются диапазоны ячеек, содержащие первую и вторую исходные выборки, между которыми вычисляется корреляция. Обе выборки должны быть одинакового объема и не должны содержать текстовую информацию. #Н/Д – ошибка.

КК Пирсона можно также вычислить с помощью анализа ПАД, причем пакет позволяет вычислить одновременно несколько КК, для этого необходимо использовать раздел корреляция (ПАД). При этом задаются необходимые параметры:

«вход интервалов», указывается диапазон ячеек, содержащих все исходные данные. Причем в этом диапазоне не должно быть пустых ячеек. Результаты расчета приводятся в таблице «корреляционная матрица» (называется в статистике). Так как она является симметричной, то на экране выводится только ее левая нижняя часть. На главной диагноле всегда будут расположены единички, т.к. это КК каждой переменной с самой собой. (max = 1). Число, стоящее в какой-либо другой ячейке, представляет собой КК Пирсона между переменными, названия которых содержатся в соответствующих строке и столбце.

Проверка значимости КК Пирсона.

К сожалению, в Excel не имеется стандартной процедуры для решения данной задачи. Поэтому необходимые формулы запрограммируем самостоятельно (параграф 22, 3 этап).

2

tнабл = n – 2 rxy : 1 - rxy

Для этого сначала на новом рабочем листе в ячейке А1 введем название (можно русскими буквами) n=, а в ячейке В1 его значение, т.е. количество элементов выборки. После этого в ячейке А2 введем название КК=, а в ячейке В2 вычисленное значение КК (лист 2). В ячейке А3 введем название Тнабл =, а в ячейке В3 вводим формулу для его вычисления

  1. n – 2 корень (B1 – 2)

  2. r xy B2

2

  1. 1 – rxy корень (1 – B2 B2)

Для того, чтобы набрать формулу, вводят вначале =

= корень (В1 – 2) В2 / корень (1 – В2 В2)

щелкать по ячейке * в правой части клавиатуры.

В ячейке А4 набираем название АЛЬФА =, а в ячейке В; значение выбранного нами уровня значимости, например, 0,05. В ячейке А5 набираем название Ткр., а в ячейке В5 вычисляем это значение с помощью статистической функции СТЬЮДРАСПОБР. Эта функция имеет два аргумента: 1) вероятность – указывается выбранный уровень значимости, т.е. В4 (ячейка щелкнуть); 2) степени свободы – указывается = n – 2, а в нашем случае В1 – 2. После вычисления Тнабл и tкр делаем вывод о значимости КК по правилу (см. параграф 25, этап 5).

tнабл

зн. незн. зн.

-tкр tкр

незн.

-2,18 0,7 2,18

Пример: проверить значимость КК. С листа 1 запоминаем число, переходим на лист 2 и 10 считается по шаблону.

Вычисления КРК Спиреана.

В Excel не имеется стандартной процедуры для его вычисления, поэтому создадим шаблон для расчета КРК Спирмена.

2 2

rc = 1 – 6 (xi – yi) + Tx + Ty : n (n – 1)

Следовательно, сначала мы должны проранжировать исходные выборки (сервис, анализ данных). Так как раздел «ранг и персентиль» ПАД при ранжировании переставляет исходные данные, то мы им воспользоваться не можем, поэтому ранжирование проводится вручную. Если 300 человек выборки, то сделать «ранг и персентиль» и одинаковые ранги пересчитать и по возрастанию поставить, а не по убыванию (как там стоит).

После ранжирования на новом рабочем листе помещаем ранги первой выборки в столбец А, а ранги второй выборки в столбец В. В столбце С необходимо получить разности этих рангов, поэтому в ячейке С1 введем название разности, а в ячейке С2 вводим формулу = А2 – В2. Теперь тиражируем формулу для остальных ячеек столбца С. Квадрат этих разностей будем получать в столбце Д. Для этого в ячейке Д1 вводим название квадраты, а в ячейке Д2 вводим формулу = С2 С2. Затем тиражируем эту формулу для остальных ячеек столбца Д. Дальнейшие необходимые значения Д. В ячейке Е1 вводим название русскими буквами СУММА =, а в ячейке F1 получаем сумму ячеек столбца Д с помощью f суммирования ( ). В ячейке Е2 вводим обозначение Тх = ; а в ячейке Е3 ту = . В ячейках F2 и F3 вводим значения вычисленных вручную поправок Тх и Ту, если совпадающих значений (рангов) нет, то в качестве поправки выбирается

3

Тх = (аi – ai) : 12

3 3

Tx = ((3 – 3)+(2 – 2)) :12 = 2,5

В ячейке F2 вводим 2,5

3 3

Ту = ((4 – 4)+(3 – 3)) : 12 = 7

В ячейку F4 вводим 7. В ячейку F4 вводим П= , а в ячейку F4 вводим 14. В ячейке Е5 вводим обозначения КРК=, а в ячейке F5 формулу для его вычисления

2 2

rs = 1 – 6 ( (xi – xi) + Tx+Ty) : n (n – 1)

п рограммируем числитель

= 1 – 6 (F1+F2+F3) / (F4 (F4 F4 – 1)) (a/bc = a (b c) = a/b c)

Проверка значимости КРК Спирмена полностью идентична проверке значимости КК Пирсона, поэтому можно воспользоваться шаблоном проверки значимости , созданным нами ранее (лист 2). Вычислить КРК Спирмена между психологами Н и психологами В. (Вставляем столбец. Вставка – столбец). 3 2 3

((3 – 3) + (2 – 2) + (2 – 2)) : 12 = 3 КРК = 0,129371

Проверка статистических гипотез с помощью ПАД.

Для проверки статистических гипотез в ПАД имеется следующий раздел:

  1. Двухвыборочный F-тест для дисперсии.

  2. Парный двухвыборочный t-тест для средних.

  3. Двухвыборочный t-тест с одинаковыми дисперсиями.

  4. Двухвыборочный t-тест с различными значениями.

  5. Двухвыборочный Z-тест для средних.