Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Pract_Meshalkina_Samsonova

.pdf
Скачиваний:
55
Добавлен:
11.06.2015
Размер:
3.61 Mб
Скачать

Гистограмма - это графическое представление распределения сгруппированной переменной, на котором для каждого класса рисуется столбец. Его высота пропорциональна наблюдаемой частоте для данного класса. Линией показано ожидаемое нормальное распределение, имеющее то же среднее и дисперсию, что и изучаемая переменная.

НОРМАЛЬНЫЙ ВЕРОЯТНОСТНЫЙ ГРАФИК. Для качественной проверки нормальности распределения можно нажать кнопку Диаграммы (Prob. &Scatter plots) и затем Нормальные вероятностные графики (Normal Probability plot):

11

Ниже приведен результат работы модуля Нормальные вероятностные графики (Normal Probability plot):

Нормальный вероятностный график называют еще Графиком на нормальной вероятностной бумаге. Он может быть использован для визуальной оценки близости распределения к нормальному. Нормальный вероятностный график строится следующим образом. Сначала все значения переменной упорядочиваются. Каждому значению присваивается ранг. Берется стандартизованное нормальное распределение. По этому распределению для рангов рассчитываются значения z, которые затем откладываются по оси Y графика. Если наблюдаемые значения (откладываемые по оси X) распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределенными, они будут отклоняться от линии. На этом графике можно легко обнаружить выбросы. В программе Statistica реализованы еще два типа графиков. Полунормальные вероятностные графики используют в анализе только положительную часть нормальной кривой, а нормальные вероятностные графики с исключенным трендом удаляют из данных линейный тренд.

На графике, на предыдущей странице, точки на концах и в центре распределения не лежат на прямой и, следовательно, распределение отличается от нормального распределения.

СОЗДАНИЕ ОТЧЕТА. Скопируйте необходимые результаты из рабочей книги (Workbook) в предварительно открытый файл Excel, где будут храниться результаты первого занятия. Копирование графиков производится стандартным способом: правая кнопка мыши – Копировать график (Copy

12

graf). Переходите в окно программы Excel, правая кнопка Вставить (в файле Excel). Еще лучше вставить график через Специальную вставку и выбрать Метафайл или Рисунок, тогда связи между программой Excel и Statistica сохранены не будут и график будет занимать существенно меньше места. Пользуйтесь последним способом для вставки рисунов в отчет.

Таблицы предпочтительнее копировать через меню Правка (выделить таблицу (Select all) Правка (Edit)- Копировать с заголовками (Copy With Headers) – Вставить (в файле Excel). Для того, чтобы удобно разместить таблицу статистик, ее нужно еще раз скопировать уже в программе Excel и вставить через Специальную вставку, поставив галочку в окошке транспонирование. Отчет отредактировать в соответствии с формой отчета. Показать отчет преподавателю и с его разрешения распечатать. Подписать отчет у преподавателя.

Вопросы к занятию 1

1.Что характеризуют данные? В чем отличие первой переменной от второй переменной?

2.Насколько близки различные характеристики центра распределений для показателей? О чем может свидетельствовать их совпадение? О чем может свидетельствовать их значительное расхождение?

3.Сравните представление Median-Quart-Range (МедианаКвартилиРаз- мах) и Mean/SE/1,96*SE (СреднееСтандартное отклонение – 1,96 * на стандартное отклонение.). Какую информацию можно получить, используя каждое из этих представлений?

4.Какие отличия для исследуемых переменных выявили диаграммы размаха

(Box&Wiskers Plot)?

5.В каких случаях можно использовать "Нормальные вероятностные графики" (Normal probability plot)? Какие из показателей имеют распределения, близкие к нормальному?

6.Что характеризует гистограмма? Что на рисунке гистограммы обозначено тонкой непрерывной линией?

7.Отличаются ли гистограммы для каждого из свойств?

8.Используя данные из таблицы статистических характеристик, покажите, как рассчитывается доверительный интервал для среднего.

13

Занятие 2. Проверка гипотез о типе распределения. Сравнение средних

ЦЕЛЬ занятия – проверить, можно ли каждую из изучаемых переменных аппроксимировать нормальным, логнормальным, равномерным и гамма распределениями. Провести сравнение средних двух участков.

ПРОВЕРКА ТИПА РАСПРЕДЕЛЕНИЯ. Войдите в пакет STATISTICA, загрузите свои данные (см. занятие №1). Щелкните по кнопке Анализ

(Statistics) и выберите Подгонка распределений (Distribution Fitting).

Открывается новое окно, в котором можно выбрать разные Непрерыв-

ные распределения (Continuous Distributions) и Дискретные (Discrete Distributions) распределения. Выберите непрерывные распределения (Continuous Distributions).

Щелкнув по кнопке ОК, переходим к новому окну, где нужно выбрать переменную. Пока она не выбрана, параметры (заставка Параметры (Parameters)) распределения обнулены.

Выбрав переменную и снова щелкнув по кнопке ОК, увидим, что в окошках появились параметры распределения переменной. Они указаны по умолчанию и их можно при желании изменить.

15

Перейдите на вкладку Быстрый (Quick). Здесь можно построить таблицу подгонки распределения с помощью клавиши Наблюдаемые и ожидае-

мые частоты (Summary: Observed and Expected distribution).

Появится результирующая таблица подгонки распределения:

Обратите внимание, что для критерия хи-квадрат и уровня значимости указаны прочерки. В этом случае, измените, например, уменьшите, число классов (заставка Parameters) так, чтобы прочерки заменились цифрами.

ПРЕДУПРЕЖДЕНИЕ!!! В программе STATISTICA буквой p обозначается статистическая значимость (т.е. уровень значимости для проверки нулевой гипотезы).

Как правило, если р≥0,05

=> Но - принимается,

если р<0,05

=> Но - отвергается

однако величину 0,05 можно заменять исходя из целей исследования

Более низкий p-уровень соответствует более высокому уровню доверия к нулевой гипотезе. Если в качестве критического значения вместо 0,05 взять значение 0,01, то надежность результатов возрастает, то есть статистическая

16

значимость (p-уровень) находится в убывающей зависимости от надежности результата.

Щелкнув по вкладке Опции (Options), можно добавить проверку по критерию Колмогорова – Смирнова (К.-С.): для сгруппированных данных (Categorized) и для данных без группировки (Continuous). Если для критерия хи-квадрат указать условие – составные интервалы (Combine Categories), тогда будут объединены классы, у которых ожидаемые частоты менее 5. Можно также выбрать вид графика: Гистограмма, т.е. распределение частот по клас-

сам (Frequency distribution) или кумулятивное распределение (Cumulative distribution). Также можно указать единицы оси ординат: абсолютные/ исходные частоты (Raw frequencies) или относительные частоты (Relative frequencies).

Поставьте опции как на рисунке выше: критерий Колмогорова-

Смирнова – нет, составные интервалы – отмечено, график распределения – гистограмма и график частот – исходные частоты.

17

Если критерий хи-квадрат не будет значимым при любом числе классов, то есть в шапке графика (гистограммы) будут стоять прочерки, – снимите значок с опции Составные интервалы (Combine Categories). Щелкнув по вкладке Быстрый (Quick), можно построить графики распределений. Напомним, что все результаты записываются в рабочую книгу (Workbook).

Постройте одну таблицу подгонки нормального распределения для любой переменной. Для двух переменных постройте гистограммы, на которых указана проверка по критерию хи-квадрат, для Нормального (Normal),

Логнормального (Lognormal), Равномерного (Rectangular) и Гамма

(Gamma) распределений. Оформите страницу отчета.

СРАВНЕНИЕ СРЕДНИХ. Щелкните по кнопке Анализ (Statistics) и

выберите окно Основные статистики и таблицы (Basic Statistics / Tables).

В меню второго уровня выберите пункт t-тест для независимых пере-

менных (t-test for independent variables).

Теоретически, t-критерий может применяться только в том случае, если переменные нормально распределены. Если это условия не выполнено, следу-

18

ет использовать непараметрические альтернативы t-критерия, например, критерий Вилкоксона.

Укажите сравниваемые переменные. Нажмите ОК.

Перейдите на вкладку Опции (Options). Отметьте опции сравнения как сравнение при раздельном расчете дисперсий, т.е. когда дисперсии неоднородны, для этого отметьте галочкой строку t-критерий с разделенными оценками дисперсий (t-test with separate variance estimates).

Равенство дисперсий в двух группах можно проверить с помощью F- критерия, он включен в таблицу вывода t-критерия. В качестве опций возможен расчет t-критерия как с объединением дисперсий (по умолчанию), так и с раздельным их расчетом (t-test with separate variance estimates). Первый из этих случаев возможен, когда дисперсии обеих выборок однородны, а второй

– когда неоднородны. Так же опции позволяют отображать длинные имена переменных, задавать уровень значимости и использовать два критерия до-

19

полнительных критерия для сравнения дисперсий – Левена (Levene’s test) и

Брауна – Форсайта (Brawn & Forsythe test).

Щелкните по вкладке Быстрый (Quick), и проведите расчеты, нажав на клавишу T-критерий (Summary: t-test) . В результате расчетов появится таблица:

На этой таблице указано два варианта расчета числа степеней свободы и уровней значимости для проверки гипотезы о равенстве средних – для случая однородных (t-value, df, p) и неоднородных дисперсий (t sep.-value, df, p 2- sided). В первом случае число степеней свободы равно сумме объемов двух выборок минус два, во втором число степеней свободы будет тем меньше, чем больше отличаются дисперсии. Если гипотеза о равенстве средних отвергается с заданным в опциях уровнем значимости, то цифры в таблице будут показаны красным цветом,. Уровень p-значимости для t-критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в действительности эта гипотеза имеет место.

Скопируйте получившиеся результаты в файл Excel по образцу оформления отчета. На практике часто приходится сравнивать более двух выборок данных (например, например, сравнивать свойства нескольких опытных площадок). В таких случаях следует использовать дисперсионный анализ, который можно рассматривать как обобщение сравнения с помощью t-критерия.

Вопросы к занятию 2

1.Какими распределениями можно (а какими нельзя) аппроксимировать распределения изучаемых показателей? (по своим данным)

2.Какие из показателей имеют распределения, близкие к нормальному? (по данным всей группы).

3.Как влияет выбор уровня значимости на результат принятия или отвержения гипотезы о типе распределения?

4.Как влияет отличие распределений свойств от нормального на результаты сравнения средних?

5.Можно ли считать дисперсии свойств однородными? Как влияет признание дисперсий неоднородными на конечные выводы проверки гипотезы о равенстве средних?

6.Принимается или отвергается гипотеза о равенстве средних для двух участков? Как влияет уровень значимости на результаты проверки гипотезы о равенстве средних?

7.Чему равно число степеней свободы для критерия сравнения средних

при равенстве дисперсий? В случае неравенства дисперсий? 20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]