
- •Задание №2 Статическая обработка результатов эмпирического эксперимента (проверка статгипотез).
- •Задание №3
- •Приложение Вариант 1
- •Вариант 3
- •Вариант 5
- •Вариант 6
- •Вариант 7
- •Вариант 8
- •Вариант 9
- •Вариант 10
- •Вариант 11
- •Вариант 13
- •Вариант 14
- •Вариант 16
- •Вариант 18
- •Вариант 20
- •Вариант 21
- •Вариант 22
- •Вариант 23
- •Вариант 24
- •Независимая переменная x2
КРАТКИЕ ТЕОРИТИЧЕСКИЕ СВЕДЕНИЯ
Статистической называют гипотезу о виде неизвестного распределения вероятностей или о параметрах известных распределений. Проверка степени соответствия реализаций случайных величин соответствующим законам распределения осуществляется с помощью критериев согласия. Критерии согласия позволяют оценить вероятность того события, что полученная выборка не противоречит сделанному предложению о виде закона распределения случайной величины. Для этого выбирается некоторая величина Х, являющаяся мерой расхождения статического и теоретического законов распределения. Определяется такое её значение Х, чтобы выполнялось следующее равенство:
P ( X Хq ) = .
где - достаточно малая величина (уровень значимости), значение которой устанавливается в соответствии с существом задачи.
Если значение меры расхождения Хq, полученное из эксперимента, больше Х, то отклонение от теоретического распределения считается значимым и гипотеза отвергается. Если же Хq Х, то отклонение считается незначимым, т.е. данные эксперимента не противоречат сделанному предположению о виде закона распределения.
Проверку гипотезы с помощью критерия согласия можно вести в другой последовательности по значению Хq определяется такая вероятность q, для которой выполнено следующее соотношение
q = P ( X Хq ).
Тогда, если выполнено неравенство q< , то гипотеза отвергается, в противном случае, при q>, принимается.
Не исключено, что при использовании критериев согласия будет отвергнуто правильное предположение о законе распределения. Такая ошибка называется ошибкой первого
рода. Возможно также, что неправильное предположение будет принято. Это соответствует ошибке второго рода.
В практических приложениях метода машинного моделирования часто встречаются проблемы исследования некоторой случайной величены Y, зависящей от некоторого множества неслучайных переменных х1, х2, …. хn. При проведении экспериментов значения Хi (поочерёдно или одновременно) могут быть произвольно выбраны экспериментатором. В этом случае величины Хi играют роль переменных параметров, входящих в распределение величины Y, а математической моделью является функция отклика, связывающая параметр, характеризующий результат эксперимента, с переменными (факторами), которые экспериментатор варьирует при проведении опытов:
Y = f ( X1 ), 1 = 1, 2, …, n
При проведении регрессивного анализа необходимо соблюдение следующих условий:
результаты эксперимента представляют собой независимые нормально распределенные случайные величины; независимые переменные х1, х2, …. хn изменяются с пренебрежимо малой ошибкой по сравнению с ошибками определения Y; при проведении эксперимента с объемом выборки n при условии, что каждый опыт повторяется m раз, выборочные дисперсии должны быть однородны.
Обработка экспериментальных данных производится по программе полного корреляционного анализа, в результате которого между зависимой переменной и каждым фактором вычисляется коэффициент парной корреляции и корреляционное отношение.
Если в результате обработки исходных данных оказывается, что связь между зависимой переменной и отдельными факторами Xi линейная, то уравнение множественной регрессии тоже будет линейным:
2
Y = 0 + 1X1 + 2X2 + … + nXn.
Коэффициенты этого уравнения определяются непосредственно из исходных экспериментальных данных по программе расчета уравнения множественной регрессии.
Если связь между зависимой переменной и отдельными факторами нелинейная, а эмпирическая линия регрессии достаточно точно характеризует функцию нелинейности (при сравнении с различными кривыми: параболой, экспонентой и т.п.), то уравнение регрессии ищется в виде
Y = 0 + 1f1(X1) + 2f2(X2) + … + nfn(Xn),
где f1 … fn – функции, выражающие аналитическую зависимость между факторами Xi и переменной Y. Расчёт коэффициентов такого уравнения производится после приведения его к линейному виду путем функционального преобразования исходных данных.
Пусть, например, исходное уравнение имеет следующий вид: Y = 0 + 1X1 + 2lg(X2).
Тогда после замены х2 = lg(х2) получаем следующее соотношение:
Y = 0 + 1X1 + 2X2,
т.е. приходим к линейному уравнению множественной регрессии. Приведённый процесс называется линеаризацией.
В результате обработки экспериментальных данных
может оказаться, что связь между Y и Xi выражено не чётко (линейная или нелинейная ), или связь явно нелинейная, но вид функции или суперпозиции функции трудно определить. В этом случае уточнение вида связи или функции производится на основе графического метода последовательных приближений, в соответствии с которыми первоночально игнорируются все факторы, за исключением одного, по которому ведётся уточнение вида связи или функции, и расчитываются кривые частоты регрессии Y*= f (Xi). Затем по виду этих кривых определяется функция связи зависимой переменной Y с каждым фактором и составляется общее
3
уравнение регрессии.
ЗАДАНИЕ №1
Исследование основных разделов программной системы STATGRAPH. Анализ статических свойств распределений случайных величин
1. Запустить файл sgrafexe.exe
2. Найти раздел основного меню “Data management and system utilites”(“Управление данными и системные утилиты”).
3. Выбрать в данном разделе “Data management” (“Управление данными ”).
4.Выбрать в подменю пункта “ Data management ” пункт “File operation” (“Операции с файлам”). Данный пункт служит для различных действий с файлами данных (создание, удаление, дополнение, редактирование и т. д.).
5. Создать собственный файл данных, с которыми далее будут выполнены исследовательские операции. Для этого необходимо выполнить следующие действия:
5.1. записать в поле ввода STATGRAPHICS file name именем собственного файла;
5.2. заполнить поле ввода Desired operation (желаемая операция) буквой “C”, соответствующей операции редактирования файла Edit;
5.3. нажать функциональную клавишу <F6>, служащей
для продолжения работы;
5.4. ввести поле ввода Name имя переменной, которое будет обозначать первый ряд данных (имя переменной необходимо, так как один файл может содержать несколько радов данных);
4
5.5. нажать функциональную клавишу <F6>;
5.6. нажать клавишу <Esc>.
5.7. ввести данные первого ряда в поле ввода данных (в каждой строке размещается одно число, варианты заданий даны в приложении);
5.8. нажать клавишу <F6>;
5.9. выбрать команду Save without Exit (Сохранить без выхода);
5.10. нажать функциональную клавишу <F5>;
5.11. выбрать команду add additional column (добавить дополнительный столбец);
5.12. ввести в поле ввода Name имя переменной, которое будет обозначать второй ряд данных;
5.13. ввести данные второго ряда в поле ввода данных;
5.14. нажать клавишу <F6>;
5.15 выбрать команду Save and Exit (сохранить и выйти).
5.16. нажать клавишу <Esc> несколько раз для того, чтобы выйти в основное меню.
6. Определить основные характеристики для сформирования последовательностей случайных величин. Для этого необходимо:
6.1. войти в раздел основного меню Description Methods (Описательные методы;
6.2. выбрать подраздел Summary Statistics (Свободная статистика)
6.3 нажать функциональную клавишу <F7> и выбрать сохраненный ранее в файле первый ряд данных;
6.4. нажать клавишу <F6>;
6.5. зафиксировать в конспекте вычисленные значения
основных характеристик первой последовательности: среднее (Average), медиана (Median), мода (Mode), дисперсия (Variance), стандартное отклонение (Standart deviation), максимум (Maximum), разность между максимальным и минимальным значениями ряда (Range);
5
6.6. нажать клавишу <Esc> для выхода в раздел Summary Statistics;
6.7. повторить пункты 6.3.-6.6. для второго ряда данных;
6.8. выйти в основное меню с помощью клавиши <Esc>/
7. Построить гистограммы частот разделения для каждой из последовательностей для следующих значений количества классов ранжирования (величина, определяющая шаг ранжирования): 10,20,30,40. Для этого необходимо:
7.1. войти в раздел основного меню Descriptive Methods (Описательные методы)
7.2. выбрать подраздел Frequency Histogram;
7.3 с помощью клавиши <F7> задать исследуемый ряд данных (первый ряд);
7.4. нажать клавишу <F7>;
7.5 задать количество классов ранжирования в поле ввода No. Of classes;
7.6. нажать клавишу <F6>;
7.7. перенести гистограмму в конспект и провести качественный анализ соответствия теоретическому закону распределения, а также проанализировать зависимоть структуры гистограммы от шага ранжирования;
7.8. нажать клавишу <Esc> для возврата в раздел Tadulation Input Panel;
7.9. повторить пункты 7.5-7.9 для второго ряда данных.
8.Построить эмпирические функции распределения для каждого из рядов. Данное задание выполняется в соответствии с пунктами раздела 7 путем изменения поля ввода Cumulative
на значение Yes.
6
Задание №2 Статическая обработка результатов эмпирического эксперимента (проверка статгипотез).
Исследование программных генераторов случайных последовательностей с заданным законом распределения.
1.Сформировать файл, содержащий экспериментальные последовательности (2 ряда в соответствии с вариантами).
2. Определить значения основных параметров распределения для первого ряда: математическое ожидание (среднее - average), дисперсию (variance), стандартное отклонение (standard deviation), минимум, максимум.
Построить частотную гистограмму для первого ряда. Провести качественный анализ и сформировать гипотезу о теоретическом законе распределения.
Проверить гипотезу, используя критерий Пирсона (- квадрат).
Для этого необходимо:
Войти в раздел «Distribution function» («Функция распределения»);
Войти в подраздел «Distribution Fitting» («Соответствие
распределению»);
Выбрать первый ряд данных с помощью клавиши <F7>;
Выбрать теоретический закон распределения (в соответствии с гипотизой), на соответствие которому будет проверятся ряд данных; закон выбирается путем указания соответствующего числа в поле ввода «Distribution Number» («Номер распределения»);нажать клавишу <F6>;нажать клавишу <F5> и выбрать пункт меню «Chi-square test» («Ntcn - квадрат»);нажать клавишу <F6>;зафиксировать в конспекте
7
значения критерия Пирсона (Chisquare) и уровня соответствия
(Sig. level);сделать вывод относительно соответствия первого ряда данных закону распределения; вывод о соответствии может быть сделан при превышении показателя уровня соответствия значения 0,5.
Проверить антигипотезу, используя критерий Пирсона. Для этого необходимо выполнить пункт 4, используя в качестве закона распределения, на соответствие которому проверяется ряд данных, любой альтернативный закон распределения.
Выполнить пункты 2-5 для второго ряда данных.
Сделать вывод о соответствии первого и второго ряда данных законам распределения.
Используя рассчитанные в пункте 2 числовые характеристики последовательностей в качестве значений параметров теоретических законов распределения.
Сгенерировать экспериментальные последовательности;
войти в раздел «Distribution function» («Функция распределения»);
войти в подраздел «Random number generation» («Генерация случайных чисел»);
выбрать закон распределения для генерации с помощью соответствующего заполнения поля ввода Distribution number;
нажать клавишу <F6>;
заполнить поля ввода параметров распределения значениями, полученными в пункте 2;
8
9.6 нажать клавишу <F6>;
9.7 ввести в соответствующих полях ввода имя файла и переменной для сохранения сгенерированного ряда данных;
нажать клавишу <F6>;
нажать клавишу <Esc> для выхода в основное меню;
выполнить пункты 7.3-7.9 для второго ряда данных.
Построить частотные характеристики сгенерированных последовательностей и сделать качественный вывод о соответствии задонному при генерации закону распределения. Для этого необходимо воспользоваться разделом «Frequency Histogram».
Исследовать качество сгенерированных последовательностей, сравнив параметры распределения сгенерированных последовательностей с заданными при генерации. Для этого необхлдимо воспользоваться разделом «Summary statistics»/
12.Сделать выводы о качестве функционирования генератора случайных чисел.