
- •3.2 Состоятельные и несмещенные оценки
- •3.3 Кластеризация
- •3.4. Сглаживание экспериментальных данных.
- •4.1 Методы отбора экспериментальных данных .
- •4.2 Методы оценки объема данных с целью обеспечения заданных показателей качества
- •4.3 Последовательный анализ Вальда
- •5.1 . Критерии Стьюдента, Фишера
- •Критерий Фостера – Стюарта
- •6.1 Определение доверительных интервалов для генерального среднего
- •6.2 Доверительный интервал для генеральной дисперсии
- •6.3. Критерии проверки гипотез о выборочных дисперсиях
- •7.1 Оценка вероятности события
- •8.1 Критерий согласования
- •9.1 Интерполяция по Лагранжу
- •9.2. Интерполяция по методу Ньютона-Грегори – метод разделенных разностей
- •9.3 Сплайн-интерполяция
- •10.1 Стохастическая зависимость
- •10.2 Корреляционный анализ, коэффициент корреляции
- •11.1 Регрессионный анализ. Регрессионные модели. Метод наименьших квадратов
- •11.2. Полиномы Чебышева
- •12.1 Линейная регрессия
- •12.2 Нелинейная регрессия
- •13. 1 Однофакторный дисперсионный анализ
- •13.2. Двухфакторный дисперсионный анализ
- •13.3 Факторный анализ
- •14.1 Метрики в n-мерном Евклидовом пространстве
- •14.2 Алгоритмы кластеризации
- •15.1 Понятие автоматизированной системы научных исследований
- •15.2 Концепция развития асни
- •15.3 Архитектура асни
Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего профессионального образования
«Новгородский государственный университет им. Ярослава Мудрого»
_____________________________________________________________________
Кафедра информационных технологий и систем.
ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ НА ЭВМ
Дисциплина
Для направления 654600–Информатика и вычислительная техника
по специальности 230.65105- Программное обеспечение вычислительной техники и автоматизированных систем
Лекционный материал
Разработал
Доцент кафедры ИТиС
__________ В.Н.Александров
«____»__________ 2011 г.
Принято на заседании
Кафедры ИТ и С
Заведующий кафедрой
_________ А.Л.Гавриков
«____»__________ 2011г.
|
Содержание
|
Стр. |
|
Лекция 1 |
4 |
1.1 |
Цели и задачи курса |
4 |
1.2 |
Классификация задач обработки |
4 |
|
Лекция 2 |
5 |
2.1 |
Способы представления и модели порождения экспериментальных данных |
5 |
2.2 |
Операторная модель преобразования пространства наблюдений в пространство принятия решений |
5 |
|
Лекция 3 |
6 |
3.1 |
Основные характеристики статистического оценивания |
6 |
3.2 |
Состоятельные и несмещенные оценки |
6 |
3.3 |
Кластеризация |
7 |
3.4 |
Сглаживание экспериментальных данных |
8 |
|
Лекция 4 |
9 |
4.1 |
Методы отбора экспериментальных данных |
9 |
4.2 |
Методы оценки объема данных с целью обеспечения заданных показателей качества |
9 |
4.3 |
Последовательный анализ Вальда |
11 |
|
Лекция 5 |
12 |
5.1 |
Критерии Стьюдента, Фишера |
12 |
5.2 |
Критерий Фостера – Стюарта |
13 |
|
Лекция 6 |
14 |
6.1 |
Определение доверительных интервалов для генерального среднего |
14 |
6.2 |
Доверительный интервал для генеральной дисперсии |
15 |
6.3 |
Критерии проверки гипотез о выборочных дисперсиях |
15 |
|
Лекция 7 |
17 |
7.1 |
Оценка вероятности события |
17 |
|
Лекция 8 |
18 |
8.1 |
Критерий согласования |
18 |
8.2 |
Критерии согласования Колмогорова, Пирсона |
18 |
|
Лекция 9 |
19 |
9.1 |
Интерполяция по Лагранжу |
19 |
9.2 |
Интерполяция по методу Ньютона-Грегори – метод разделенных разностей |
20 |
9.3 |
Сплайн-интерполяция |
21 |
|
Лекция 10 |
22 |
10.1 |
Стохастическая зависимость |
22 |
10.2 |
Корреляционный анализ, коэффициент корреляции |
22 |
|
Лекция 11 |
23 |
11.1 |
Регрессионный анализ. Регрессионные модели. Метод наименьших квадратов |
23 |
11.2 |
Полиномы Чебышева
|
24 |
|
Содержание |
Стр. |
|
Лекция 12 |
25 |
12.1 |
Линейная регрессия |
25 |
12.2 |
Нелинейная регрессия |
27 |
|
Лекция 13 |
27 |
13. 1 |
Однофакторный дисперсионный анализ |
27 |
13.2. |
Двухфакторный дисперсионный анализ |
28 |
13.3 |
Факторный анализ |
30 |
|
Лекция 14 |
30 |
14.1 |
Метрики в n-мерном Евклидовом пространстве |
30 |
14.2 |
Алгоритмы кластеризации |
31 |
|
Лекция 15 |
31 |
15.1 |
Понятие автоматизированной системы научных исследований |
31 |
15.2 |
Концепция развития АСНИ |
32 |
15.3 |
Архитектура АСНИ |
32 |
Лекция 1
Связь дисциплины с другими дисциплинами учебного процесса
Постановка задачи обработки экспериментальных данных.Связь задачи обработки данных и планирование эксперимента. Классификация задач обработки.
Цели и задачи курса
Целью изучения дисциплины является формирование целостного представления по реализации математических методов обработки экспериментальных данных с использованием компьютерных технологий .
Необходимые для достижения поставленной цели задачи состоят в следующем:
- изучить модели и способы (протоколы) представления экспериментальных данных;
- изучить основные этапы обработки экспериментальных данных;
- изучить статистических методы оценивания характеристик;
- изучить методы прогнозирования развития процессов на основе обработки экспериментальных данных
- разработать прикладное программное обеспечение, реализующее основные методы статистической обработки экспериментальных данных;
- разработать графические интерфейсы визуализации экспериментальных данных, протоколов эксперимента и результатов обработки.
1.2 Классификация задач обработки
Обработка экспериментальных данных (ОЭД) связана с реализацией двух основных процедур:
1. Выявление закономерностей в характеристиках случайных величин.
На основании выявленных закономерностей прогнозирование изменений характеристик случайных величин, либо оценка значений этих характеристик
Как правило, экспериментальные данные представляются в виде двумерной таблицы B[N,M], где b[I,J] интерпретируется как значение J-того признака для I-того объекта, либо как значение некоторой характеристики при J-том уровне I-того фактора и при этом таблица носит название “ стимул-реакция”.
Контролируемые факторы являются классифицирующими признаками группировки экспериментальные данные (ЭД) . Совокупности факторов и их уровней при проведении эксперимента составляют план эксперимента.
При ОЭД возникают следующие задачи:
Обработка при известной модели ЭД – известны аналитические связи между характеристиками случайной величины в виде уравнений, систем уравнений или систем неравенств (при наличии ограничений); т.е. модель известна полностью. Задачи подобного типа в основном связаны с большим объемом вычислений и выбором численных методов решения обеспечивающих минимизацию ошибок округления.
Модель определена с точностью до характеристик случайной величины. Требуется определить/найти аналитические зависимости между характеристиками случайной величины - задача регрессионного анализа.
Задача ОЭД в модели «чёрный ящик» - не выявлены аналитические зависимости между случайными величинами, не выявлены значимые характеристики случайной величины. Фактически известной является только таблица “стимул-реакция”. В решении задачи активно используется математический аппарат проверки статистических гипотез.
Лекция 2
Способы представления и модели порождения экспериментальных данных.
Операторская модель преобразования пространства наблюдений в пространство принятия решений. Принятие решений на основе проверки статистических гипотез. Ошибки 1-го и 2-го рода.
2.1 Способы представления и модели порождения экспериментальных данных.
В прикладных статистических методах обработки ЭД можно выделить два подхода к исходным данным – детерминированный и модельно-вероятностный. В первом из них данные рассматриваются сами по себе без воздействия неконтролируемых факторов. При детерминированном подходе невозможно также оценить погрешность рассчитанных характеристик. Наиболее общим подходом в является модельно-вероятностный подход, согласно которому основой алгоритмов расчетов является вероятностная модель порождения данных. При этом конкретные данные рассматриваются как реализации случайных величин, векторов, более общо – элементов, т.е как значения задающих их функций, определенных на вероятностном пространстве, в конкретной точке (элементарном событии ω) . Наиболее распространенная вероятностная модель порождения данных – это модель случайной выборки. Согласно этой модели данные x1, x2, … , xn рассматриваются как реализации независимых одинаково распределенных случайных элементов (величин, векторов, множеств и других объектов нечисловой природы) X1 = X1(ω), X2 = X2(ω), … , Xn = Xn(ω), т.е. x1= X1(ω0), x2 = X2(ω0), … , xn = Xn(ω0) при некотором ω0 из пространства элементарных событий Ω. Модель выборки обычно используется для описания результатов независимых наблюдений, измерений, анализов. опытов. При модельно-вероятностном подходе каждый элемент выборки представляет собой аддитивную смесь параметра , характеризующего наблюдаемый объект/процесс и неконтролируемого фактора :
,
где
-элемент
вектора наблюдений,
-порождающий
параметр объекта/процесса ,
-
неконтролируемое воздействие.
В некоторых случаях используют более специальные модели порождения данных. Например, при проведении испытаний на надежность используют план испытаний, согласно которому испытания прекращаются через время Т. Это значит, что фиксируются только моменты отказа изделий, которые произошли до момента Т. Пусть x1, x2, … , xn – наработки на отказ n изделий. Статистику доступны только значения y1, y2, … , yn, где yj = xj при xj < T и yj = T при xj > T. Такая выборка, в которой часть описывающих реальное явление случайных величин заменена на граничное значение, называется цензурированной. Иногда используются и более сложные модели порождения данных.
Операторная модель преобразования пространства наблюдений в пространство принятия решений.
Процесс ОЭД может быть представлен тройкой ( рисунок 2.1):
ПН
– пространство наблюдений
T1
T2
T3
T={T1,T2,T3} – процесс ОЭД
Рис.2.1 Операторская модель ОЭД.
T1 обеспечивает преобразование ПН в пространство ЭД (примеры: дискретизация по времени, квантование по уровню). T2 обеспечивает редукцию ЭД в пространство обработки или значимых характеристик (пример: преобразование Фурье). T3 – оператор реализации тестового алгоритма путем проверки статистической гипотезы.
Проверка статистических гипотез основана на фундаментальном представлении о том, что похожие воздействия (на систему/объект/явление/процесс и т.д.) вызывают похожую ответную реакцию. Статистическую гипотезу можно представить четверкой: h=(W,O,Pr,T), где W – множество объектов/явлений/процессов, которые подлежат обработке; O – инструментальная среда или средства, обеспечивающие получение ЭД; Pr – протокол записи ЭД; T – тестовый алгоритм проверки гипотез в выбранном протоколе записи (двумерное пространство-принятие или отклонение гипотезы).
Проверка статистической гипотезы связана с возникновением двух ошибок: ошибки I и II рода. Ошибка первого рода – вероятность события, состоящего в том, что верная гипотеза оказалась отверженной (пример: пропуск цели). Ошибка второго рода – вероятность события, состоящего в принятии неправильной гипотезы (пример: ложная цель).
Лекция 3
Основные характеристики статистического оценивания. Состоятельные и несмещенные оценки. Кластеризация данных. Снижение размерности. Сглаживание экспериментальных данных.
Основные характеристики статистического оценивания.
Полагаем что задана случайная величина x с соответствующим дискретным распределением x={x1,x2,…xN). Мы можем поставить ей в соответствие некоторый вектор p={p1,p2,…,pN} – вектор вероятностей.
- математическое
ожидание
p={k1/N;
k2/N;…KN/N}
– частоты появления,
- дисперсия (момент
второго порядка)
-
момент k-того
порядка
Моменты любого порядка являются интегральной характеристикой случайной величины.
Вторая группа характеристик случайной величины, как правило, относится к численным характеристикам функции распределения случайной величины. Важнейшей среди них является квантиль распределения. Квантиль распределения Xp, имеющий функцию распределения F(x) является решением уравнения вида F(Xp)=p. Справедливым для квантиля распределения является следующее уравнение: p(x<=Xp)=p
Третья группа характеристик случайной величины – характеристики выборки:
Амплитуда выборки: ∆x=|xmax-xmin|
Максимальное абсолютное отклонение: ∆xmax=|xmax-
|
Медиана: F(x)=1/2
Мода (максимальная частота появления распределения): Xmod
fmax
3.2 Состоятельные и несмещенные оценки
Одно из самых очевидных
требований к точечной оценке заключается
в том, чтобы можно было ожидать достаточно
хорошего приближения к истинному
значению параметра при достаточно
больших значениях объема выборки. Это
означает, что оценка
должна
сходиться к истинному значению
при
.
Это свойство оценки и называется
состоятельностью.
Поскольку речь идет о случайных величинах,
для которых имеются разные виды
сходимости, то и данное свойство может
быть точно сформулировано по-разному:
- если сходится к истинному значению с вероятностью 1 (почти наверное), то тогда оценка называется сильно состоятельной;
- если имеет место
сходимость по вероятности
,
то тогда оценка называется слабо
состоятельной.
Когда употребляют просто термин состоятельность, то обычно имеется в виду слабая состоятельность, т.е. сходимость по вероятности.
Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.
Оценка параметра называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра:
.
Более слабым условием является асимптотическая несмещенность, которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:
.
Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако могут быть такие статистические задачи, в которых несмещенных оценок не существует.
3.3 Кластеризация
Одним из эффективных способов получения несмещенных оценок является предварительная обработка вектора измерений с целью проведения исследований в классифицированной выборке. Кластерный анализ позволяет:
- провести разбиение выборки на группы схожих объектов , что позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа ;
-провести сжатие данных, оставив в векторе наблюдений наиболее типичные элементы.
Во всех этих случаях может применяться иерархическая кластеризация когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии.
Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому. Визуально таксономия представляется в виде графика, называемого дендрограммой.
3.4. Сглаживание экспериментальных данных.
Для выявления тенденций в динамических рядах экспериментальных данных применяется сглаживание или выравнивание рядов. Распространенными методами сглаживания являются метод простого скользящего среднего и метод внешнего скользящего среднего.
В методике простого
скользящего среднего рассматривается
динамический ряд, состоящий из k
уровней. Для каждого уровня с номером
i
подсчитывается выборочное среднее
значений случайной величины
.
Затем рассматриваются n
последовательных уровней (n<k),
образующих маску, и определяется среднее
значение для маски, т.е. скользящее
среднее:
где n – нечетное целое число;
j = (n-1)/2 - количество элементов в маске по одну строну от середины;
i – порядковый номер среднего элемента группы, образующей маску.
Из элементов , формируется новый сглаженный ряд, в котором будет на 2 j элементов меньше, чем в исходном. Порядковый номер первого элемента в новом ряду будет равен 1+ j,а последнего k-j.
При большом числе уровней расчет скользящего среднего можно упростить, применив рекурсивные формулы:
=
В метод простого
скользящего среднего в формулы
подставляются фактические значения
.
В метод взвешенного скользящего среднего
подставляются
,
умноженные на весовые коэффициенты,
которые зависят от индекса элемента в
маске. Весовые коэффициенты симметричны
относительно середины маски. Смысл
этого приема состоит в том, чтобы
уменьшить влияние элементов, находящихся
сбоку от центра маски в пределах
интервала сглаживания. Это уменьшение
тем сильнее, чем дальше элементы от
центра.
Взвешенное сглаживание
может быть осуществлено с помощью
полиномов вида
,
у которых коэффициенты определяются
из условия, что сумма квадратов отклонений
фактических значений от расчетных
должна быть минимальной. Это достигается
построением системы нормальных уравнений.
Лекция 4
Методы отбора экспериментальных данных . Методы оценки объема данных с целью обеспечения заданных показателей качества. Последовательный анализ Вальда