Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТиМПР Л.2.7.docx
Скачиваний:
2
Добавлен:
21.11.2019
Размер:
91.88 Кб
Скачать

Тема 2: учет неопределенностей в теории принятия решений

Лекция 2.7. СТАТИСТИКА ИНТЕРВАЛЬНЫХ ДАННЫХ В ПР                 

  1. Понятие СИД в ПР

  2. Основные идеи СИД

  3. ИД в задачах оценки характеристик распределений

  4. ИД в задачах проверки гипотез

  5. Регрессионный анализ для ИД

  6. Дискриминантный анализ для ИД

  7. Интервальный кластер-анализ

1. Понятие СИД

 В статистике интервальных данных элементы выборки - не числа, а интервалы. Это приводит к алгоритмам и выводам, принципиально отличающимся от классических.

 Перспективная и быстро развивающаяся область статистических исследований последних лет - математическая статистика интервальных данных. В настоящее время признается необходимым изучение устойчивости (робастности) оценок параметров к малым отклонениям исходных данных и предпосылок модели. Интервальный тип данных и интервальная арифметика реализуются на современных ЭВМ, например, представлением интервала как пары чисел – одного для левого конца интервала, а другого для правого. При этом существующее аппаратное обеспечение, в частности, арифметика чисел с плавающей точкой, используются без каких-либо изменений, так как корректность получающейся интервальной арифметики может быть обеспечена так называемыми направленными округлениями. Например, там, где в задачах внешнего интервального оценивания в процессе вычислений требуется округление результата, нижняя граница интервала должна округляться вниз, а верхняя граница интервала – вверх. Таким образом даже неизбежные ошибки округления при вычислениях с плавающей точкой будут строго и систематически учитываются в процессе выполенния интервальной программы.

 Целесообразно построить новую математико-статистическую модель, согласно которой результаты наблюдений - не числа, а интервалы. Например, если в таблице приведено значение 53,5, то это значит, что реальное значение - какое-то число от 53,0 до 54,0, т.е. какое-то число в интервале [53,5 - 0,5; 53,5 + 0,5], где 0,5 - максимально возможная погрешность. Принимая эту модель, мы попадаем в новую научную область - статистику интервальных данных. Статистика интервальных данных идейно связана с интервальной математикой, в которой в роли чисел выступают интервалы. Это направление математики является дальнейшим развитием всем известных правил приближенных вычислений, посвященных выражению погрешностей суммы, разности, произведения, частного через погрешности тех чисел, над которыми осуществляются перечисленные операции.

 В интервальной математике сумма двух интервальных чисел [a,b] и [c,d] имеет вид [a,b] + [c,d] = [a+c,b+d], а разность определяется по формуле [a,b] - [c,d] = [a-db-c]. Для положительных a, b, cпроизведение определяется формулой [a,b* [c,d] = [acbd], а частное имеет вид [a,b] / [c,d] = [a/d, b/c].

Пусть х лежит в отрезке [a,b], а у – в отрезке [c,d]. Каково минимальное и максимальное значение для х+у? Очевидно,a+c и b+d соответственно. Минимальные и максимальные значения для х-у, ху, х/у задают нижние и верхние границы для интервальных чисел, задающих результаты арифметических операций. А от арифметических операций можно перейти ко всем остальным математическим алгоритмам. Так строится интервальная математика.

Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов. Сформулируем основные идеи асимптотической математической статистики интервальных данных, а затем рассмотрим реализацию этих идей на примерах.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]