
- •Теория к рк2 по оэМу
- •13. Сведение теории нечетких множеств к теории случайных множеств.
- •14. Погрешности измерения и интервальные данные. Операции над интервальными числами.
- •16. Расчет асимптотической нотны, рационального объема выборки и доверительных интервалов при оценивании математического ожидания и дисперсии.
- •22. Метод k-средних и проблема остановки алгоритма. Совместное (последовательное и параллельное) использование различных алгоритмов кластер-анализа.
- •23. Двухкритериальная оптимизационная постановка кластер-анализа на основе внутрикластерного разброса и числа кластеров.
- •24. Кластер-анализ признаков. Измерение расстояния между признаками с помощью линейного коэффициента корреляции Пирсона и непараметрического рангового коэффициента корреляции Спирмена.
16. Расчет асимптотической нотны, рационального объема выборки и доверительных интервалов при оценивании математического ожидания и дисперсии.
Пример 1. Оценивание
математического ожидания. Пусть
необходимо оценить математическое
ожидание случайной величины с помощью
обычной оценки - среднего арифметического
результатов наблюдений:
Тогда
Т.о., нотна полностью известна и не
зависит от многомерной точки, в к-ой
берется. Если каждый результат наблюдения
известен с точностью до
,
то и среднее арифметическое известно
с той же точностью. Ведь возможна
систематическая ошибка - если к каждому
результату наблюдению добавить
,
то и среднее арифметическое увеличится
на
.
Поскольку
то в обозначениях предыдущего пункта
Следовательно, рациональный объем
выборки равен:
Для практического использования
полученной формулы надо оценить дисперсию
результатов наблюдений. Можно доказать,
что, поскольку
мало,
это можно сделать обычным способом,
например, с помощью несмещенной выборочной
оценки дисперсии:
Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных эконометрику. Второй - уровень известных эконометрику величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют использовать s2(y) как оценку D(x1).
Итак, выборочной оценкой рационального
объема выборки -
Уже на этом первом примере видно, что
рациональный объем выборки находится
не где-то вдали, а непосредственно рядом
с теми объемами, с которыми имеет дело
любой практически работающий эконометрик.
Например, если статистик знает, что
то nrat = 36. А
именно такова погрешность контрольных
шаблонов во многих технологических
процессах!
Доверительный интервал для математического
ожидания (для заданной доверительной
вероятности
)
имеет вид:
где
-
квантиль порядка (1+
)/2
стандартного нормального распределения
с математическим ожиданием 0 и дисперсией
1.
Пример 2. Оценивание дисперсии.
Для статистики f(y)
= s2(y),
где s2(y)
- выборочная дисперсия (несмещенная
оценка теоретической дисперсии), имеем:
Можно показать, что нотна Nf(y)
сходится к
по вероятности с точностью до
,
когда n→ ∞. Это же предельное соотношение
верно и для нотны Nf(х),
вычисленной для исходных данных. Т.о.,
в данном случае справедлива формула
с константой C > 0,
Известно, что случайная величина
- асимптотическая нормальная с
мат.ожиданием 0 и дисперсией
Из сказанного вытекает, что в статистике
интервальных данных асимптотический
доверительный интервал для дисперсии
(соответствующий доверительной
вероятности
)
имеет вид:
где
где обозначает тот же самый квантиль стандартного нормального распределения, что и выше в случае оценивания мат.ожидания.
Рациональный объем выборки для
дисперсии:
а выборочную оценку рационального
объема выборки
можно вычислить, заменяя теоретические
моменты на соотв-щие выборочные и
используя доступные эконометрику
результаты наблюдений, содержащие
погрешности.
Что можно сказать о численной величине
рационального объема выборки? Как и в
случае оценивания математического
ожидания, она отнюдь не выходит за
пределы обычно используемых объемов
выборок. Так, если распределение
результатов наблюдений
является нормальным с мат.ожиданием 0
и дисперсией
,
то в результате вычисления моментов
случайных величин в предыдущей формуле
получаем, что
Например,
если
то
Это меньше, чем при оценивании мат.ожидания
в предыдущем примере.
Кластеризация (кластер-анализ)
При кластеризации и группировке целью является выявление и выделение классов. Синонимы: построение классификации, распознавание образов без учителя, автоматическая классификация без учителя, таксономия и др. Задача кластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы "группируются" или распадаются на изолированные "скопления", "кластеры" (от cluster (англ.) - гроздь, скопление). Иными словами, задача - выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель - выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.
Принципиальное различие между кластер-анализом и задачами группировки.
Если классы реальны, естественны, существуют на самом деле, четко отделены друг от друга, то любой алгоритм кластер-анализа их выделит. Следовательно, в качестве критерия естественности классификации следует рассматривать устойчивость относительно выбора алгоритма кластер-анализа.
Агломеративные иерархические алгоритмы ближнего соседа, дальнего соседа и средней связи основаны на использовании некоторой меры близости d(x,y) между объектами x и у.
Алгоритм средней связи: расстояние между объектами рассчитывается как средняя связь (отсюда и название алгоритма), т.е. как среднее арифметическое расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй.
Алгоритм ближайшего соседа: расстоянием между кластерами называется минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй.
Алгоритм дальнего соседа: расстоянием между кластерами называется максимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой - во второй
Общий алгоритм (по шагам)
Каждый объект рассматривается как отдельный кластер.
На каждом следующем шаге объединяются две ближайших кластера.
В конце концов все объекты объединяются вместе, и результат работы алгоритма представляет собой дерево последовательных объединений (в терминах теории графов), или "Дендрограмму".
Из нее можно выделить кластеры разными способами. Один подход - исходя из заданного числа кластеров. Другой - из соображений предметной области. Третий - исходя из устойчивости (если разбиение долго не менялось при возрастании порога объединения - значит оно отражает реальность).