
- •Серия: статистические методы а.И.Орлов
- •Москва 2004
- •Оглавление
- •Предисловие
- •Введение. Нечисловая статистика - основа статистических методов в.1. О развитии статистических методов
- •В.2. Структура нечисловой статистики
- •Литература
- •Глава 1. Нечисловые статистические данные
- •1.1. Количественные и категоризованные данные
- •1.2. Основы теории измерений
- •1.3. Виды нечисловых данных
- •1.4. Вероятностные модели порождения нечисловых данных
- •1.4. Нечеткие множества – частный случай нечисловых данных
- •1.6. Сведение нечетких множеств к случайным
- •1.7. Данные и расстояния в пространствах произвольной природы
- •1.7. Аксиоматическое введение расстояний
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов, рефератов, исследовательских работ
- •Глава 2. Статистические методы в пространствах произвольной природы
- •2.1. Эмпирические и теоретические средние
- •2.2. Законы больших чисел
- •2.3. Экстремальные статистические задачи
- •2.4. Одношаговые оценки
- •2.5. Непараметрические оценки плотности
- •2.6. Статистики интегрального типа
- •2.7. Методы восстановления зависимостей
- •2.8. Методы классификации
- •2.9. Методы шкалирования
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов, рефератов, исследовательских работ
- •Глава 3. Статистика нечисловых данных конкретных видов
- •3.1. Инвариантные алгоритмы и средние величины
- •3.2. Теория случайных толерантностей
- •3.3. Метод проверки гипотез по совокупности малых выборок
- •3.4. Теория люсианов
- •3.5. Метод парных сравнений
- •3.6. Статистика нечетких множеств
- •3.7. Статистика нечисловых данных в экспертных оценках
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов и рефератов
- •Глава 4. Статистика интервальных данных
- •4.1. Основные идеи статистики интервальных данных
- •4.2. Интервальные данные в задачах оценивания
- •4.3. Интервальные данные в задачах проверки гипотез
- •4.4. Линейный регрессионный анализ интервальных данных
- •4.5. Интервальный дискриминантный анализ
- •4.6. Интервальный кластер-анализ
- •4.7. Интервальные данные в инвестиционном менеджменте
- •4.8. Статистика интервальных данных в прикладной статистике
- •Литература
- •Контрольные вопросы и задачи
- •Темы докладов, рефератов, исследовательских работ
- •Теоретическая база нечисловой статистики
- •Литература
- •Об авторе
- •Основные книги проф. А.И.Орлова
2.3. Экстремальные статистические задачи
Если проанализировать приведенные выше в разделах 2.1 и 2.2 постановки и результаты, касающиеся эмпирических и теоретических средних и законов больших чисел, то становится очевидной возможность их обобщения. Так, доказательства теорем практически не меняются, если считать, что функция f(x,y) определена на декартовом произведении бикомпактных пространств X и Y, а не на X2. Тогда можно считать, что элементы выборки лежат в Х, а Y - пространство параметров, подлежащих оценке.
Обобщения законов больших чисел. Пусть, например, выборка х1 = х1(ω), х2 = х2(ω), … , хn = хn(ω) взята из распределения с плотностью p(x,y), где у – неизвестный параметр. Если положить
f(x,y) = - ln p(x,y),
то задача нахождения эмпирического среднего
переходит в задачу оценивания неизвестного параметра y методом максимального правдоподобия
.
Соответственно законы больших чисел переходят в утверждения о состоятельности этих оценок в случае пространств X и Y общего вида. При такой интерпретации функция f(x,y) уже не является расстоянием или показателем различия. Однако для доказательства сходимости оценок к соответствующим значениям параметров это и не требуется. Достаточно непрерывности этой функции на декартовом произведении бикомпактных пространств X и Y.
В случае функции f(x,y) общего вида можно говорить об определении в пространствах произвольной природы аналогов оценок минимального контраста, достаточно хорошо изученных в классической математической статистике, и о состоятельности таких оценок. Пусть при каждом конкретном значении параметра у справедливо предельное соотношение
где f – функция контраста. Тогда состоятельность оценок минимального контраста вытекает из справедливости предельного перехода
.
Частными случаями оценок минимального контраста являются, устойчивые (робастные) оценки Тьюки-Хубера [1, 6-9], а также оценки параметров в задачах аппроксимации (параметрической регрессии) в пространствах произвольной природы (см. ниже раздел 2.7).
Можно пойти и дальше в обобщении законов больших чисел. Пусть известно, что при каждом конкретном y при безграничном росте n имеет быть сходимость по вероятности
fn(,
y)
f(y),
где fn(ω, y) – последовательность случайных функций на пространстве Y, а f(y) – некоторая функция на У. В каких случаях и в каком смысле имеет место сходимость
Argmin
{fn(,
y),
y
X}
Argmin
{f(y),
y
X}?
Другими словами, когда из поточечной сходимости функций вытекает сходимость точек минимума?
Причем здесь можно под n понимать натуральное число. А можно рассматривать сходимость по направленному множеству (см. приложение 1), или же, что практически то же самое – «сходимость по фильтру» в смысле Картана и Бурбаки [3, с.118]. В частности, можно описывать ситуацию вектором, координаты которого - объемы нескольких выборок, и все они безгранично растут. В классической математической статистике такие постановки рассматривать не любят, поскольку без использования понятия направленного множества трудно строго описать подобный предельный переход.
Поскольку, как хорошо известно, основные задачи прикладной статистики можно представить в виде оптимизационных задач, то ответ на поставленный вопрос о сходимости точек минимума дает возможность единообразного подхода к изучению асимптотики решений разнообразных экстремальных статистических задач. Одна из возможных формулировок, основанная на бикомпактности пространств Х и У и нацеленная на изучение оценок минимального контраста, дана и обоснована выше. Другой подход развит в работе [4]. Он основан на использовании понятий асимптотической равномерной разбиваемости и координатной асимптотической равномерной разбиваемости пространств. С помощью указанных подходов удается стандартным образом обосновывать состоятельность оценок характеристик и параметров в основных задачах прикладной статистики.
Рассматриваемую
тематику можно развивать дальше, в
частности, рассматривать аналоги законов
больших чисел в случае пространств, не
являющихся бикомпактными, а также
изучать скорость
сходимости Argmin{fn(x(),
y),
y
X}
к
Argmin{f(y),
y
X}.
Примеры применения результатов о предельном поведении точек минимума приведены ниже. В частности, экстремальный вид имеют параметрические задачи восстановления зависимостей, в том числе задачи оценивание информативных подмножеств признаков (раздел 2.7). Ряд методов классификации основан на решении оптимизационных задач, в частности, так ищут оптимальное разбиение пространства и «центры» кластеров (раздел 2.8). При снижении размерности пространства с целью сжатия информации, в частности, методами главных компонент, метрического и неметрического многомерного шкалирования необходимо решать экстремальные статистические задачи рассмотренного выше вида (раздел 2.9).