Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
33
Добавлен:
25.04.2015
Размер:
168.36 Кб
Скачать

Лекция № 6. Статистическое моделирование

Содержание.

1.Понятие о статистическом моделировании.

2.Возражения против математических моделей.

3.Наиболее распространённые типы математических моделей, используемых в прикладной статистике.

а) Модели законов распределения вероятностей случайных величин. б) Линейные вероятностные модели.

в) Обобщение линейных моделей. г) Геометрические модели.

д) Модели марковского типа.

4.Выводы.

1. Понятие о статистическом моделировании.

Исследовать вероятностную модель можно двумя способами: математическим – опираясь на арсенал средств и методов, накопленных в теории вероятностей и математической статистике, и путем непосредственного воспроизведения с помощью ЭВМ ее функционирования.

Последний способ называют статистическим моделированием.

Некоторые исследователи этот термин понимают шире, включая в него дополнительно сведение решения традиционных задач вычислительной математики к решению путем моделирования на ЭВМ подходящих вероятностных моделей.

Статистическое моделирование является мощным инструментом работы с вероятностными моделями на всех этапах исследования.

Так, например, в теории массового обслуживания это основной метод решения сложных систем.

В классической статистике – один из способов изучения устойчивости оценок к отклонениям от базовых предположений,

используемый как самостоятельно, так и как дополнительный прием к асимптотическим аналитическим методам.

При планировании исследований статистическое моделирование в случае относительно сложной модели изучаемого явления может помочь найти объемы основной и контрольной выборок.

Оно широко используется также при изучении пределов допустимых отклонений предположений, используемых при построении модели, от реальности.

Возможности в изучении вероятностных моделей, открываемые методом статистического моделирования, настолько велики, что сегодня уже приходится обосновывать необходимость традиционного аналитического подхода к построению моделей и изучению их свойств.

2.Возражения против математических моделей

Внастоящее время математические модели получили всеобщее признание

вестествознании, технике и ряде других областей знаний.

Однако от некоторых представителей, например, таких областей, как медицина, социальные и экономические науки, до сих пор иногда можно услышать, что изучаемые ими явления слишком сложны для адекватного отражения их математическими средствами.

Не отрицая определенной специфичности и сложности явлений, изучаемых в этих областях, следует твердо сказать, что продуктивной

альтернативы использованию языка математических моделей и связанному с ними определенному упрощению и схематизации действительности нет.

При этом основной лимитирующий фактор не ограниченность возможностей современного математического аппарата, а возможности человеческого разума в изучении сложных ситуаций.

Действительно, не стоит строить слишком сложные математические модели, следствия из которых мы просто не в состоянии охватить и осмыслить.

Один из методических приемов, позволяющий обойти «сверх упрощение» при изучении сложных явлений, заключается в использовании нескольких моделей одновременно. При этом каждая из моделей может рассматриваться как частный случай более общей модели, необходимой для адекватного описания действительности.

Второе возражение против использования вероятностных моделей в науках, изучающих поведение человека, связано с неправильным пониманием роли вероятности в моделях.

Часть ученых до сих пор разделяет мнение, что рассмотрение человека как представителя некоторой массовой совокупности, как индивидуума, чьи реакции описываются вероятностным законом, эквивалентно лишению его индивидуальности и свободы выбора.

В действительности же именно индивидуальность человека и непредсказуемость выбора диктуют то, что поведение его должно описываться в вероятностных терминах.

Использование вероятности в модели вовсе не означает, что каждый индивидуум определяет свое поведение с помощью какого-то датчика случайных чисел. Оно означает только, что поведение группы выглядит так, как будто бы индивидуумы действительно пользуются случайными датчиками.

Функция вероятностных понятий в модели – это описание наблюдаемой вариабельности реакций.

Никакого отношения к ограничению свободы выбора, к принуждению над индивидуальностью субъектов исследования введение этих вероятностных понятий не имеет.

Единственной альтернативой вероятностному подходу является подход детерминистский, и именно он лишает человека индивидуальности.

При описании массовых явлений в больших коллективах детерминистские модели, явно упрощенно описывающие поведение одного субъекта, оказываются очень продуктивными в применении к группе.

В качестве примера можно привести исследования по построению модели распространения эпидемии гриппа в стране.

Массовое распространение ЭВМ привело к третьему и более коварному возражению – отрицаются не модели сами по себе, а целесообразность их исследования математическими средствами.

Скажем, стоит ли теоретически, затрачивая большие усилия, изучать специальные модели в теории массового обслуживания, когда путем статистического моделирования ответ на любой конкретный вопрос может быть получен быстрее и с меньшими усилиями?

Если целью является просто получение ответа в конкретном случае, то статистическое моделирование действительно лучший метод. Однако, если целью является получение общего решения и проникновение вглубь изучаемого феномена, то статистическое моделирование – менее удовлетворительный путь.

Простота и ясность заключения, выражаемого с помощью формулы, таковы, что усилия, затрачиваемые при теоретическом изучении, оправдываются и тогда, когда приходится идти на определенные упрощения как при построении модели, так и при ее исследовании.

3. Наиболее распространённые типы математических моделей, используемых в прикладной статистике.

а) Модели законов распределения вероятностей случайных

величин.

Под случайной величиной понимают величину определенного физического смысла, значения которой подвержены некоторому «неконтролируемому разбросу» при повторениях исследуемого эксперимента или наблюдения.

Знать закон распределения вероятностей случайной величины – значит уметь поставить в соответствие любому ее возможному значению (или любой области ее возможных значений) вероятность появления именно этого значения (или вероятность попадания нашей случайной величины в заданную область ее возможных значений).

Статистическое исследование, как правило, начинается с анализа закона распределения рассматриваемой случайной величины, с попытки построить модель этого закона распределения.

б) Линейные вероятностные модели.

Среди моделей, описывающих взаимосвязь между случайными величинами, выделяются так называемые линейные регрессионные модели. В достаточно общем случае они имеют вид

Y = X'Ѳ + ε

(1)

где Y n-мерный вектор наблюдений: Y = (у1,…,

уп)'; X – известная

матрица плана размера рäп; Ѳ = (ѳ1,..., ѳр)' – неизвестный p-мерный вектор параметров;

ε – n-мерный случайный вектор-столбец ошибок, удовлетворяющий условию

Е(ε) = 0. Е(εε ') = σ2I,

(2)

где σ2 – неизвестный скалярный параметр, а Е – символ операции теоретического усреднения (математического ожидания).

Распространена интерпретация yi, i = 1, 2, ..., n, как наблюдения,

зависимой переменной (отклика) в точке Xi = ( xi(1) ,..., xi( p ) )' пространства наблюдений.

Покажем сначала, что приведенная выше модель со шрифтами может

рассматриваться как частный случай общей линейной модели. Для этого обозначим ѳi = т(i), i = 1, 2, ..., n, ѳn+1 = τA; ѳn+2 = τБ; yi = t(i, A),

yn+i = (i, Б).

Тогда уравнения

t (i , А) = m (i) + tA + xi , i = 1, 2,..., n.

t (i , Б) = т(i) + tБ + hi ,

можно записать в виде (1) с помощью матрицы X размера (n+2)ä2n, такой, что

 

1

0

0

. . .

0

0

1

0

 

0

1

0

. . .

0

0

1

0

 

0

0

1

. . .

0

0

1

0

 

. . . . . . . . . .

 

0

0

0

. . .

0

1

1

0

X£ =

1 0 0 . . . 0 0 0 1

 

0

1

0

. . .

0

0

0

1

 

0

0

1

. . .

0

0

0

1

 

. . . . . . . . . .

 

0

0

0

. . .

0

1

0

1

 

 

 

 

 

 

 

 

 

Нулевая гипотеза при данной параметризации состоит в проверке равенства Ѳn+1 = Ѳn+2.

Вкачестве других частных случаев модели (1) и (2) укажем:

1.модель линейной регрессии первого порядка, когда имеется один объясняющий количественный показатель (фактор) и при его значении, равном х, результирующий (объясняемый) показатель (или отклик) равен:

y = Ѳ0 + Ѳ1x + ε

(3)

2. Модель однофакторного дисперсионного анализа с l градациями

(неколичественного) объясняющего фактора и пi независимыми наблюдениями при каждой градации:

yik = Ѳ0 + Ѳi + εlk, i = 1,..., l; k = 1,…, пl

(4)

Для разрешимости модели дополнительно предполагается,

l

что θi = 0. Наиболее часто интересуются вопросом, равны ли нулю

i =1

все Ѳi, i = 1,…, l .

3. Модель двухфакторного анализа. Само название указывает, что имеются два объясняющих (неколичественных) фактора.

Отклик для i-го уровня первого фактора и j-го уровня второго фактора имеет вид

yi j = µ + αi + βi + εi j , i = 1,…, l; j = 1,…, m,

где на эффекты факторов наложены дополнительные ограничения αi = 0, βj = 0, ξij – независимые одинаково распределенные ошибки. Наиболее часто проверяемые гипотезы:

α1 = ... = αl = 0, β1 = ... = βm = 0.

В настоящее время линейные модели изучены достаточно хорошо.

в) Обобщение линейных моделей.

Укажем два наиболее актуальных, в прикладном плане, ослабления модельных ограничений, принятых в модели (1) – (2). Эти ослабления позволяют сделать модель более реалистичной.

1. Функция, с помощью которой описывается зависимость отклика у от объясняющих факторов X, нелинейна относительно параметров Ѳ.

Это означает, что исследуемый наблюдаемый признак у есть

некоторая функция от сопутствующих (объясняющих) наблюдаемых переменных Х = (x(1), x(2),…, x(p))' и неизвестных параметров Ѳ, т. е.

Y = Ѱ(Ѳ, X) + ε

(5)

На вектор случайных ошибок накладываются ограничения типа (2). Эти модели широко используются там, где есть содержательные (экономические, физические, химические и др.) соображения о механизме явления и этот механизм нелинеен. При анализе моделей типа (5) обычно линеаризуют ѱ в окрестности ожидаемых значений Ѳ и исследуют затем получившуюся линейную модель методом наименьших квадратов.

2. Дисперсия отклика зависит от оцениваемых параметров.

Это ослабление модельных ограничений подобно предыдущему также возникает обычно из содержательных соображений. Для оценки параметров чаще всего используется метод максимального правдоподобия.

Система уравнений максимального правдоподобия решается итеративно путем последовательных линеаризаций. При проведении очередной итерации «вес» наблюдений рассматривается как заданный, определяемый значением параметров на предыдущем шаге.

Влинейных моделях матрица плана X рассматривается как известная

ификсированная.

Однако в некоторых областях статистических исследований, таких, как измерения траекторий в физике элементарных частиц, регистрация составляющих сложных химических реакций и др., значения объясняющих переменных X нельзя фиксировать строго и их приходится рассматривать как неизвестные средние регистрируемых случайных величин, значения которых меняются в соответствии с некоторым распределением от одного элементарного измерения к другому.

В этих условиях противопоставление в модели независимых переменных х и зависимых у становится нецелесообразным.

Обе последовательности (xi, уj) рассматриваются как случайные, они как бы сливаются с точки зрения методического подхода к их трактовке.

Соответствующие модели, следуя Фришу, называют конфлюентными (от французского слова confluer сливаться), а методы их изучения –

конфлюентным анализом.

Простейшая конфлюентная модель имеет вид: наблюдаются пары

( xi , yi ), причем известно, что

 

 

 

= xi + εi ;

 

= yi + δj ; yi = а + bxi,

 

 

xi

yi

(6)

где xi, уi – неизвестные истинные значения переменных;

 

а и b – неизвестные искомые параметры, описывающие связь между переменными х и у;

εi, δj – взаимно независимые случайные ошибки, нормально распределенные с нулевым средним и известными дисперсиями.

Иногда, исходя из (6), конфлюентный анализ называют анализом структурных отношений.

г) Геометрические модели.

При индивидуальном пошиве верхнего платья учитывается более полутора десятков размеров, снимаемых с фигуры заказчицы. Однако не все они имеют одинаковую важность для качества изделия, что позволяет при массовом изготовлении одежды ограничиваться только четырьмя мерками: ростом, окружностью груди, окружностью талии, окружностью бедер.

Дадим этому факту геометрическую интерпретацию. Для этого будем изображать вектор размеров, снимаемых с конкретной фигуры, в виде точки в p-мерном (p >10) пространстве RP и рассмотрим совокупность точек, соответствующих некоторой большой популяции женщин.

Эти точки распределены в RP далеко не равномерно и группируются вокруг некоторой четырехмерной поверхности, каждую точку которой можно охарактеризовать четырьмя выделенными ранее базовыми мерками.

Геометрические модели как раз и представляют собой техническое средство для описания подобных ситуаций, в которых в пространстве первичных измерений удается выделить поверхность существенно меньшей размерности, вокруг которой группируются исходные точки.

Той же цели служат и обычные линейные модели. Однако класс геометрических моделей шире, и для них разработаны специальные методы исследования. Кроме того, в практике статистической работы первичный осмотр материала с целью выделения основных направлений варьирования данных обычно предшествует формированию параметрических, в том числе линейных, моделей.

Простейшая геометрическая модель имеет вид

 

Х = A + Ξ, A Vr, EΞ = 0,

(7)

где X р-мерный вектор исходных наблюдений, А р-мерный случайный вектор, про который известно только, что он принадлежит поверхности Vr, имеющей внутреннюю размерность r < p, a Ξ – p- мерный случайный вектор, описывающий отклонение X от Vr. Часто дополнительно предполагается, что Е(Ξ' Ξ) мало по сравнению с размахом варьирования А на Vr. Модель (7) имеет ряд особенностей:

1) на Ξ не наложено требований, чтобы оно изменялось только в

направлении, перпендикулярном к Vr;

2)нет предположений о виде Vr. Например, можно было бы предположить, что Vr является r-мерной гиперплоскостью;

3)нет ограничений на размещение векторов А на Vr. Так, можно предположить, что А сосредоточены в нескольких изолированных r-мерных эллипсоидах и т. п.

Вкачестве частного случая модели (7) можно рассмотреть модель

(6). В этом случае р = 2, r = 1, Х = ( x , y )£, Vr совпадает с прямой

y = a + bx, а роль Ξ играет вектор (ε, δ)'.

д) Модели марковского типа.

В социологии, экономике, демографии, медицине широко используются также модели, описывающие динамику экономических и социальных показателей путем прямого описания вероятностей перехода от одной структуры изучаемой реальной системы к другой. В этом случае используется аппарат так называемых дискретных и непрерывных цепей Маркова с линейной и нелинейной параметризацией переходных вероятностей.

Эти модели весьма сложны, и их изучение часто требует индивидуального подхода и творческого применения основных принципов математической статистики.

4. Выводы

1. Вероятностно-статистическая модель – мощный инструмент в руках исследователя, который можно использовать для количественного описания связей между наблюдаемыми явлениями и фактами, изучения свойств рассматриваемой системы, выбора подходящего статистического аппарата для обработки данных и планирования сбора данных.

2. Вероятностно-статистические модели изучаются как с привлечением традиционного арсенала средств математической статистики, так и путем статистического моделирования, представляющего собой числовую имитацию, с помощью ЭВМ, функционирования модели.

3. Всякая математическая модель является упрощенным представлением действительности, и искусство ее построения состоит в том, чтобы совместить как можно большую лаконичность параметризации модели с достаточной адекватностью описания изучаемой действительности или, другими словами, чтобы достигнуть максимальной концентрации реальности в простой математической

форме.

4. Процесс моделирования можно условно разбить на шесть основных этапов:

первый этап – исходный – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли;

второй этап – пред модельный анализ физической сущности изучаемого явления, формирование и формализация априорной информации;

третий этап – собственно моделирование (вывод общего вида модели);

четвертый этап – статистический анализ модели (оценка неизвестных значений участвующих в описании модели параметров);

пятый этап – верификация модели; шестой этап (в случае необходимости) – уточнение модели, в

частности возвращение ко второму этапу.

5. Важнейшим условием достижения высокой «работоспособности» модели является успешная реализация второго этапа моделирования, т. е. проведение тщательного пред модельного анализа физической сущности изучаемого явления с целью формирования добротной априорной информации и ее использования при выводе (или выборе)

общего вида искомой модели. Вынужденной (но нежелательной) альтернативой к такому подходу является логика «черного ящика»,

т. е. чисто формальная аппроксимация реальных данных.

6. К наиболее распространенным в статистических приложениях типам математических моделей относятся:

модели законов распределения вероятностей;

линейные модели, описывающие характер и структуру взаимосвязей анализируемых показателей (в частности, регрессионные модели, модели дисперсионного анализа, модели факторного анализа и временных рядов);

модели марковского типа, описывающие закономерности случайных переходов объектов из одного состояния в другое;

геометрические модели, позволяющие осуществлять удобную визуализацию исходных многомерных данных.

7. В связи с возможностями, предоставляемыми ЭВМ, в последние два десятилетия исследователь стал менее связан с «удоборешаемостью» моделей и большее распространение получили различные обобщения линейных моделей, более адекватно отражающие реальность.

С математической точки зрения развитие моделей происходит в

Соседние файлы в папке Лекции с прошлого семестра