Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Гром, В. П. Экспресс-анализ данных сдаточных испытаний судов с помощью бортовой ЭЦВМ

.pdf
Скачиваний:
10
Добавлен:
19.10.2023
Размер:
2.75 Mб
Скачать

ЭЦВМ. Результаты расчетов должны представляться также едино­ образно для дальнейшего использования.

Таким требованиям отвечают существующие методы статисти­

ческой обработки и анализа. Однако их применение к экспресс-

анализу данных сдаточных испытаний судов в ходе их проведения заструднено тем обстоятельством, что известные статистические методы не приспособлены к выполнению уточняющих, «направляю­ щих» расчетов при малом исходном объеме данных. Статистические

методы, как правило, служат выполнению обобщающих, резюми­

рующих расчетов в условиях достаточно больших объемов данных.

При малых объемах данных они применяются вынужденно, но

также в плане обобщения результатов наблюдения.

Разработанные методики статистического анализа и- расчета по

малым объемам данных исчерпали все возможности классических методов математической статистики, построенных на предельных и

асимптотических зависимостях и соотношениях. В последние годы

появились сообщения о математических методах статистики, созда­

ваемых на основе метода статистического моделирования (метод Монте-Карло). Нами предлагается именно такой метод, который

может явиться основой дальнейшего развития статистических мето­

дов исследований. Изложена методология применения этих мето­ дов, которая обеспечивает решение задач типа последовательного анализа при минимальном объеме исходных данных.

Здесь не ставится задача комплексного рассмотрения вопросов

анализа данных сдаточных испытаний. В объеме брошюры это и

невозможно. Напротив, предлагаемая методика должна служить

расчленению процесса анализа на отдельные этапы с формализа­

цией выводов и результатов каждого этапа. Алгоритмы методики должны исключать возможность получения формально обоснован­

ных ошибочных выводов и результатов на соответствующем ей

этапе анализа и обеспечивать неразрывность контроля точности и

достоверности при переходе к следующему этапу — расчетам ком­

плексных и составных показателей, синтезу, анализу и обоснованию технических и организационных решений. Алгоритмы методики составлены безотносительно источника и природы исходных дан­

ных— являются ли они данными испытаний, эксплуатации или же результатами измерений, наблюдений, предварительной обработки данных. Они могут быть применены и апробированы в различных областях науки и техники.

Машинные программы реализации алгоритмов методики на

ЭЦВМ «Минск-22» были составлены и апробированы на ВЦ ЦПКТБ «Севрыба» (г. Мурманск). В’ настоящее время методика внедряется на предприятиях различных отраслей промышленности (МРХ, ММФ СССР и др.).

Разработка на ее основе более узконаправленной методики ста­ тистического анализа и специальной системы машинных программ для проведения экспресс-анализа данных сдаточных испытаний

судов с помощью бортовой (или доставляемой на борт) ЭЦВМ яви­

лась бы началом работ по созданию методов оперативного теку-

10

utero анализа технического состояния судов. Проведение исследова­

ний в этом направлении внесет значительную ясность как в области технической политики по созданию судовых систем автоматического

управления и бортовых ЭЦВМ, так и перспективных путей органи­ зации контроля и анализа технического состояния судов.

Многочисленные примеры использования береговых ЭЦВМ для учета и контроля технического состояния судов у нас в стране и за

рубежом демонстрируют большие возможности ускорения анализа многочисленных сведений и оперативном решении вопросов улуч­ шения технического состояния в короткие междурейсовые периоды. Экономическая целесообразность таких работ общепризнана.

Эффективность их будет повышаться по мере роста численности флотов и насыщения судов более сложным оборудованием.

Оперативный текущий анализ технического состояния судов

с помощью бортовых ЭЦВМ позволит решительнее и в то же время

более обоснованно увеличивать межремонтный период эксплуата­

ции судов. В настоящее время, например, существует большой раз­ рыв между регламентируемыми периодами (1—2 года) и обяза­

тельствами передовых экипажей (до 6 лет). Эксплуатация такого судна, по существу, тоже является сдаточными испытаниями на надежность и долговечность судовых механизмов, устройств и си­

стем. Постоянный контроль и анализ технического состояния с помощью бортовой ЭЦВМ повысил бы не только безопасность

эксплуатации судна, но и практическую ценность результатов экс­ перимента.

§ 2. Некоторые вопросы и понятия статистического анализа малых выборок. Требования к аппарату экспресс-анализа

Для статистического анализа малых выборок в настоящее время

применяют весьма различные методы и приемы. Большинство из

них представляют собой самостоятельные направления развития

математической статистики и имеют свои, можно сказать, тради­

ционные сферы приложения, им посвящена обширная литература.

Основаны они, как правило, на предельных и асимптотических соот­

ношениях. Применение таких методов к анализу малых выборок

осуществляется с большим количеством оговорок и ограничений качественного характера, а иногда даже и без таковых, что отнюдь не повышает ценность результатов.

Разработаны также отдельные приемы анализа малых выборок

(специальные), но они являются эмпирическими, полуинтуитив­ ными, и ни в какой мере не претендуют на общность. В настоящем

параграфе кратко охарактеризованы некоторые. такие методы и

приемы, описаны их взаимосвязь и взаимодействие, перечислены и интерпретированы некоторые понятия.

Предлагаемая интерпретация не является общепринятой и имеет

целью лишь подчеркнуть и разграничить некоторые особенности, обратить внимание на необходимость их учета при проведении ста­

11

тистических исследований. Этой же цели служит и категоричность

отдельных высказываемых положений.

Прежде всего, следует различать понятия статистического ана­

лиза и статистической обработки данных. Статистический анализ

имеет целью получение информации о наблюдаемой случайной

величине, статистическая обработка данных — представление их в виде, удобном для восприятия и дальнейших исследований.

Примером методов статистической обработки может служить

аппроксимация выборочных распределений и статистических зави­

симостей. Путем аппроксимации возможно описание форм кривых плотностей вероятностей и функций распределения любых других статистических зависимостей.

Однако методы аппроксимации не дают количественных оценок

степени соответствия истинных и аппроксимирующих распределе­

ний и зависимостей и отнюдь не гарантируют в общем случае того,

что, например, сглаживание улучшает, а не ухудшает соответствие

истинных зависимостей или распределений с их описаниями. Напри­ мер, выдвижение гипотезы о законе распределения наблюдаемой

случайной величины, по существу, уже является аппроксимацией

(или попыткой таковой) полученного эмпирического распределения

некоторой типовой кривой.

Сама гипотеза о законе распределения может быть сформули­

рована путем задания аппроксимирующей кривой произвольного вида, отвечающей лишь минимальным ограничениям, (неотрица­ тельные вероятности отдельных событий и равенство единице веро­ ятности полной группы событий). Всякая же гипотеза должна быть

проверена, проанализирована.

Таким образом, статистическая аппроксимация, как правило,

может служить первой или промежуточной стадии статистического исследования. Характерный пример — аппроксимация кривыми Джонсона, описанная в работе [16].

Оценивание математического ожидания, дисперсии и последую­ щих моментов аналогично аппроксимации в том отношении, что служит также описанию наблюдаемых случайных величин"и не дает количественных оценок степени соответствия. Доверительные интер­

валы для среднего значения оцениваются в предположении того или иного типового закона распределения, и полученные таким образом

оценки справедливы постольку, поскольку справедливы сделанные предпосылки. Следует еще раз подчеркнуть, что речь идет о малых выборках, но границы большой и малой выборки на все случаи

установить, очевидно, невозможно.

Для примера сравним результаты оценки доверительных интер­

валов для среднего значения случайной величины, распределенной по экспоненциальному закону, вычисленные приближенно, исходя из приближенно нормального распределения оценки среднего, и точно.

Предположим, что имеется следующая выборка (целочисленные

значения взяты для простоты вычислений): 1, 1, 1, 1, 1, 1, 1, 2, 2, 2,

2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 7, 9; N = 24.

12

Вычисляем точечную оценку среднего значения

24

V

 

Оценкой σ будет

X = Z =24I

2474

≈ 3,08,

 

 

 

24

 

 

 

 

 

C доверительной вероятностью γ значение х заключено в пре­

делах

 

 

 

X — t-ls < х ≤ X

-4-

t-is ,

 

где

t1 —

1,3

определяется из

таблиц

 

Стьюдента

 

распределения

(γ=0,8), т.

е. 0,35

х

≤ 5,81

(результат точный, если

величина

 

имеет нормальное распределение, и приближенный в любом другом случае).

Если провести проверку статистических гипотез о законе распре­

деления наблюдаемой случайной величины, то с высокой вероят­ ностью может быть принята гипотеза об экспоненциальном харак­

тере распределения. Приняв эту гипотезу, доверительные интервалы

для истинного значения среднего X следует рассчитывать по фор­

муле

-Z

2Nx

.

2Nx

 

 

 

2------------------

≤Λ< —- 5-----------------

 

 

■1 + ï

 

у ¿

 

 

 

 

 

 

z∙l-γ

γ+2

 

 

~!∙,2Λ'÷2

—I,

 

При γ=0,8, .∕V = 24 из таблиц распределения χ2 находимZ29.50 —

= 63,2; Z2Jj50 — 37,7

и, следовательно,

2,3

х

≤ 3,9.

Сравнивая с предыдущим результатом, убеждаемся, что при

объеме выборки

N—24

и распределении

наблюдаемой случайной

 

 

 

 

 

 

 

величины, близком к экспоненциальному, приближенный расчет

приводит к большой погрешности.

Пример, может быть, покажется несколько утрированным в том отношении, что объем выборки 24 позволяет, как правило, разли­

чать нормальное и экспоненциальное распределения. Однако он

свидетельствует о необходимости контроля точности и достовер­

ности

результатов.

в ра­

Метод

прямоугольных вкладов (описан, например,

боте

[14]) также можно рассматривать как специальный прием

построения

аппроксимирующей зависимости. Для методов

такого

рода

может быть исследована сходимость, но определить точность

оценки в каждом отдельном случае не представляется возможным.

Несколько перекликается с проблемой малых выборок стати­

стика экстремальных значений [5]. Речь идет об уточнении функ­

ций плотностей вероятностей в областях «редких» значений случай­

13

ных величин при общем значительном объеме выборки. Обосновы­

вается правомерность в случае установления в области наиболее

вероятных значений некоторых типовых закономерностей экстрапо­

лировать их в области возможных, но не наблюдавшихся значений случайных величин. Однако для анализа малых выборок методы статистики экстремальных значений эффективно применить пока не

удалось.

Проверка статистических гипотез о законах и параметрах рас­ пределений случайных величин является методом статистического

анализа в наиболее его чистом виде, безотносительно пути, который привел к проверяемой гипотезе. Проверка осуществляется с по­ мощью критериев. Наиболее распространенными являются крите­

рий согласия. Пирсона χ2 (хи-квадрат) и критерий K(λ) Колмого­

рова. Однако применимость их к анализу малых выборок ограни­

чена. Нижний допустимый предел объема выборки обычно уста­ навливается 25, но это, можно сказать, качественный предел, ибо

зависимость величин погрешностей от объемов выборок не установ­ лена. В этом отношении представляют интерес критерии W, WE0,

WE, описанные в работе [16], позволяющие работать с объемами

выборок, начиная с трех, однако на их применимость наложены ограничения другого рода — по типам проверяемых гипотез. Метод табулирования этих критериев в работе не описан, но вскользь упо­

мянуто, что осуществляется оно путем статистического моделиро­ вания некоторых вероятностных схем. Аналогичный принцип поло­

жен в основу предлагаемой методики экспресс-анализа, поэтому

знакомство с упомянутыми критериями может быть рекомендовано

в порядке сравнения. Преимуществом критериев W, WE0, WE является то, что в практической работе они не требуют применения

ЭЦВМ. (

Промежуточное положение между анализом и обработкой зани­

мают методы построения кривых регрессии, которые хотя и близки к методам аппроксимации, но включают в себя элементы анализа

точности результатов построения. Одна особенность их, связанная

с точностью, часто остается без внимания. Если точки, по которым

строится аппроксимирующая кривая, имеют случайную составляю­

щую ошибки (а в случае кривой регрессии это имеет место всегда),

невозможно беспредельное повышение точности путем увеличения

степени аппроксимирующего полинома. При увеличении степени

полинома происходит уменьшение погрешности собственно аппро­ ксимации, определяемой остаточным членом ряда Тейлора. Но

одновременно увеличивается составляющая случайной ошибки.

В каждом случае существует некоторая степень полинома, соответ­

ствующая минимуму суммарной погрешности. Этот вопрос подроб­ нее рассмотрен в § 5.

Методы выборочного статистического контроля обычно' рассма­

триваются вообще совершенно обособленно. Это обусловлено при­ менением достаточно специфичного аппарата — комбинаторики,

дискретных распределений вероятностей, хотя для простоты вычи­ слений часто пользуются, например, аппроксимацией биноминаль-

14

його закона нормальным законом и т. д. Но прежде всего следует обратить внимание на то, что, как правило, и не делается попыток

увязать между собой методы выборочного статистического контроля

с методами последующего, более детального анализа наблюдений,

замеров и т. д., сделанных на выборке. Такой анализ проводится

ранее упомянутыми методами (аппроксимация, анализ регрессий,

проверка гипотез и т. д.) безотносительно соотношения количеств

обследованных и необследованных изделий и, строго говоря, его результаты справедливы только, для обследованной доли совокуп­

ности. Распространение же этих результатов на необследованную

часть совокупности, как правило, осуществляется без соответствую­

щего количественного анализа.

Существующие методики статистических обработки и анализа

данных можно представить следующей схемой:

 

 

{Ni}

→∕(O→⅛,

 

 

где {Mi} —экспериментальная выборка;

f

(х) — предложенное в ре­

зультате ее

статистических обработки

и

 

анализа

функциональное

описание закономерностей

проявления

 

наблюдаемой случайной

величины х;

k —

показатели

качества исследуемого изделия, кото­

рые при условии знания зависимости

f(x)

могут

быть рассчитаны

по известным формулам.

 

 

 

 

 

 

 

В этой схеме слабым является звено

 

 

 

 

 

 

(M) →)∕(*

,

 

 

 

 

так как при малом объеме выборки велика опасность встать на лож­

ный путь и на этой ошибочной основе строить дальнейшие, сами по

себе правильные, выкладки и заключения.

Необходимо построение такой схемы статистического анализа,

которая обеспечивала бы постепенное, по мере накопления данных,

строго обоснованное «стягивание» ко все более и более определен­ ной закономерности. При любом же фиксированном объеме вы­

борки схема должна давать как бы поперечный «разрез» такого

информационного стягивающегося «конуса».

Может быть предложена схема

Реализуется она следующим образом. На основе рассмотрения

экспериментальной выборки должны быть выдвинуты различные,

а не единственная, гипотезы о закономерностях проявления случай­

ной величины, допускаемые этой выборкой в пределах некоторого

уровня доверительной вероятности. Очевидно, чем меньше объем выборки, тем более различные по своему характеру гипотезы могут быть допущены.

15

Расчет показателей качества производится для каждой гипотезы

отдельно. Переход к однозначному результату осуществляется лишь

на заключительной стадии расчета, когда имеется возможность сравнивать конечные результаты и оценивать степень ущерба или

опасности ошибки выбора.

Предлагаемый математический аппарат позволяет реализовать

такую схему. В принципе он позволяет даже большее, а именно расчеты по схеме

Последняя схема отличается тем, что если вычисленные показа­

тели качества k↑, ..., kj оказываются очень различными по значе­ нню, может быть определен объем выборки, необходимый для уменьшения разброса до заданной величины в пределах той же доверительной вероятности.

Применение таких схем расчета к экспресс-анализу данных сда­ точных испытаний судов в ходе их проведения отвечает требова­ ниям осуществления оперативного управления испытаниями в усло­

виях непрерывно возрастающего количества информации.

ГЛАВА II

МАТЕМАТИЧЕСКИЙ АППАРАТ АНАЛИЗА ДАННЫХ СДАТОЧНЫХ ИСПЫТАНИЙ СУДОВ

§ 3. Программно-логический метод проверки статистических гипотез о законах и параметрах распределений случайных величин по малым выборкам

Программно-логический метод проверки статистических гипотез

построен на основе разработанного нового статистического крите­ рия, названного Q-критерием. Реализуется он путем статистиче­

ского моделирования на ЭЦВМ некоторых простейших вероятност­ ных схем.

Указанный метод отличается существенной новизной как по принципу построения и практической реализации, так и по своим

возможностям, значительно расширяющим круг задач, которые

могут быть с его помощью решены. В связи с этим необходимо

изложение таких аспектов теории проверки статистических гипотез,

16

которые до настоящего времени оставались прерогативой работ

сугубо теоретического характера и в широкой литературе по вопро­

сам статистического анализа не рассматривались. В объеме данной

книги это сделать было невозможно, да и нецелесообразно, поэтому

после ссылок на литературные источники, наиболее полно освещаю­

щие вопросы теории и практики проверки статистических гипотез,

дается краткое изложение тех положений, которые в первую оче­

редь необходимы для понимания и практического применения метода.

Вопросам проверки статистических гипотез о законах распреде­ ления случайных величин посвящена обширная литература. Сугубо теоретическое изложение вопроса содержится в работе [9]. Подроб­

но этот вопрос рассмотрен в работах [4, 11, 15]. Оригинальное

исследование проблемы с позиций теории

информации

проведено

в работе [8].X

 

 

случайной

Статистической гипотезой о законе распределения

величины

является любое утверждение

о виде распределения

вероятностей принятия случайной величиной ее возможных значе­

ний. После того как сформулирована некоторая основная, прове­

ряемая гипотеза G0, класс всех возможных распределений случай­

ной величины х оказывается разбитым на два непересекающихся

подкласса — распределений, обладающих свойствами, по которому

выделена основная гипотеза G0, и не обладающих ими.

Способы определения основной гипотезы G0 могут быть различ­ ными. Возможны гипотезы о виде закона распределения. Может

быть задана область параметра Ѳ (в общем случае многомерного)

параметрического закона распределения. При этом если речь идет о дискретной случайной величине, принимающей г различных зна­

чений, в самом общем виде гипотеза может быть определена неко­

торой областью в г-мерном пространстве.

Гипотеза G0 может состоять в ограничении на величину сред­

него значения случайной величины, ее дисперсии или еще какой-

либо статистической характеристики. Задание конкурирующей

гипотезы Gj при этом возможно двумя принципиально различными

способами. В первом к гипотезе Gi относятся все распределения, не

обладающие свойством, по которому выделена G0, т. е. гипотеза Gi

задается как альтернативная к G0. Во втором из этого множества

распределений, не вошедших в G0, также по какому-то признаку выделяется часть.

Понятие основной и конкурирующей гипотез является исходным

понятием теории проверки статистических гипотез. После того как

гипотезы G0 и Gi сформулированы, задача проверки заключается в принятии решения о принадлежности наблюдаемой случайной

величины к одному из двух определяемых ими взаимоисключающих подклассов распределений.

Правило или система правил, согласно которым осуществляется принятие такого решения по результатам наблюдения величины, называется статистическим критерием. Статистические критерии,

дающие в каждом отдельном случае ответ по однозначному пра­

2

В.

П.

Гром,

Р.

В.

Кузьмин

17

 

 

вилу, называются нерандомизированными. В некоторых случаях используются рандомизированные статистические критерии, в кото­ рых само принимаемое решение является случайной функцией ре­

зультата наблюдения и вычисленного по нему значения критерия. Ниже рассматриваются только нерандомизированные статисти­

ческие критерии. Такой критерий обычно представляет собой неко­ торую статистику S(x), вычисляемую как функцию от исхода на­

блюдения, распределение которой зависит от закона распределения наблюдаемой случайной величины, а именно от принадлежности его к одному из подклассов, определяемых гипотезами G0 и G1.

Область возможных значений величины S(x) разбивается на две —

область допустимых значений S0 и критическую для гипотезы G0

область Sκp, попадание в которую маловероятно в случае справед­

ливости гипотезы G0, но весьма вероятно в альтернативном случае.

Тогда в случае попадания значения статистики S(x), вычисленной

по результатам наблюдений, в область S0 принимается гипотеза G0,

в случае же попадания в область Sκp гипотеза G0 отвергается и при­

нимается гипотеза Gi.

В каждом из этих двух случаев возможна ошибка. C вероят­ ностью а значение S (х) может попасть в область Sκp, в то время как

верна гипотеза G0, которая при этом будет ошибочно отвергнута.

C вероятностью β значение S(x) может попасть в область S0, когда

верна гипотеза Gb и тогда ошибочно будет принята гипотеза G0.

Величина а называется вероятностью ошибки первого рода, вели­ чина β — вероятностью ошибки второго рода. Определяются они из

соотношений

P{S(x)

Sκp∕G0}=α;

(1)

 

P{S(x)

 

 

S0∕G1}=β.

(2)

Если гипотезы G0 и Gi определяются путем задания области зна­ чений параметра Ѳ, так что случай θ Ωo соответствует гипотезе G0,

а случай θ Qi гипотезе G1, соотношения (1) и (2)

могут быть за­

писаны в виде

P{S(x) Sκp'0 Ω0}=α;

 

(3)

Если гипотеза

P{S(X) S0θ Ω1}=β.

по

(4)

Gi задана как

альтернативная

отношению

к гипотезе G01 практически может

быть определена

только вели­

чина а, ибо для определения β потребовалось бы перебрать беско­

нечное множество законов распределения. В этом случае величина

Sκp определяется из условия задания величины а, т. е.

P{S(x) Sκp(α) GJ < а.

(5)

Важной числовой характеристикой критерия является вероят­

ность отвергнуть проверяемую гипотезу G0, определяемая как функ­

ция характеристик наблюдаемой случайной величины. Наиболее

18

наглядно она может быть представлена в случае, когда гипотеза G0

определена путем ограничений, наложенных на одномерный пара­

метр закона распределения, например θ ≥ θ,*

P(θ) = P{S(x) Sκp.θ}.

(6)

В обозначении и наименовании этой функции в литературе имеет место расхождение. В некоторых источниках она обозначается

через W,(θ) и именуется функцией мощности критерия. Однако

в большинстве случаев обозначение fl∕(θ) и упомянутое наименова­

ние относится только к величине, определяемой соотношением

U7(θ) = P{S (X) *}.S∕Θ<Θ

(7)

Это обозначение и принято в настоящей работе.

Вероятность ошибки первого рода а при этом определяется как

α = )supP(θ≥θ*.

(8)

Гипотеза Gj при альтернативном задании не проверяется.

Если гипотезы G0 и Gi заданы эквивалентным образом, напри­ мер в виде точечных значений θ0 и θɪ параметров, возможна про­

верка каждой из них как таковой, при этом показателями критерия проверки являются вероятности ошибок первого и второго рода. Величина ошибки первого рода при проверке гипотезы G0 опреде­ ляется из соотношения

P{S(x) sS∕θo} =αoo∙ (9)

Индексация введена вследствие необходимости отличить соотно­

шение (9) от

P {ЭД ∙⅛>7θ1} = (10)

определяющего вероятность ошибки первого рода при проверке гипотезы Gi.

Аналогичным образом определяются вероятности ошибок вто­

рого рода: принять гипотезу G0 при ее проверке, когда верна Gb

P{5(x) S^∕θ1) = p01,

(11)

и принять гипотезу Gi, когда верна G0,

(12)

P{S(Λ) S770o} = βlo.

Пары значений (α00, βoι) и (aɪɪ, βιo) определяются выбором кри­

тических множеств ⅛ и ¾) соответственно, при этом

внутри

каждой пары величины вероятностей ошибок первого и второго рода зависимы. Если допустимые значения вероятностей ошибок первого рода заданы, они могут быть обеспечены выбором критиче­ ских множеств S<c0> и sω, чем, в свою очередь, однозначно опре­

деляются величины βoι и βιoЕсли статистика S (х) является одно­

2*

19

Соседние файлы в папке книги из ГПНТБ