- •Раздел 1. Элементы теории вероятностей и математической статистики 2
- •Раздел 2. Основы проверки статистических гипотез 65
- •Раздел 1. Элементы теории вероятностей и математической статистики
- •1. Основные определения и теоремы
- •1.1. Предмет теории вероятности
- •1.2. Событие как результат испытания
- •1.3. Частость и вероятность. Классическое определение вероятности
- •1.4. Теорема сложения вероятностей
- •1.5. Теорема умножения вероятностей
- •2. Повторные независимые испытания
- •2.1. Биномиальное распределение вероятностей
- •2.2. Наивероятнейшее число появлений события
- •2.3. Асимптотическая формула биномиального распределения (локальная терема Лапласа). Формула Пуассона
- •2.4. Интегральная теорема Лапласа
- •Упражнения.
- •3. Случайная величина и ее числовые характеристики
- •3.1. Случайная величина и ее распределение
- •3.2. Математическое ожидание и его свойства
- •3.3. Дисперсия и среднее квадратическое отклонение
- •3.4. Нормальный закон распределения и понятие о теореме Ляпунова
- •4. Закон больших чисел
- •4.1. Неравенства Маркова и Чебышева
- •4.2. Теорема Чебышева
- •5. Основные сведения из математической статистики
- •5.1. Генеральная совокупность и выборка
- •5.2. Устойчивость выборочных средних
- •5.3. Определение параметров выборки с помощью теоремы Ляпунова
- •5.4. Понятие о доверительных границах для средних
- •5.5. Примеры математической обработки данных выборочного наблюдения
- •5.6. Понятие о критериях согласия
- •6. Элементы теории корреляции
- •6.1. Функциональная и корреляционная зависимости
- •6.2. Линейная корреляция.
- •6.3. Коэффициент корреляции
- •6.4. Упрошенный способ вычисления коэффициента корреляции
- •6.5. Простейшие случаи криволинейной корреляции
- •6.6. Понятие о множественной корреляции
- •Упражнения
- •Раздел 2. Основы проверки статистических гипотез
- •1. Статистические модели
- •2. Проверка статистических гипотез (общие положения)
- •3. Примеры статистических моделей и гипотез, ранги и ранжирование
- •4. Проверка статистических гипотез (прикладные задачи)
- •4.1. Схема испытаний Бернулли
- •4.2. Критерий знаков для одной выборки
- •5. Проверка гипотез в двухвыборочных задачах
- •5.1. Критерий Манна-Уитни
- •5.2. Критерий Уилкоксона
- •6. Парные наблюдения
- •6.1. Критерий знаков для анализа парных повторных наблюдений
- •6.2. Анализ повторных парных наблюдений с помощью знаковых рангов (критерий знаковых ранговых сумм Уилкоксона)
- •Список использованной литературы
- •Список рекомендуемой литературы
Раздел 2. Основы проверки статистических гипотез
Во многих случаях нам требуется на основе тех или иных данных решить, справедливо ли некоторое суждение. Например, верно ли, что два набора данных исходят из одного и того же источника? Что A - лучший стрелок, чем В? Что от дома до работы быстрее доехать на метро, а не на автобусе, и т.д. Если мы считаем, что исходные данные для таких суждений в той или иной мере носят случайный характер, то и ответы можно дать лишь с определенной степенью уверенности, и имеется некоторая вероятность ошибиться. Например, предложив двум персонам А и В выстрелить по три раза в мишень и осмотрев результаты стрельбы, мы лишь предположительно можем сказать, кто из них лучший стрелок: ведь возможно, что победителю просто повело и он по чистой случайности стрелял намного точнее, чем обычно, либо наоборот, проигравшему не повезло, так как он стрелял намного хуже чем обычно. Поэтому при ответе на подобные вопросы хотелось бы не только уметь принимать наиболее обоснованные решения, но оценивать вероятность ошибочности принятого решения.
Рассмотрение таких задач в строгой математической постановке приводит к понятию статистической гипотезы. В этом разделе мы обсуждаем, что такое статистические гипотезы, какие существуют способы их проверки, каковы наилучшие методы действий и с какими понятиями они связаны. Мы проиллюстрируем эти понятия на примере нескольких важных и часто встречающихся ситуаций, и на этих же примерах покажем, как естественные проблемы надо переводить на математикостатистический язык, чтобы они могли стать предметом статистического исследования. Среди задач, рассматриваемых в этом разделе — проверка гипотез в схеме испытаний Бернулли, гипотез о положении одной выборки и о взаимном смещении двух выборок.
1. Статистические модели
Идея случайного выбора. Прежде чем приступить к описанию статистических гипотез, обсудим еще раз понятие случайного выбора.
Если опустить детали и некоторые (хотя и важные) исключения, можно сказать, что весь статистический анализ основан на идее случайного выбора. Мы принимаем тезис, что имеющиеся данные появились как результат случайного выбора из некоторой генеральной совокупности, нередко — воображаемой. Обычно мы полагаем, что этот случайный выбор произведен природой. Впрочем, во многих задачах эта генеральная совокупность вполне реальна, и выбор из нее произведен активным наблюдателем.
Для краткости будем говорить, что все данные, которые мы собираемся изучить как единое целое, представляют собой одно наблюдение. Природа этого собирательного наблюдения может быть самой разнообразной. Это может быть одно число, последовательность чисел, последовательность символов, числовая таблица и т.д. Обозначим на время это собирательное наблюдение через х. Раз мы считаем х результатом случайного выбора, мы должны указать и ту генеральную совокупность, из которой х был выбран. Это значит, что мы должны указать те значения, которые могли бы появиться вместо реального х. Обозначим эту совокупность через X. Множество Х называют также выборочным пространством, или пространством выборок.
Мы предполагаем далее, что указанный выбор произошел в соответствии с неким распределением вероятностей на множестве X, согласно которому каждый элемент из Х имеет определенные шансы быть выбранным. Если Х - конечное множество, то у каждого его элемента x; есть положительная вероятность р(х) быть выбранным. Случайный выбор по такому вероятностному закону легко понимать буквально. Для более сложно устроенных бесконечных множеств Х приходится определять вероятность не для отдельных его точек, а для подмножеств. Случайный выбор одной из бесконечного множества возможностей вообразить труднее, он похож на выбор точки х из отрезка или пространственной области X.
Соотношение между наблюдением х и выборочным пространством X, между элементами которого распределена вероятность, - в точности такое же, как между элементарными исходами и пространством элементарных исходов, с которым имеет дело теория вероятностей. Благодаря этому теория вероятностей становится основой математической статистики, и поэтому, в частности, мы можем применять вероятностные соображения к задаче проверки статистических гипотез.
Прагматическое правило. Ясно, что раз мы приняли вероятностную точку зрения на происхождение наших данных (т.е. считаем, что они получены путем случайного выбора), то все дальнейшие суждения, основанные на этих данных, будут иметь вероятностный характер. Всякое утверждение будет верным лишь с некоторой вероятностью, а с некоторой тоже положительной вероятностью оно может оказаться неверным. Будут ли полезными такие выводы, и можно ли вообще на таком пути получить достоверные результаты?
На оба эти вопроса следует ответить положительно. Во-первых, знание вероятностей событий полезно, так как у исследователя быстро вырабатывается вероятностная интуиция, позволяющая ему оперировать вероятностями, распределениями, математическими ожиданиями и т.п., извлекая из этого пользу. Во-вторых, и чисто вероятностные результаты могут быть вполне убедительными: вывод можно считать практически достоверным, если его вероятность близка к единице.
Можно высказать следующее прагматическое правило, которым руководствуются люди и которое соединяет теорию вероятностей с нашей деятельностью.
• Мы считаем практически достоверным событие, вероятность которого близка к 1;
• Мы считаем практически невозможным событие, вероятность которого близка к 0.
И мы не только так думаем, но и поступаем в соответствии с этим!
Изложенное прагматическое правило, в строгом смысле, конечно, неверно, поскольку оно не защищает полностью от ошибок. Но ошибки при его использовании будут редки. Правило полезно тем, что дает возможность практически применять вероятностные выводы.
Иногда то же правило высказывают чуть по-другому: в однократном испытании маловероятное событие не происходит (и наоборот — обязательно происходит событие, вероятность которого близка к 1). Слово «однократный» вставлено ради уточнения, ибо в достаточно длинной последовательности независимых повторений опыта упомянутое маловероятное (в одном опыте!) событие встретится почти обязательно. Но это уже совсем другая ситуация.
Остается еще не разъясненным, какую вероятность следует считать малой. На этот вопрос нельзя дать количественного ответа, пригодного во всех случаях. Ответ зависит от того, какой опасностью грозит нам ошибка. Довольно часто — при проверке статистических гипотез, например, о чем см. ниже — полагают малыми вероятности, начиная с 0.01 0.05. Другое дело — надежность технических устройств, например, тормозов автомобиля. Здесь недопустимо большой будет вероятность отказа, скажем, 0.001, так как выход из строя тормозов один раз на тысячу торможений повлечет большое число аварий. Поэтому при расчетах надежности нередко требуют, чтобы вероятность безотказной работы была бы порядка 1-10-6. Мы не будем обсуждать здесь, насколько реалистичны подобные требования: может ли обеспечить такую точность в расчете вероятности неизбежно приближенная математическая модель и как затем сопоставить расчетные и реальные результаты.
Предупреждения. 1. Следует дать несколько советов, как надо строить статистические модели, притом зачастую в задачах, не имеющих явного статистического характера. Для этого надо присущие обсуждаемой проблеме черты выразить в терминах, относящихся к выборочному пространству и распределению вероятностей. К сожалению, в общих словах этот процесс описать невозможно. Более того, этот процесс является творческим, и его невозможно заучить как, скажем, таблицу умножения. Но ему можно научиться, изучая образцы и примеры и следуя их духу. Мы разберем несколько таких примеров. В дальнейшем мы также будем уделять особое внимание этой стадии статистических исследований.
2. При формализации реальных задач могут возникать весьма разнообразные статистические модели. Однако математической теорией подготовлены средства для исследования лишь ограниченного числа моделей. Для ряда типовых моделей теория разработана очень подробно, и там можно получить ответы на основные вопросы, интересующие исследователя. Некоторую часть таких стандартных моделей, с которыми на практике приходится иметь дело чаще всего, мы обсудим в данной книге. Другие можно найти в более специальных и подробных руководствах и справочниках.
3. Об ограниченности математических средств стоит помнить и при математической формализации эксперимента. Если возможно, надо свести дело к типовой статистической задаче. Эти соображения особенно важны при планировании эксперимента или исследования; при сборе информации, если речь идет о статистическом обследовании; при постановке опытов, если мы говорим об активном эксперименте.
