Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Стеграммы лекций 6-10 и 13

.pdf
Скачиваний:
12
Добавлен:
03.06.2015
Размер:
1.21 Mб
Скачать

Лекция №8 Параметры случайных величин

Параметры случайных величин

Определение. Параметром случайной величины называется любая числовая функция от ее функции распределения.

Таким образом, параметр – число, описывающее те или иные особенности распределения. Для того чтобы составить достаточно полное описание распределения, нужен не один, а несколько разных параметров. Разберем наиболее часто используемые из них.

Максимум – максимально возможное значение случайной величины. Для дискретных случайных величин с конечным набором возможных значений максимум – самое большое из элементарных событий с ненулевой вероятностью. Если случайная величина может принимать сколь угодно большие значения, то не определен.

max inf x : P x 1

Минимум – минимальное возможное значение случайной величины. Для дискретных случайных величин с конечным набором возможных значений минимум – самое маленькое из элементарных событий с ненулевой вероятностью. Если случайная величина может принимать сколь угодно малые значения, то не определен.

min inf x : P x 1

Размах – разность между максимумом и минимумом.

Range max min

Мода – самое часто встречаемое значение. Для дискретных случайных величин определяется как элементарное событие с самой большой вероятностью. Для непрерывных случайных величин моду определяют как такое значение, в котором плотность распределения максимальна. Часто понятие моды расширяют, требуя, чтобы вероятность или плотность вероятности имела не максимум, а лишь локальный максимум, т.е. была более вероятна не для всех значений, а только для достаточно близких. При таком определении мода может быть не одна, и тогда говорят о многомодальном характере распределения (строго говоря, в этом случае мода уже не будет параметром, поскольку не будет однозначной функцией). Например, в распределении роста взрослых людей будет наблюдаться два локальных максимума, соответствующих мужчинам и женщинам (распределения роста которых по отдельности унимодальные).

Процентиль вероятности p (p-процентилем) – такая величина X p , что

P X p p . Например, 0,1-процентиль – такое число, что в 10% наблюдений мы

получаем величины, меньшие этого процентиля, а в 90% наблюдений – большие. С математической точки зрения процентиль – функция, обратная функции распределения F:

X p F 1 p .

Приведенное определение подходит только для непрерывных случайных величин, у которых функция распределения непрерывна. Если функция распределения имеет разрывы, то искомое значение может попасть в разрыв и для заданного p может не

существовать такого X, что P X p . В этом случае процентили определяют по-

другому:

X p inf x : P x p

Среди всех процентилей часто выделяют 0,25-, 0,50- и 0,75-процентили, называя их квартилями, причем 0,50-процентиль также называется медианой. Таким образом, медиана – величина, делящая выборку на две части одинакового размера. В соответствии с таким определением она может трактоваться как характерное значение, однако по целому ряду причин в качестве характерного значения берут среднее арифметическое.

Математическое ожидание – формализация понятия «среднее арифметическое». Математическое ожидание случайной величины обозначается как M . Это самый

важный со всех точек зрения параметр, его обсуждению мы вернемся позже в этой же лекции. Многие параметры определяются на его основе.

Момент n-го порядка Mn – математическое ожидание от n-й степени случайной

величины:

Mn M n

Центральный момент n-го порядка – математическое ожидание от n-й степени отклонения случайной величины от своего среднего:

Mn0 M M n

Дисперсия – второй центральный момент. Поскольку дисперсия – квадратичная величина, то и измеряется она в квадратных единицах. Например, дисперсия роста измеряется в квадратных сантиметрах, возраста – квадратных годах, а атмосферного давления – в квадратных миллиметрах ртутного столба.

D M20 M M 2

Среднеквадратичное отклонение – корень квадратный из дисперсии, измеряется в тех же единицах, что и исходная величина и характеризует величину разброса случайной величины вокруг своего среднего.

D

Коэффициент вариации – отношение среднеквадратичного отклонения и среднего значения случайной величины. Используется для сравнения степени вариабельности разных переменных. Этот показатель – безразмерная величина, обычно его переводят в проценты. Например, у студентов средний рост около 170 см, а среднеквадратичное

отклонение роста – около 7 кг, т.е. коэффициент вариации роста 7/170 = 4,1%. Средний вес студентов около 70 кг, а среднеквадратичное отклонение веса – около 7 кг, т.е. коэффициент вариации веса 7/70 = 10%. Таким образом, вес – примерно в 2,5 раза более вариабельный показатель, чем рост.

var

M

Коэффициент асимметрии определяется на основе третьего центрального момента и характеризует форму плотности распределения (частотной гистограммы) – равен нулю для симметрично распределенных случайных величин, положителен, если правый «хвост» частотной гистограммы длиннее левого, и отрицателен, если левый «хвост» длиннее правого.

1

M30

3

Коэффициент эксцесса определяется на основе четвертого центрального момента и показывает степень некомпактности распределения – равен нулю для нормально распределенных случайных величин, отрицателен, если случайная величина распределена более компактно, чем нормальная, и положителен, если случайная величина распределена менее компактно. Большая величина коэффициента эксцесса указывает на наличие выбросов (выскакивающих вариант), т.е. значений, значительно отличающихся от «обычных».

2

M 40

3

4

Значения среднего арифметического, среднеквадратичного отклонения, коэффициентов асимметрии и эксцесса позволяют составить общее представление о характере распределения переменной.

Среди перечисленных параметров на звание характерного значения претендуют по крайней мере три: математическое ожидание, мода и медиана. Если случайная величина распределена относительно симметрично и компактно, то эти три параметра близки друг к другу. Для некомпактных асимметричных распределений они могут сильно различаться, и вопрос о том, какой из них можно использовать для задания «типичного» значения, требует серьезного изучения. Кроме того, у некомпактных асимметричных распределений имеются значительные технические сложности с проведением статистических расчетов и анализом их результатов.

Трудности перевода статистических терминов

Основная терминология теории вероятностей и математической статистики формировалась в первой половине 20-го века, до Второй мировой войны, когда языком науки был немецкий. Поэтому многие современные термины русскоязычной статистики –

переводы их аналогов с немецкого, точные, но тяжеловесные (особенно тяжело выговаривается «среднеквадратичное отклонение»). Поэтому тут даже у профессионалов до сих пор нет единообразия. В книгах и статьях по математической статистике можно встретить четыре варианта написания этого термина: «среднеквадратичное отклонение», «среднеквадратическое отклонение», «среднее квадратичное отклонение» и «среднее квадратическое отклонение».

В англоязычной традиции сложилась своя терминология, а поскольку статистические пакеты написаны в основном на английском языке, то буквальный перевод терминологии провоцирует ошибки. Например, «среднеквадратичное отклонение» называется «standard deviation», однако использование термина «стандартное отклонение» является грубой ошибкой. Естественно, при русификации статистических пакетов такие мелочи во внимание не берутся, поэтому это еще одна причина, по которой лучше пользоваться нелокализованными версиями.

Так как со второй половины 20-го века язык науки – английский, то имеется тенденция к сближению англоязычной и русскоязычной терминологии. Многие «свежие» статистические термины в русском языке – кальки с их английских вариантов, например, «робастность» (дословно – «устойчивость», «нечувствительность»). Ниже приведена таблица переводов и толкований статистических терминов.

Таблица. Перевод терминов с комментариями

Краткое

Полное

 

Стандартное

 

английское

английское

Русское название

Смысл

обозначение

название

название

 

 

 

 

 

 

Frequency

 

 

Количество наблюдений

 

Percent

Частота (в %)

 

Доля наблюдений данного

 

 

значения

 

 

 

 

 

Cumulative

Частота с

 

Доля наблюдений данного

 

нарастающим итогом

 

 

percent

 

и меньших значений

 

(в %)

 

 

 

 

 

 

Probability

Вероятность

 

Формализация понятия

 

 

частоты

 

 

 

 

 

 

Доверительная

, p

Вероятность получения

Sig

Signification

ложноположительного

вероятность

 

 

 

результата

 

 

 

 

 

 

 

 

Формализация понятия

 

 

Математическое

 

среднего

 

Mean

M

арифметического, для

 

ожидание

которого используется

 

 

 

 

 

 

 

обозначения x или x

 

 

 

 

 

Std

Standard

Среднеквадратичное

 

Мера характерного

Deviation

отклонение

разброса

 

 

 

Standard

Среднеквадратичное

 

Статистическая

 

 

 

 

отклонение среднего

x

погрешность вычисления

SE mean

Error of

по группе

среднего

 

Mean

 

 

наблюдений

 

арифметического

 

 

 

 

 

 

 

 

 

 

 

Разность между

 

Range

Размах

 

максимальным и

 

 

 

 

минимальным значением

 

 

 

 

Квадрат

Var

Variance

Дисперсия

D, 2

среднеквадратичного

 

 

 

 

отклонения

 

Skewness

Коэффициент

 

Мера асимметрии

 

асимметрии

 

распределения

 

 

 

 

Kurtosis

Коэффициент

 

Мера некомпактности

 

эксцентриситета

 

распределения

 

 

 

 

 

 

 

Значения большие и

 

Median

Медиана

Me

меньшие медианы

 

встречаются в 50%

 

 

 

 

 

 

 

 

наблюдений

 

Mode

Мода

 

Самое часто встречаемое

 

 

наблюдение

 

 

 

 

 

 

 

 

Определение

 

 

 

 

достоверности различий

 

Analysis of

Дисперсионный

 

между средними по

ANOVA

 

нескольким подгруппам

Variance

анализ

 

 

 

на основании сравнения

 

 

 

 

 

 

 

 

различий внутри и между

 

 

 

 

группами

Sum

Summa

Сумма

 

 

df

Degrees of

Число степеней

 

Эффективное количество

Freedom

свободы

 

наблюдений

 

 

Расчет среднего арифметического и математического ожидания Свойства математического ожидания, дисперсии и среднеквадратичного отклонения

Если при N наблюдениях случайной величины были получены величины x1, x2 ,..., xn , то среднее арифметическое можно получить по формуле

x x1 x2 ... xN

N

Другой, иногда более удобный способ расчета среднего арифметического – через частоты. Если из N наблюдений встречалось n разных значений X1, X2 ,..., Xn с частотами p1, p2 ,..., pn , то

x p1 X1 p2 X2 ... pn Xn

Аналогичным образом определяется и математическое ожидание случайной

величины, которая может принимать конечное

количество возможных

значений

X1, X2 ,..., Xn , с единственным изменением, что

здесь p1, p2 ,..., pn – не

частоты, а

вероятности:

M p1 X1 p2 X2 ... pn Xn

Так как при увеличении объема наблюдений частота стремится к вероятности, то среднее арифметическое стремится к математическое ожиданию.

Если рассматриваемая числовая случайная величина принимает бесконечно много разных значений, то технологию вычисления математического ожидания нужно уточнить. В этом случае рассматривают следующую конструкцию: приближают исходную случайную величину дискретной с конечным числом значений и вычисляют математическое ожидание этой дискретной случайной величины. После этого берут более точное приближение новой дискретной величиной и так далее. Предел математического ожидания дискретных случайных величин, все более точно описывающих исходную случайную величину, и называют математическим ожиданием этой случайной величины.

Для корректности приведенных определений нужно, чтобы предел математических ожиданий существовал и не зависел от выбора конкретной реализации приближающих последовательностей. Это, к сожалению, бывает не всегда, поэтому бывают случайные величины, для которых математическое ожидание определить нельзя.

Для того чтобы математическое ожидание существовало, достаточно, чтобы рассматриваемая случайная величина была ограничена, то есть имела конечные максимум и минимум. Так как практически все встречаемые переменные ограничены, то студенты обычно не обращают на этот момент достаточного внимания, считая то, что случайная величина может не иметь среднего арифметического, всего лишь математической заморочкой. И совершенно напрасно, так как формальные проблемы типа расходимости пределов никогда не существуют сами по себе и порождают либо содержательные проблемы при интерпретации результатов, либо технические проблемы при вычислениях.

Большое удобство работы с математическим ожиданием и средним арифметическим

– в их хорошей согласованности с линейными операциями. Это позволяет вычислить математическое ожидание линейной комбинации случайных величин по линейной комбинации их математических ожиданий.

Пусть c – любая константа, а ξ и η – любые случайные величины. Тогда справедливы следующие равенства:

1. M c c .

2.M c cM .

3.M M M .

4.M M M , если ξ и η независимы.

Важно, что третье равенство выполняется всегда, вне зависимости от того, зависят случайные величины ξ и η или нет. Например, если средний арифметический вес отдыхающих в Артеке детей до обеда был равен 40 кг и средний вес съеденного обеда 1 кг, то средний вес детей после обеда – 41 кг, независимо от того, все ли ели одинаково или что более толстые дети выпросили у тощих соседей часть порции себе.

Аналогичные свойства можно записать и для второго момента:

5.M2 c c2 .

6.M2 c c2M2 .

7.M M2 M2 2M M , если ξ и η независимы.

Для старших моментов формулы аналогичны. Для дисперсии справедливы следующие свойства:

8.D c 0 .

9.D c c2 D .

10.D D D , если ξ и η независимы.

Последнее равенство по смыслу подобно теореме Пифагора – независимые случайные величины ведут себя подобно перпендикулярным отрезкам. Это свойство можно обобщить на случай зависимых или частично зависимых случайных величин, подобно теореме косинусов:

11. D D D 2R , , где

R , – коэффициент

корреляции, который мы изучим позже.

 

Поскольку среднеквадратичное отклонение есть корень квадратный из дисперсии, то сразу получаем свойства среднеквадратичного отклонения:

12.c 0 .

13.c c .

14. 2 2 , если ξ и η независимы.

Моменты и центральные моменты можно связать соотношениями, позволяющими по одним вычислять другие. Наиболее известно и актуально для практического анализа соотношения для вторых моментов:

15. M2 M 2 D .

Наличие линейных свойств математического ожидания очень удобно для анализа. Поэтому хотя с некоторых точек зрения среднее арифметическое хуже описывает характерное значение, чем медиана или мода, обычно стараются работать со средним арифметическим и на анализ медианы переходят только в очень асимметричных и некомпактных распределениях. Дело в том, что для моды и медианы нет аналогов свойств 1–3. Даже для независимых случайных величин медиана их суммы совершенно не обязательно совпадает с суммой медиан.

Также понятно, почему в качестве меры разброса выбрано именно среднеквадратичное отклонение, хотя значительно более естественной мерой кажется, например, среднее отклонение – среднее арифметическое модуля отклонения от среднего. Однако для модуля, как и для других мер отклонения, отличных от среднеквадратичного, аналогов соотношений 11–13 нет.

Одна из частых операций, проводимых в ходе статистической обработки, - расчет среднего арифметического из нескольких наблюдений. Пусть 1, 2 ,...,n – независимые одинаково распределенные случайные величины (несколько независимых наблюдений).

 

 

1 2 ... n

 

 

 

 

 

Пусть

n . Тогда распределение

– не такое, как у исходной ξ.

Справедливо следующее:

 

 

 

 

 

 

 

 

 

 

 

 

M .

16.

M

 

 

 

 

 

D

 

 

 

17.

D

n .

 

 

 

 

 

 

 

18.

 

 

n .

Последнее соотношение дает объяснение усиленному закону больших чисел – почему при увеличении объема наблюдений статистическая ошибка определения частоты падает обратно пропорционально корню квадратному из количества наблюдений.

Выскакивающие варианты

В зависимости от характера распределения случайной величины ее среднее арифметическое может определяться как основной массой «обычных» наблюдений, так и редко встречающимися, но очень большими или очень малыми величинами. Во втором случае при анализе среднего арифметического имеются как технические, так и содержательные проблемы.

Например, если брать потери в дорожно-транспортных происшествиях, то, хотя на слуху крупные авиационные и другие катастрофы, большая часть погибших – жертвы небольших автомобильных ДТП. Более того, согласно книге рекордов Гиннеса, количество людей, погибающих в авиационных катастрофах до сих пор меньше, чем

количество людей, которых насмерть залягал осел. При этом многие боятся летать на самолете, однако никто не боится ездить на осле.

Аномально большие или малые значения, непохожие на основную долю значений случайной величины, называют выскакивающими вариантами. Это могут быть как ошибки экспериментального оборудования или промахи экспериментатора, так и проявление коренных свойств изучаемой величины. С переменными, у которых среднее арифметическое определяется выскакивающими вариантами, работать очень тяжело из-за того, что среднее арифметическое мало похоже на основную массу наблюдений и для их описания мало одного среднего арифметического, среднеквадратичного отклонения и т.д., нужны еще и процентили. Также для относительно точного определения среднего арифметического нужно очень большое количество наблюдений, так как нужно не чтобы просто всех наблюдений было много, а чтобы было много наблюдений всех встречающихся значений, в том числе выскакивающих вариант.

Например, уже десятки лет на АЭС работают тысячи реакторов по всему миру, однако несмотря на это, ущерб от атомных электростанций мы знаем лишь оценочно, отчего эта тема становится целью разного рода спекуляций.

Технические проблемы с расчетом среднего арифметического связаны с тем, что не у всех числовых случайных величин определено математическое ожидание. Для некоторых показателей определить среднее арифметическое просто невозможно. Проявляется это в том, что при увеличении количества наблюдений среднее арифметическое не стремится к некоторому пределу, а неограниченно растет, или падает, или совершает случайные скачки.

Наличие выскакивающих вариант можно оценить по величине коэффициента эксцесса.

Обычно самое лучшее, что можно сделать с выскакивающими вариантами, – выбросить их из исследования. Чаще всего это обусловлено не столько техническими, сколько содержательными мотивами. Например, грубый промах при измерении может «забить» весь исследуемый тонкий эффект, и в этом случае отбрасывание правильно со всех точек зрения. Единственное, что нужно сделать честному исследователю для того, чтобы его данные потом можно было использовать для сопоставления и обобщения, – указать при описании исследуемого материала, что эта процедура была выполнена.

Тем не менее, следует помнить, что в некоторых случаях отбрасывание выскакивающих вариант некорректно.

Классификация переменных

С формальной точки зрения с любой числовой случайной величиной можно проводить любые арифметические операции, в частности, рассчитывать для нее среднее

арифметическое. Однако исследуемые переменные не всегда или не совсем являются числовыми, иногда они только кодируются числами, на самом деле являясь нечисловыми.

Для того, чтобы вычисление среднего арифметического имело точный содержательный смысл, нужно, чтобы при сравнении любых двух значений, которые может принимать исследуемая случайная величина, можно было корректно определить их разность. Переменные такого типа называются «scale», в русском варианте буквальный перевод – «шкалируемые», однако более точным по смыслу будет термин «измеряемые».

Если для значений переменной можно корректно сказать, какое из них больше, а какое меньше, но нельзя сказать на сколько, то такие переменные относят к классу «ordinal», в русском переводе – «порядковые», «ранжируемые», «ординальные». Например, Вася Пупкин получил за зачет кол, а Петя Васечкин – пятерку. Можно корректно сказать, что Вася Пупкин завалил зачет, но нельзя сказать, во сколько раз разница между колом и двойкой больше или меньше, чем разница между четверкой и пятеркой.

Если для переменной нельзя корректно сказать, какое значение больше, а какое меньше, то такие переменные относят к классу «nominal», или «номинальные», «неупорядочиваемые», «неранжируемые». Типичный пример – группа крови. Нельзя сказать, что вторая группа крови – промежуточная между первой и третьей.

Корректно определение параметров только для измеряемых переменных. Для порядковых переменных процентили, мода и медиана – корректные параметры, а математическое ожидание, среднеквадратичное отклонение и т.д. – нет. Впрочем, при работе с такими переменными вычислять среднее арифметическое все же можно (например, средний балл абитуриентов на вступительных экзаменах), существенных ошибок здесь нет, нужно только не ограничиваться средними и анализировать еще и частоты. Для номинальных переменных расчет параметров – полный бред. Например, попробуйте выписать телефонные номера своих знакомых и дозвониться им всем сразу по среднеарифметическому номеру.

Измеряемые переменные могут быть как непрерывными, так и дискретными. Порядковые переменные чаще дискретные, однако могут быть и непрерывными. Используемые в статистической обработке номинальные переменные обязательно должны быть дискретными, поскольку невозможно анализировать непрерывную номинальную переменную (такие существуют – это должна быть переменная, у которой все значения несравнимы и которая никогда не повторяется, например, личность человека).

Домашнее задание

Задача 8.1. Чтобы не нарушать закон о персональных данных, ФИО студентов заменены кодом – 4 последними цифрами номера их телефона. Какова вероятность, что у двух и более студентов совпадут номера кода?