
- •Описательная статистика
- •Глава 1 Описательная статистика
- •§1. Случайные события и случайные величины
- •Типы шкал
- •Вариационный ряд
- •Сгруппированный интервальный вариационный ряд
- •Полигон. Гистограмма
- •§2. Нормальное распределение случайной величины. Числовые характеристики нормального распределения и их точечные оценки
- •§3. Интервальные оценки случайной величины
- •Доверительный интервал для отдельных значений изучаемого признака при известном параметре σ
Описательная статистика
_____________________________________________________________________________________
Глава 1 Описательная статистика
§1. Случайные события и случайные величины
Все процессы, происходящие в природе, являются результатом взаимодействия многих факторов. Для того чтобы изучить эти процессы и в дальнейшем ими управлять, необходимо выяснить, какую роль в рассматриваемом процессе играет каждый фактор в отдельности. Так, например, изучая самочувствие больного, приходится учитывать множество факторов, как улучшающих его, так и ухудшающих. Все эти факторы необходимо выразить в каких-то количественных оценках. Таким образом, математические методы изучения взаимодействующих факторов требуют умения выражать действие различных факторов количественно. Чтобы получить необходимые числовые данные, нужно произвести серию наблюдений. Случайные, непредвиденные события в массе своей подчиняются некоторым общим неслучайным закономерностям.
Наука, изучающая закономерности массовых случайных событий, называется теорией вероятностей. Применение теории вероятностей к обработке больших совокупностей чисел называется математической статистикой.
Использование методов математической статистики в обработке наблюдений оказывается весьма плодотворным. Закономерности отклонений при наблюдениях изучены достаточно хорошо, составлены многочисленные таблицы. Это позволяет значительно сокращать объем наблюдений.
Но случайность остается случайностью, и никакие теории при наличии непредвиденных и случайных факторов не могут давать точные и однозначные ответы. Основная задача математической статистики при обработке наблюдений – оценить риск той или иной ошибки в полученном результате.
Основу изучения различных процессов, происходящих в природе, составляет выяснение всевозможных причинно – следственных связей между отдельными явлениями путем эксперимента.
Событие, которое при заданном комплексе факторов обязательно произойдет, называется достоверным событием. Например, восход и закат Солнца есть события достоверные.
Событие, которое не может осуществиться при заданном комплексе факторов, называется невозможным событием. Так, невозможным событием является электрический ток в цепи при отсутствии в ней источника тока.
Событие, которое при заданном комплексе факторов может либо произойти, либо не произойти, называется случайным событием. В дальнейшем вместо слов «случайное событие» употребляется просто термин «событие».
С примерами случайных событий мы встречаемся на каждом шагу, если задаемся вопросами: какой номер автобуса раньше подойдет к остановке, на которой мы ожидаем; выпадет ли завтра дождь; какой стороной упадет подброшенная вверх монета – везде, где отсутствует полная информация, появляется случайность.
Для того чтобы выяснить, произойдет или не произойдет некоторое событие при заданном комплексе основных факторов, нужно, прежде всего, осуществить этот комплекс. Каждое такое осуществление принято называть испытанием. Испытанием является, в частности, любой эксперимент, в результате которого производятся наблюдения. Ожидание автобуса, подбрасывание монеты в приводившихся примерах – тоже испытания.
Предсказать результат единичного испытания можно лишь для достоверных или невозможных событий. Случайность же события вообще не видна при единичном испытании: если событие произойдет, оно может показаться нам достоверным, если не произойдет – невозможным. Теория случайных событий может появиться лишь при большом числе испытаний, лишь для массовых событий.
Важным условием при этом является неизменность заданного комплекса основных факторов. События, происходящие при одном и том же комплексе основных факторов, называются однородными. Практика показывает, что события, сами по себе случайные, в большой массе при наличии однородности начинают подчиняться некоторым неслучайным закономерностям.
Статистическое определение вероятности
Вероятностью события А называется предел отношения числа испытаний m в которых событие А произошло к общему числу испытаний n, при условии что общее число испытаний n стремится к бесконечности.
Число испытаний должно быть достаточно большим. Например, для выяснения вероятности появления орла или решки двух испытаний не достаточно, т.к. в обоих случаях может выпасть орел или решка и тогда вероятность их выпадения окажется 100%
Приведенное здесь определение вероятности называется статистическим. Оно позволяет вычислять вероятности таких событий, о структуре которых ничего неизвестно и частоту которых нельзя предсказать заранее. Например, только статистические данные за многие годы позволили найти вероятности рождения мальчиков и девочек. Оказалось, что эти вероятности различны. Вероятность рождения мальчиков равна примерно 0,52.
Статистическое определение вероятности является самым широким по числу охватываемых событий. Оно ничего не требует от события, кроме принципиальной возможности проводить над ним сколь угодно большое число испытаний. Существуют другие, более удобные с формальной точки зрения определения вероятности.
Согласно классическому определению, вероятность случайного события равна отношению числа исходов m, благоприятствующих событию А, к числу всех возможных, исходов n.
Основное отличие классического определения от сформулированного в предыдущем пункте статистического в том, что здесь вероятность определяется до всяких испытаний, только исходя из структуры возникающих случайных событий (их разбиения на равновозможные исходы). Т.е данную вероятность можно посчитать, не проводя опытов!
Понятие случайной величины
Интерес к изучению случайных событий связан в первую очередь с тем, что именно к ним относятся результаты большинства наблюдений. Даже самый точный метод анализа дает при повторениях некоторое расхождение в результатах (ошибку воспроизводимости), значит, здесь каждый числовой результат есть случайное событие. Случайными являются содержание сахара или гормонов в крови, рост и вес обследуемых пациентов и т.д. В медицине и биологии рассматривают объект наблюдения, например, больного. В процессе наблюдения выявляют пол больного, состояние заболевания, рост, вес, количественные данные лабораторных исследований и т.д. Отдельные параметры, например пол, являются качественными, другие, например рост, являются количественными.
Рассмотренные примеры приводят нас к важному понятию случайной величины. Случайной величиной называется величина, принимающая в результате испытания определённое значение, которое нельзя предсказать, исходя из условий испытания.
Случайная величина обладает целым набором допустимых значений, но в результате каждого отдельного испытания принимает лишь какое-то одно из них. Очень важно отметить, что случайная величина может принимать различные значения при неизменном комплексе основных факторов. Причина её изменения от испытания к испытанию кроется в не учитываемых нами факторах, которые мы назвали случайными. Случайные величины подразделяют на дискретные и непрерывные. Дискретные случайные величины принимают строго определенные значения и других значений между ними быть не может. Непрерывные случайные величины принимают любое значение в заданном интервале.
Типы статистических шкал (или типы переменных)
Переменные различаются между собой тем, «насколько хорошо» они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает шкала их измерений. Известно, что в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить в данном измерении. Тип шкалы, в которой проведено измерение, является еще одним фактором, определяющим количество информации, содержащейся в переменной. Различают следующие типы шкал: номинальная, порядковая (ординальная), интервальная относительная (шкала отношения). Соответственно мы имеем четыре типа переменных.
Шкала наименований (номинальная шкала) фактически не связана с понятием «величина» и используется только для качественной классификации с целью отличить один объект от другого: номер животного в группе или присвоенный ему уникальный шифр и т.п. Данные переменные могут быть измерены только как принадлежность к некоторым, существенно различным классам; при этом вы не сможете упорядочить эти классы. Например, индивидуумы принадлежат к разным национальностям. Типичные примеры номинальных переменных - пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Категориальные переменные часто представляют в виде частот наблюдений, попавших в определенные категории и классы. Если классов всего два, то переменная будет называться дихотомической. Например, при исследовании выборки было установлено, что к первой категории Пол женский отнесено 30 испытуемых с повышенным АД, а ко второй категории Пол мужской отнесено 25 испытуемых с повышенным АД. Возможности обработки переменных, относящихся к номинальной шкале, очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Пол, совершенно бессмыслен.
Порядковая шкала (шкала рангов) – шкала, относительно значений которой нельзя говорить ни о том, во сколько раз измеряемая величина больше (меньше) другой, ни на сколько она больше (меньше). Такая шкала только упорядочивает объекты, приписывая им те или иные баллы (результатом измерений является нестрогое упорядочение объектов). При этом указывается, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать «на сколько больше» или «на сколько меньше». Порядковые переменные иногда также называют ординальными. Номера домов на улице измерены в порядковой шкале. Типичный пример порядковой переменной - социоэкономический статус семьи. Для размера одежды используют следующую порядковую шкалу: S, M, L, XL,XXL, XXXL, XXXXL. Шкала твердости минералов Мооса также является порядковой. Аналогично построены шкалы силы ветра Бофорта и землетрясений Рихтера. Шкалы порядка широко используются в педагогике, психологии, медицине и других науках, не столь точных, как, скажем, физика и химия. В частности, повсеместно распространенная шкала школьных отметок в баллах (пятибалльная, двенадцати балльная и т.д.) может быть отнесена к шкале порядка. В медико-биологических исследованиях шкалы порядка встречаются сплошь и рядом и подчас весьма искусно замаскированы. Например, для анализа свертывания крови используется тромботест: 0 – отсутствие свертывания в течение времени теста, 1 –«слабые нити», 2 – желеподобный сгусток, 3 – сгусток, легко деформируемый, 4 – плотный, упругий, 5 – плотный, занимающий весь объем и т.п. Понятно, что интервалы между этими плохо отличимыми и очень субъективными позициями произвольны. В этом случае сравнивать средние значения в двух выборках не имеет смысла!! Масса подобных шкал все еще встречается в экспериментальной токсикологии, экспериментальной хирургии, экспериментальной морфологии. Порядковыми шкалами в медицине являются шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья. Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.
Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Шкала Цельсия, как известно, была установлена следующим образом: за ноль была принята точка замерзания воды, за 100 градусов – точка ее кипения, и, соответственно, интервал температур между замерзанием и кипением воды поделен на 100 равных частей. Здесь утверждение, что температура 40°С в два раза больше, чем 20°С, будет неверным. В шкале интервалов сохраняется отношение длин интервалов. Вы можете не только сказать, что температура 40°С выше, чем температура 30°С, но и что увеличение температуры с 20°С до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов. Такие переменные могут обрабатываться любыми статистическими методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.
Шкалами отношений измеряются почти все физические величины – время, линейные размеры, площади, объемы, сила тока, мощность и т.д. Это самая мощная шкала. К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. В медико-биологических исследованиях шкала отношений будет иметь место, например, когда измеряется время появления того или иного признака после начало воздействия (порог времени, в секундах, минутах), интенсивность воздействия до появления какого-либо признака (порог силы воздействия в вольтах, рентгенах и т.п.). Естественно, к шкале отношений относятся все данные в биохимических и электрофизиологических исследованиях (концентрации веществ, вольтажи, временные показатели электрокардиограммы и т.п.). Сюда же, например, относятся и количество правильно или неправильно выполненных «заданий» в различных тестах по изучению высшей нервной деятельности у животных. Например, температура по Кельвину образует шкалу отношения, и при этом можно утверждать, что температура 200 градусов не только выше, чем 100 градусов, но при этом она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. Для двух последних шкал возможно вычисление таких числовых показателей, как среднее значение, стандартное отклонение.
Рассмотрим еще несколько конкретных примера переменных в эмпирическом исследовании. Пусть они кодируются следующим образом:
Таблица 1.1