Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СМК Л5.Анализ данных.doc
Скачиваний:
1
Добавлен:
31.08.2019
Размер:
257.54 Кб
Скачать

2) Меры рассеяния.

Показатели рассеяния характеризуют степень раз­броса данных вокруг некоторого среднего значения. Мы говорим о значительном рассеянии тогда, когда многие значения сильно отклоняются от воображае­мого центра распределения. Специалисты по матема­тической статистике говорят, что в этом случае данные «размазаны». Про распределение, характеризующее­ся малым разбросом, говорят, пользуясь аналогией из области стрельбы, что данные ложатся «кучно». Понят­но, что в первом случае среднее значение оказывается более информативным показателем, чем во втором случае, то есть оно лучше описывает выборку в целом.

Например, в кордебалет идет строгий отбор танцов­щиц по росту. В результате рассеяние показателей роста в этой группе людей значительно меньше, чем по популяции в целом. Зная средний рост балерины, мож­но быть уверенным, что реальный рост любой балери­ны будет очень близок к нему.

Как оценить степень рассеяния значений перемен­ной? Здесь тоже существуют разные способы, выбор которых в каждом конкретном случае определяется характером данных — их типом и распределением.

Размах, дисперсия S2, стандартное отклонение Sx.

Не­которое представление о рассеянии мы получаем, ког­да рассматриваем крайние члены распределения. Рас­стояние между ними называется размахом.

Например, в разобранном выше примере (Табл. 2) выборка вклю­чает индивидов, чей возраст колеблется в пределах от двадцати до семидесяти лет. Общий размах составляет пятьдесят лет. Большинство людей (40 %) моложе трид­цати лет. Но в выборку попали два человека, которым уже за шестьдесят. Если мы вычислим показатель цен­тральной тенденции по формуле среднего арифмети­ческого, то получим значение 36,5.

Для более точной оценки рассеяния в случае изме­рений по шкале равных интервалов используется по­казатель, называемый дисперсия. В этом случае учиты­вается отклонение каждого индивидуального значения от среднего в одну или в другую сторону. Нас интересует сумма таких отклонений. Но в случае сим­метричного распределения эта сумма всегда обраща­ется в нуль, поскольку положительные и отрицатель­ные отклонения взаимно гасятся. Сумма квадратов отклонений от среднего, деленная на количество наблюде­ний дает значение дисперсии.

Если извлечь из дисперсии квадратный корень, то мы получим еще одну меру рассеяния — стандартное отклонение (Sx), ко­торое также называют среднеквадратическим отклонением. Удобство этого показателя в том, что он выра­жается в тех же единицах, что и сами измеренные ве­личины:

Рассмотренный показатель очень удобен, когда форма распределения близка к той, которая называет­ся нормальным распределением.

Мы уже упоминали этот термин. Сейчас поясним, что он означает. Нор­мальное распределение — это такое распределение не­прерывного признака, которое симметрично относи­тельно среднего значения и если откладывать его зна­чения на графике, то кривая имеет вид колокола. Рост человека оказывается одним из признаков, обнаружи­вающих распределение, хорошо описываемое нор­мальной кривой. Если мы измеряем рост многих лю­дей, например — призывников в армию, а затем на ос­нове этих данных строим график, то мы получаем нормальную кривую. С точки зрения анализа данных нормальное распределение привлекательно тем, что его можно исчерпывающе описать через два парамет­ра — значение среднего и стандартного отклонения (дисперсии). Вместо тысяч значений — всего два чис­ла. Чрезвычайно эффективный метод сжатия инфор­мации.

Стандартное отклонение действительно позволяет четко задавать критерии для выявления статистичес­кой нормы. Это возможно благодаря тому, что свойст­ва нормального распределения хорошо известны и до­статочно просто описываются. Так, известно, что в диапазоне одного стандартного отклонения в обе стороны от среднего оказывается примерно 68 % всех наблюдений, а если взять два стандартных отклоне­ния, то этот участок распределения покроет около 95 % всех случаев. Значит, за этот диапазон выходит всего 5% возможных наблюдений.

Используя свойства нормального распределения, можно ввести строгие количественные критерии, оп­ределяющие, что такое «нормальный вес», «нормаль­ная острота зрения» и т. д. Психологические тесты то­же создаются с опорой на эти статистические законо­мерности. Нормы для оценки резуль­татов испытаний выводят эмпирически с использова­нием аппарата математической статистики, т.е. трудность заданий подбирается таким образом, чтобы распределение результатов решения тестовых задач (число пра­вильных ответов) описывалось нормальным законом. А затем строится шкала, где среднему значению соот­ветствует сто баллов, а стандартное отклонение равно пятнадцати баллам. Также построен известный показатель - коэффициент интеллектуального развития (по-английски — intelligence quotient, или сокращенно IQ). Человек, у которого этот показатель ниже 70, считается умственно отсталым, а человека с показате­лем выше 130 относят к категории особо умственно одаренных.

Мы подробно разобрали случай, когда анализиру­ется характер распределения одной переменной. Эти приемы очень важны, поскольку на них основаны все другие виды статистического анализа.