Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СМК Л5.Анализ данных.doc
Скачиваний:
1
Добавлен:
31.08.2019
Размер:
257.54 Кб
Скачать

3) Оценка параметров распределения.

Построение таблиц и графиков — это первый шаг статистического анализа. Следующим шагом является оценка параметров распределения. Вычисляются пока­затели, которые позволяют дать еще более сжатое опи­сание наблюдаемых значений.

Эти показатели распада­ются на две основные группы: 1) меры центральной тен­денции;

2) Меры рассеяния.

1) Меры центральной тенденции. Они указывают на расположение среднего, или типичного, значения признака, вокруг которого сгруппированы остальные наблюдения. Понятие среднего, цент­рального, значения в статистике, как и в повседневной жизни, под­разумевает нечто «ожидаемое», «обычное», «типичное». Наиболее часто используют так называемое среднее (арифметическое). Вычисляют его, как известно, путем суммирования значений всех на­блюдений и деления полученной суммы на общее число наблюдений. Для числовой шкалы:

то есть

где X1…Xi – наблюдаемые значения, n – число наблюдений.

В случае сгруппированных данных (шкала интервалов) посту­пают следующим образом: находят середину каждого интервала, это значение умножают на частоту, получен­ные величины складывают и делят на общее число наблюдений. Рассматриваемый показатель характеризует область распределения, в которой концентрируются наиболее типичные представители изучаемой выборки. Но это справедливо лишь для тех случаев, когда распре­деление близко к нормальному. При таком распределе­нии основная масса значений концентрируется в его средней части, а любые отклонения встречаются тем реже, чем дальше они отстоят от центра. Например, распределение такого признака, как рост человека, в целом близко к нормальному: больше всего людей среднего роста, а очень высокие и очень маленькие по­падаются довольно редко. Средняя величина удобна для сравнения двух выборок или двух популяций. Так, мы говорим, что мужчины в среднем выше женщин, и это утверждение вполне справедливо несмотря на то, что встречаются высокие женщины, рост которых значи­тельно превышает среднестатистический. Или, напри­мер, известно, что средний рост мужчины-пигмея мень­ше роста средней европейской женщины.

Две другие меры центральной тенденции — это мо­да (Мо) и медиана (Мd). В качестве моды берется значение, кото­рое чаще всего встречается в распределении. Моду специально вычислять не надо. Достаточно сгруппиро­вать данные и выбрать тот класс, в который попадает больше всего наблюдений. В разобранном выше при­мере (Табл. 1) лучше всего представлена категория се­мейных людей. Это и есть мода для данной выборки. Встречаются распределения, име­ющие не одну, а две моды. Распределение такого типа называется бимодальным. На графике в этом случае мы увидим две вершины. Чаще всего это указывает на то, что выборка является неоднородной: в ней присут­ствуют два типа объектов. Констатация такого факта обычно наводит нас на мысль разбить всю выборку на две подгруппы и рассмотреть их отдельно.

Медиана (Md) — это значение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая — больше. Иными словами, медиана — это 50-й процентиль распределения. Как мы уже видели, при работе с большим массивом данных удоб­нее всего искать медиану, построив на основании частотного рас­пределения распределение накопленных частот (или построив рас­пределение накопленных процентов на основании распределения процентов). Если число значений в группе наблюдений чет­ное, то медианой будет среднее двух центральных значений.

Когда распределение имеет нор­мальный вид (то есть оно симметрично), его среднее арифметическое значение и медиана совпадают. Ког­да же распределение асимметрично (скошено), медиа­на лучше схватывает его центральную тенденцию. Выбор подходящей меры центральной тенденции определяется как характером распределения, так и характером используемых данных.

Качественные дан­ные (шкала наименований) допускают использование только моды. Для ранжированных данных (шкала порядка) допустимо использование и моды, и медианы. Количественные данные (шкала равных интервалов) можно описывать любым из трех показателей, хотя на практике чаще всего в этом случае вычисляют среднее арифметическое значение. Именно этот показатель вместе с показателем рассеяния участвует в расчете целого ряда других статистических показателей.