Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Для диссертантов_статанализ.doc
Скачиваний:
5
Добавлен:
16.08.2019
Размер:
249.34 Кб
Скачать

Что такое среднеквадратичное отклонение?

У дисперсии есть не очень хорошая черта, ее размерность имеет квадрат. Например, дисперсия роста будет см2. Какой в этом смысл? При чем здесь площадь. Поэтому взяли из дисперсии корень квадратный и назвали среднеквадратичное отклонение.

Эта величина как и дисперсия характеризует разброс.

И более того, из нее можно уже выжать кое что полезное.

Есть такое правило – правило двух S, которое гласит, что для нормального распределения определенной при большой выборке в диапазон +/-2s от среднего значения попадает 95,5% членов популяции.

Это так называемый доверительный интервал, который мы рассмотрим позднее.

Вот пример.

Отобрали на алюминиевом заводе случайным образом 200 человек. Посчитали средний рост, например 170 см. Посчитали среднеквадратичное отклонение, например 5 см. И можно объявить, не меряя остальных, что у 95% человек, работников завода, рост будет находиться в интервале от 170-5*2 до 170+5*2 . От 160 до 180 см. Какая польза от такого знания? Не знаю, придумайте сами.

Медиана и процентали

Иногда используют для оценки распределения и такие параметры. Что они означают?

Заметим, что слово проценталь связано явно со словом процент. Для нахождения них все данные сортируют и размещают в порядке возрастания.

Представим шеренгу из 100 солдат, выстроенных по росту. Рост находящегося по середине (50-го) будет медианой, рост 25-го будет 25-м проценталем , рост 75-го будет 75-м проценталем.

Если солдат не 100, а иное число, то нужно использовать проценты.

Медиана это 50-й проценталь.

Какая от этого польза?

Это позволяет оценить насколько распределение близко к нормальному и насколько допустимо использовать формулы для него.

У нормальных распределений медиана равна среднему значению;

25-й проценталь равен среднему минус 0,68s;

75-й проценталь равен среднему плюс 0,68s;

s-среднеквадратичное отклонение.

К сожалению, нигде не пишут, где же начинать считать, насколько должны быть существенны различия, чтобы распределение считалось не нормальным. Наверное, потому, что все равно другими способами расчетов достоверности пользуются исключительно редко. Но все равно, если у вас эти параметры близки, Вы можете в отчете громко заявить, что рассматриваемое распределение близко к нормальному, на основании изучения проценталей. Если нет, то скромно промолчите об этом факте.

Примечание:

Если серьезно, то есть еще и непараметрические способы определения P для ненормальных распределений на основе рангов, но об этом поговорим попозже.

Кроме того, принять считать, что все параметры, что больше 75-го проценталями это большие, меньше 50-го маленькие, а между ними входят в норму.

Доверительный интервал

В жизни мы всегда пользуемся понятием доверия и доверительного интервала. Например, мы всегда прогнозируем, или пытаемся спрогнозировать, как может поступить тот или иной человек. При этом, если человек непредсказуем, т.е. может отреагировать самыми разными способами, то можно сказать, что у него широкий доверительный интервал. Хотя я думаю, что лучше бы интервал назвали недоверительным. Ведь чем он больше, тем больше степень недоверия.

Для того, чтобы доверительный интервал имел числовое отображение условились, что оно равен такому диапазону, в который попадает 95% параметров. Т.е., вероятность того что величина находится вне доверительного интервала меньше 5%. При этом это относится не к выборке, которую мы можем сплошь и поперек измерить, а к популяции, многие из членов которой нам не доступны.

При рассмотрении среднеквадратичного отклонения мы уже видели, как можно его использовать для расчета доверительного интервала для нормального распределения. Оказалось, что если количество в группе 200 человек, то можно заявить, что рост 95% из всей популяции будет находится в диапазоне от +/-2s.

А если, измеряли не 200 человек, а меньше? Тогда как? Интуитивно понятно, что будет слишком самонадеянно, на основании измерения роста 10 человек делать такие же выводы. Но тем не менее, что то все равно сказать можно. Для этого нужно расширить доверительный интервал. Математики каким-то образом рассчитали поправочные коэффициенты. Формулы не приводят, но есть таблицы, что обычное дело в статистике. По этим таблицам для десяти членов доверительный интервал будет +/-3,5s, а для 6 членов уже +/-7,5s.