- •Математическая статистика для психологов
- •Предмет и содержание курса, взаимосвязь курса со смежными дисциплинами, его значимость для профессиональной подготовки выпускников
- •Стохастичность и вероятность Стохастический характер реальности
- •Современное философское понимание вероятности
- •Роль математики в развитии понятия о вероятности
- •Вероятность как мера случайности
- •Предмет теории вероятностей
- •Определения понятия вероятности
- •Случайные события
- •Классическое определение вероятности
- •Геометрическое определение вероятности
- •Статистическое определение вероятности
- •Субъективная вероятность
- •Алгебра случайных событий
- •Аксиомы алгебры случайных событий
- •Отношения между случайными событиями
- •Простейшие свойства вероятности, помогающие их вычислять
- •Условная вероятность, независимые события и формула умножения вероятностей
- •Формула сложения вероятностей
- •Случайные величины Понятие функции в математике
- •Понятие случайной величины
- •Типы случайных величин
- •Закон распределения случайной величины
- •Ряд распределения дискретной случайной величины
- •Функция распределения случайной величины и её свойства
- •Плотность распределения вероятностей случайной величины
- •Математическое ожидание случайной величины и его свойства
- •Математическое ожидание дискретной случайной величины с конечным числом значений
- •Математическое ожидание дискретной случайной величины с бесконечным числом значений
- •Математическое ожидание непрерывной случайной величины
- •Свойства математического ожидания
- •Дисперсия случайной величины и его свойства
- •Свойства дисперсии
- •Другие характеристики центральных тенденций и изменчивости распределений случайных величин
- •Медиана
- •Квантили
- •Характеристики формы распределения случайной величины Понятие моментов случайной величины и z-оценки
- •Коэффициент асимметрии случайной величины
- •Эксцесс случайной величины
- •Совместные распределения случайных величин
- •Ряд распределения двумерной дискретной случайной величины
- •Плотность распределения для двумерной непрерывной случайной величины
- •Зависимые и независимые случайные величины
- •Понятие ковариации двух случайных величин и его свойства
- •Коэффициент корреляции двух случайных величин и его свойства
- •Законы больших чисел
- •Сходимость по вероятности
- •Неравенства Чебышева
- •Теорема Бернулли
- •Центральная предельная теорема
- •Понятие нормального распределения
- •Стандартное нормальное распределение
- •Правило трёх сигм
- •Нормальное распределение в реальном мире
- •Функция Лапласа
- •Вероятность попадания значения нормальной случайной величины в заданный промежуток
- •Вероятность отклонения значения нормальной случайной величины от математического ожидания
- •Прикладная статистика в психологии Происхождение и история статистики
- •Современное понимание статистики
- •Общее представление о прикладной статистике
- •Основные разделы прикладной статистики
- •Прикладная статистика как способ проверки вероятностных моделей
- •Специфика использования прикладной статистики в психологии
- •Стандарты обработки данных, нормативы представления результатов анализа данных в научной психологии
- •Шкалы измерений, связи и зависимости Научное знание и задачи науки
- •Моделирование в науке
- •Признаки и переменные
- •Понятие измерения в современной науке
- •Мера, метрика, показатель
- •Шкалы измерений, типы данных и переменных
- •Графическое представление данных
- •Зависимые и независимые переменные. Связи и зависимости: причинная и функциональная.
- •Понятие анализа данных, его цели и задачи. Связь анализа данных со статистикой
- •Описательная статистика Понятие описательной статистики
- •Ряд распределения
- •Полигон частот. Выборочная функция распределения и гистограмма.
- •Средние характеристики и характеристики рассеяния рядов распределений
- •Аналитическая статистика Понятие аналитической статистики, её составляющие
- •Выборочный метод в прикладной статистике Выборка как модель генеральной совокупности. Цели и задачи выборочного метода.
- •Статистическое понимание случайной выборки
- •Основные этапы формирования выборки
- •Единица отбора выборки
- •Определение объема выборки
- •Типы выборки и методы отбора Многоступенчатая и одноступенчатая выборки
- •Случайные и неслучайные выборки
- •Выборки для психологических исследований
- •Эмпирическая функция распределения и её свойства
- •Статистические оценки параметров генеральной совокупности
- •Параметры генеральной совокупности и выборочные статистики
- •Понятие точечной оценки и её свойства
- •Выборочное среднее как статистическая оценка среднего в генеральной совокупности
- •Статистическая оценка генеральной дисперсии
- •Статистическая оценка вероятности или генеральной доли
- •Понятие интервальной оценки
- •Доверительный интервал и доверительная вероятность
- •Основные задачи интервального оценивания
- •Доверительный интервал для математического ожидания при известном стандартном квадратичном отклонении
- •Доверительный интервал для математического ожидания при неизвестном стандартном квадратичном отклонении
- •Доверительный интервал для генеральной доли
- •Проверка статистических гипотез Понятие статистической проверки гипотез, её цели, задачи и основные понятия
- •Статистический критерий для проверки статистической гипотезы
- •Критическая область критерия: односторонняя и двусторонняя
- •Основной принцип проверки статистической гипотезы
- •Этапы проверки статистических гипотез, минимальный уровень значимости
- •Проверка статистической гипотезы о среднем
- •Проверка статистической гипотезы о равенстве средних
- •Проверка статистической гипотезы о генеральной доле
- •Проверка статистической гипотезы о равенстве долей или вероятностей
- •Программное обеспечение прикладной статистики Информационные технологии расчётов в электронных таблицах (пример - Microsoft Excel)
- •Статистические функции и их использование в Microsoft Excel
- •Построение диаграмм и графиков в Microsoft Excel
- •Информационные технологии статистической обработки данных
Свойства дисперсии
Свойства дисперсии одинаковы для всех типов случайных величин, как и для математических ожиданий.
,
где C – это константа, т.е. дисперсия
константы равно нулю, потому что значения
такой случайной величины вообще не
отклоняются от её средней.
т.е. дисперсия любой случайной величины
всегда неотрицательна.
,
если случайные величины независимы.
Тогда дисперсия их суммы равна сумме
их дисперсий.
,
где a – это какое-то число. Значит, число
можно выносить из под знака дисперсии
с возведением этого числа в квадрат.
,
где a и b – это числа, это следствие из
предыдущих свойств дисперсии.
,
т.е. дисперсия является чётной функцией
от случайной величины – не имеет
значения, вычисляется дисперсия от
самой случайной величины или
противоположной ей по значениям (со
знаками минус). Обе эти дисперсии будут
равны.
Другие характеристики центральных тенденций и изменчивости распределений случайных величин
Числовые характеристики случайных величин можно условно разделить на основные и вспомогательные. К основным характеристикам относятся характеристики положения случайной величины и характеристики рассеяния. Характеристики положения указывают некоторую точку на числовой оси, вокруг которой группируются возможные значения случайной величины. К ним относятся математическое ожидание, мода и медиана случайной величины. Характеристики рассеяния являются некоторой мерой разброса возможных значений случайной величины около своего центра рассеяния, например, математического ожидания. Характеристиками рассеяния являются дисперсия и стандартное отклонение случайной величины, которая полностью определяется дисперсией, но может быть удобна в практическом применении.
Дополнительные числовые характеристики случайных величин применяются для дальнейшего уточнения их свойств. К таким характеристикам, прежде всего, относятся асимметрия (или скошенность) и эксцесс (или островершинность) закона распределения случайной величины. К дополнительным характеристикам относится и коэффициент вариации случайной величины, который характеризует относительный разброс возможных значений случайной величины.
Математическое ожидание и дисперсия случайной величины вместе со стандартным отклонением были описаны выше. Опишем теперь другие числовые характеристики случайных величин.
Мода
Модой непрерывной случайной величины X называется такое значение x, при котором плотность распределения вероятностей случайной величины p(x) принимает максимальное значение. Модой для дискретной случайной величины является её наивероятнейшее значение, на практике – наиболее частое значение. Мода обозначается через Mo.
Таким образом, мода – это наиболее часто встречающееся значение в наборе данных. В случае, если данные сгруппированы и построено распределение частот, модой является значение в данных, имеющее наибольшую частоту. Моду можно использовать для измерения центральной тенденции распределения, как дискретных, так и непрерывных случайных величин. Но необходимо учитывать и ограничения в применении моды для такого использования: мода показывает только расположение наиболее частого значения в данных, но не позволяет учесть другие важные особенности распределения, например, число наблюдений выше или ниже моды, расстояния между модами, если их в распределении несколько, и т.п.
Для нахождения моды непрерывной случайной величины нужно исследовать плотность распределения вероятностей на максимум. Для этого нужно найти стационарные точки, как корни уравнения p′(x) = 0, затем применить к найденным точкам один из достаточных признаков максимума. Если максимумов вообще нет, то говорят, что моды не существует. Если максимум один, то закон распределения называют одномодальным, если максимумов несколько, то – многомодальным. На рисунке ниже представлены одномодальное распределение (а) и бимодальное или двухмодальное распределение (б).
Рисунок. Одномодальное распределение (а) и бимодальное распределение (б)
Таким образом, получается, что мода – это локальная, а не глобальная характеристика непрерывного случайного распределения. Ведь для глобальной характеристики всегда получалась бы одна единственная мода – значение с максимальной частотой. Но и в теории и в практике понимание моды как локальной характеристики непрерывного случайного распределения стало уже общепринятым. Необходимо отметить, что бывают и распределения, имеющие три и более мод, но при большом числе мод описание распределения в терминах наиболее частых значений уже, как правило, теряет смысл.
Для определения моды дискретной случайной величины необходимо построить её ряд распределения, а в нём выбрать значение, для которого абсолютная или относительная частота будет максимальной.
Пример. Пусть распределение проданной в магазине женской обуви по размерам характеризуется следующим образом:
Размер обуви |
34 |
35 |
36 |
37 |
38 |
39 |
40 |
41 |
Количество проданных пар |
8 |
19 |
34 |
108 |
72 |
51 |
6 |
2 |
В этом ряду распределения модой является 37 размер, потому что с этим размером было продано больше всего обуви – 108 пар. Следовательно, в этом примере Мо=37.
Но бывает, что данные заданы интервалами значений частот, а не конкретными их значениями для каждого отдельного данного. Для интервальных данных определение моды несколько сложнее, и её невозможно определить точно. Общепринятой является такая процедура определения моды в этих случаях. Сначала нужно найти интервал значений данных, для которого суммарная частота является наибольшей. Этот интервал можно назвать модальным интервалом, т.е. интервалом, частота которого максимальна относительно других интервалов.
В самом простом варианте для интервальных данных модой считается середина этого модального интервала.
Для большей обоснованности определения моды для интервальных данных делается некоторое общепринятое допущение о том, что интервалы выше и ниже модального в зависимости от своей частоты имеют разные веса и влияют на положение моды, как бы перетягивают моду в свою сторону. Если частота интервала следующего за модальным больше, чем частота интервала перед модальным, то мода будет правее середины модального интервала и наоборот. Общепринятой формулой расчёта моды с учётом весов интервалов, прилегающих к модальному, является такая:
,
где
- это мода,
- значение начала модального интервала
(его левая граница),
- ширина модального интервала (от левой
до правой границы),
- частота модального интервала,
- частота интервала непосредственно
предшествующего модальному, а
- частота интервала непосредственно
следующего за модальным. Следовательно,
в этой формуле мода интервального ряда
представляет собой сумму значения
начального уровня модального интервала
и ширины отрезка, который определяется
соотношением частоты ближайших к
модальному интервалов.
В электронных таблицах, например, в Microsoft Excel, почти всегда есть встроенные функции для вычисления моды. В русскоязычной версии Microsoft Excel такая функция так и называется =МОДА(), она вычисляет моду для массива или одного интервала значений. Но эта функция не подходит для вычисления моды для интервальных данных, с несколькими интервалами значений.
Пример. Пусть распределение сотрудников по стажу их работы характеризуется следующими данными.
Стаж работы, лет |
0-2 |
2-4 |
4-6 |
6-8 |
8-10 |
10 и более |
Число сотрудников, чел. |
4 |
23 |
20 |
35 |
11 |
7 |
В самом простом варианте медианным стажем работы сотрудников можно считать 7 лет, потому что медианным является интервал данных от 6 до 8 лет стажа, а среднее арифметическое концов этого интервала даёт его середину, т.е. Мо=(6+8)/2=7.
С
учётом ближайших к модальному интервалов
моду нужно вычислять по более сложной
формуле:
.
Это, безусловно, приближённое значение
моды, но в данном случае точно её значение
определить невозможно. И на практике
считается, что этот второй вариант
определения моды для интервального
ряда распределения точнее даёт её
значение, чем для простого варианта с
серединой интервала.
Для вычисления моды непрерывной случайной величины необходимо находить экстремумы её плотности распределения.
Пример. Найти моду следующей непрерывной случайной величины, заданной своей плотностью:
Сначала
найдём производную от плотности:
=
.
Теперь решим уравнение
.
Приравняем к нулю результат вычисления
этой производной:
.
В левой части два сомножителя больше
нуля:
по условию задачи, а
,
потому что значения показательной
функции всегда больше нуля. Получается,
что нулю может равняться только последний,
третий сомножитель:
.
Решая это линейное уравнение, получаем:
.
В этой точке плотность вероятности
будет иметь максимум, потому что величина
при
,
т.е. левее
плотность вероятности возрастает, при
величина
,
, т.е. правее
плотность вероятности убывает. Поэтому
в самой точке
плотность вероятности нашей случайной
величины имеет максимум, т.е. это и есть
мода этой случайной величины.
