
- •Введение
- •Литература
- •Элементы теории вероятностей
- •Случайное событие и вероятность
- •Определение вероятности
- •Принцип практической невозможности маловероятных событий
- •Формулы комбинаторики
- •Условная вероятность
- •Независимые события
- •Свойства вероятности
- •Формула полной вероятности
- •Формула Байеса
- •Случайная величина
- •Свойства математического ожидания
- •Дисперсия дискретной с.В.
- •Свойства дисперсии
- •Закон больших чисел.
- •Функция распределения случайной величины
- •Свойства функции распределения
- •Односторонние и двухсторонние значения вероятностей
- •Нормальное распределение
- •Взаимосвязи случайных величин Парная корреляция
- •Элементы математической статистики
- •Генеральная и выборочная совокупность
- •Основные шкалы измерений
- •Точечные оценки параметров распределения
- •Проверка статистических гипотез
- •Исследование зависимости между двумя характеристиками
- •Лабораторная работа Задание 1. Нахождение выборочных характеристик
- •Задача 1.1.
- •Задача 1.2.
- •Задача 1.3.
- •Задача 1.4.
- •Задача 1.5.
- •Задача 1.6.
- •Задание 2 Построение гистограммы выборки
- •Задача 2.1
- •Задание 3 Проверка статистических гипотез
- •Одновыборочный критерий Стьюдента
- •Двухвыборочный критерий Стьюдента
- •Критерий согласия хи-квадрат
- •Задание 4. Интервальные оценки
- •Задача 4.1.
- •Задача 4.2.
- •Анализ значения коэффициента корреляции
- •Построение линий регрессии
- •Преподавателю и студенту было предложено расположить 15 профессий в порядке их восстребованности на рынке. В результате получилась следующая таблица:
- •Оглавление
Генеральная и выборочная совокупность
В статистических исследованиях ставится задача изучения совокупности однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. (В качестве признака могут выступать температура человека, его рост, количество преступлений и т.д.). Качественные признаки обычно несут информацию о категориях, к которым можно отнести изучаемый объект и, в общем случае, могут выражаться нечисловыми (категоризованными) данными. Их нельзя складывать и умножать на коэффициенты. Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости или различия). С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, и т.д.
Очень часто по различным причинам бывает невозможно провести сплошное обследование всех значений изучаемых параметров (например, проверить на таможне качество каждого ввозимого лекарственного препарата). В таких случаях в результате наблюдения за объектом формируется ограниченная по объему совокупность значений параметра, которую называют выборочной совокупностью. Объем выборочной совокупности – число значений этой совокупности. Совокупность всевозможных значений параметра, которые могут быть зарегистрированы в ходе неограниченного по времени наблюдения за объектом, называют генеральной совокупностью.
Пусть из генеральной совокупности извлечена выборка:
Значение |
|
|
… |
|
Частота наблюдения |
|
|
… |
|
Здесь
- это значение анализируемого параметра,
а
- количество анализируемых объектов,
для которых это значение наблюдается.
Полный объем выборки составляет
.
Довольно часто значения
упорядочиваются по возрастанию. В этом
случае, наблюдаемые значения
изучаемых признаков называют вариантами,
сами признаки – переменными, а
последовательность вариант, записанных
в возрастающем порядке – вариационным
рядом. Форма представления выборки в
виде вариационного ряда не приводит к
потере информации о каждом элементе
выборки, но искажает информацию в целом,
устанавливая зависимость между соседними
элементами ряда. Число наблюдений
различных значений называют частотами,
а их отношения к объему выборки
–
относительными частотами. Статистическим
распределением выборки называют перечень
вариант и соответствующих им частот.
Для наглядности часто строят различные
графики статистического распределения
(полигоны частот и гистограммы). Пусть
– количество наблюдений, при которых
случайные значения параметра
меньше
.
Частость события
равна
.
Это отношение является функцией от
и от объема выборки:
.
Величина
обладает
всеми свойствами функции распределения:
неубывающая функция, ее значения
принадлежат отрезку [0,1]; если
– наименьшее значение параметра, а
– наибольшее, то
,
когда
,
и
,
когда
. Функция
называется эмпирической функцией
распределения. В отличие от эмпирической
функции
функцию распределения
генеральной совокупности называют
теоретической функцией распределения,
она характеризует не частость, а
вероятность события
.
При построении выборки приходится решать следующие важные задачи:
обеспечение случайного отбора вариант из генеральной совокупности (все элементы генеральной совокупности должны иметь одинаковые шансы попасть в выборку);
обеспечение репрезентативности (представительности) выборки, характеризующей в какой степени отобранные данные отражают структуру генеральной совокупности;
определение необходимого объема выборки для формирования статистически значимого заключения по результатам проведенных исследований.
Например, довольно сложно оценить ситуацию по определенным видам правонарушений по всей стране. В этом случае можно рассмотреть один или несколько регионов, провести анализ соответствующих показателей, и затем попытаться результаты исследований распространить на все регионы. На этом пути возникают определенные вопросы: Насколько правомерно результаты, полученные по одному региону переносить на другой регион? Ведь регионы отличаются по экономическим, этнографическим, историческим и другим показателям. Какой объем выборки считать достаточным, для получения результатов с определенной степенью надежности. Понятно, что исследование одного индивида в отдельности не позволяет делать вывод о состоянии общества для региона в целом. Какое количество правонарушений должно быть обследовано, чтобы гарантировать определенную надежность результатов обследования. Эти вопросы довольно сложны, требуют тщательного анализа и выходят за круг вопросов, рассматриваемых в данном курсе. С другой стороны совершенно ясно, что невозможно проверить все данные, и приходится принимать решения на основе анализа части имеющихся в наличии данных, заранее соглашаясь при этом на возможность ошибочного вывода.