- •. Основные понятия и определения математической статистики
- •Основными этапами статистического анализа данных являются:
- •Данные и их разновидности
- •Измерительные шкалы
- •Основные характеристики и примеры измерительных шкал
- •Генеральная совокупность и выборка
- •Статистическое распределение выборки
- •Описательный (дескриптивный) анализ
- •Структурирование, ввод и проверка данных.
- •Меры центральной тенденции
- •Выбор меры центральной тенденции в зависимости от типа измерительной шкалы
- •Меры изменчивости
- •Меры связи между признаками
- •Корреляция метрических переменных
- •Корреляция ранговых переменных
- •Статистические гипотезы
- •Статистические критерии
- •Процедура проверки статистических гипотез
- •Основные законы распределения
- •Нормальное распределение.
- •-Распределение
- •Распределение Стьюдента
- •Распределение Фишера,
- •Проверка гипотез о законе распределения
- •Критерий Колмогорова
Основные характеристики и примеры измерительных шкал
Шкала |
Характеристики |
Примеры |
|
Номинальная |
Объекты классифицированы, а классы обозначены номерами. То, что номер одного класса больше или меньше другого, еще ничего не говорит о семействах объектов, за исключением того, что они различаются |
Раса, цвет глаз, номера на футболках, пол, клинические диагнозы, автомобильные номера, номера страховых полисов |
|
Порядковая |
Соответствующие значения чисел, присваиваемых предметам, отражают количество свойства, принадлежащего предметам. Равные разности чисел не означают равных разностей в количествах свойств |
Твердость минералов, награды за заслуги, ранжирование по индивидуальным чертам личности, военные ранги |
|
|
Интервальная |
Существует единица измерения, при помощи которой предметы можно не только упорядочить, но и приписать им числа так, чтобы равные разности чисел, присвоенных предметам, отражали равные различия в количествах измеряемого свойства. Нулевая точка интервальной шкалы произвольна и не указывает на отсутствие свойства |
Календарное время, шкалы температур по Фаренгейту и Цельсию |
|
Отношений |
Числа, присвоенные предметам, обладают всеми свойствами объектов интервальной шкалы, но, помимо этого, на шкале существует абсолютный нуль. Значение ноль свидетельствует об отсутствии оцениваемого свойства. Отношения чисел, присвоенных в измерении, отражают количественные отношения измеряемого свойства |
Рост, вес, время, температура по Кельвину (абсолютный ноль) |
Применение математических методов к неадекватным данным приводит к странным, а часто и ложным результатам.
1) Первое ограничение – соразмерность количественных показателей, фиксированных разными шкалами в рамках одного исследования. Более сильная шкала отличается от слабой тем, что допускает более широкий диапазон математических операций с числами. Все, что допустимо для слабой шкалы допустимо и для более сильной, но не наоборот. Поэтому, смешение в анализе мерительных эталонов разного типа приводит к тому, что не используются возможности сильных шкал.
2) Второе ограничение связано с формой распределения величины фиксированных описанными выше шкалами, которое предполагается нормальным..
Генеральная совокупность и выборка
В математической статистике выделяют два фундаментальных понятия: генеральная совокупность и выборка.
Пусть требуется изучить данную совокупность объектов относительно некоторого признака. Например, рассматривая работу диспетчера (продавца, парикмахера…), можно исследовать: его загруженность, тип клиентов, скорость обслуживания и т.д. Каждый такой признак и их комбинации образуют случайную величину, над которой производится наблюдение.
Совокупность всех подлежащих изучению объектов или возможных результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью.
Свойством генеральной совокупности называется реальное или воображаемое качество, присущее некоторым всем ее элементам. Свойство может быть случайным или неслучайным.
Параметром генеральной совокупности называется свойство, которое можно квантифицировать в виде константы или переменной величины.
Простая генеральная совокупность характеризуется:
• отдельным свойством (например: все студенты России);
• отдельным параметром в виде константы или переменной (Все студенты женского пола);
• системой непересекающихся (несовместных) свойств, к примеру: Все учителя и ученики школ г. Череповца.
Сложная генеральная совокупность характеризуется:
• системой, хотя бы частично пересекающихся свойств (Студенты гуманитарного и экономического факультетов, окончивших школу с золотой медалью);
• системой параметров независимых и зависимых в совокупности (при комплексном исследовании).
Гомогенной или однородной называется совокупность, все характеристики которой присущи каждому ее элементу;
Гетерогенной или неоднородной называется совокупность, характеристики которой сосредоточены в отдельных подмножествах элементов.
Зачастую, производить сплошное обследование трудно и дорого, а иногда и невозможно. В этих случаях наилучшим способом обследования является выборочное наблюдение: из генеральной совокупности выбирают часть ее объектов и подвергают их изучению.
Выборочной совокупностью (выборкой) называется совокупность объектов, отобранных случайным из генеральной совокупности.
Число объектов в совокупности, генеральной или выборочной, называется ее объемом и обозначается через N или n.
Конкретные
значения выборки, полученные в результате
наблюдений (испытаний), называют
реализацией
выборки
и обозначают строчными буквами
.
Метод математического исследования, состоящий в том, что на основе изучения выборочной совокупности делается заключение обо всей генеральной совокупности, называется выборочным.
Выборки классифицируются по репрезентативности, объему, способу отбора и схеме испытаний.
Репрезентативная – выборка адекватно отображающая генеральную совокупность в качественном и количественном отношениях. Выборка должна адекватно отображать генеральную совокупность, иначе результаты не совпадут с целями исследования.
Для получений хороших оценок характеристик генеральной совокупности необходимо, чтобы выборка была репрезентативной (или представительной), т.е. достаточно полно представлять изучаемые признаки генеральной совокупности. Условием обеспечения репрезентативности выборки является соблюдение случайности отбора, т.е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.
Различают выборки с возвращением (повторные) и без возвращения (бесповторные). В первом случае отобранный объект возвращается в генеральную совокупность перед извлечением следующего; во втором – не возвращается. На практике чаще используется бесповторная выборка.
В зависимости от конкретных условий для обеспечения репрезентативности применяются различные способы отбора:
простой, при котором из генеральной совокупности извлекаются по одному объекту;
типический, при котором генеральную совокупность делят на «типические» части и отбор осуществляется из каждой части (например, мнение о референдуме следует спросить у случайно отобранных людей, разделенных по признаку пола, возраста и др. …);
механический, при котором отбор производится через определенный интервал (например, мнение спросить у каждого 10-го);
серийный, при котором объекты из генеральной совокупности отбираются «сериями», которые должны исследоваться при помощи сплошного обследования.
На практике пользуются сочетанием вышеупомянутых способов отбора.
Важным параметром является объем совокупности – количество образующих ее элементов. Величина объема зависит от того, как определена сама совокупность, и какие вопросы нас конкретно интересуют.
По объему выборки делят на малые и большие. К малым относят выборки, в которых число элементов n ≤ 30. Понятие большой выборки не определено, но большой считается выборка в которой число элементов > 200 и средняя выборка удовлетворяет условию 30≤ n≤ 200. Это деление условно.
Малые выборки используются при статистическом контроле известных свойств уже изученных совокупностей.
Большие выборки используются для установки неизвестных свойств и параметров совокупности.
В выборочных результатах всегда присутствуют ошибки. Эти ошибки можно разделить на два класса: случайные и систематические. К первым относятся случайные отклонения выборочных характеристик от генеральных, обусловленные самой природой выборочного метода. Величина случайной ошибки поддается вычислению (оценке). Систематические ошибки, наоборот, не носят случайного характера; они связаны с отклонением структуры выборки от реальной структуры генеральной совокупности. Систематические ошибки появляются тогда, когда нарушается основное правило случайного отбора - обеспечение для всех объектов равных шансов попасть в выборку. Ошибки этого рода статистика не умеет оценивать.
Основными источниками систематических ошибок являются: а) неадекватность сформированной выборки задачам исследования; б) незнание характера распределения в генеральной совокупности и, как следствие, нарушение в выборке структуры генеральной совокупности; в) сознательный отбор наиболее удобных и выигрышных элементов генеральной совокупности.
