
- •Основные условные обозначения в математической статистике
- •Содержание
- •Введение
- •Основы теории вероятностей
- •1Предмет и метод математической статистики
- •2Понятие случайного события
- •3Вероятность случайного события
- •4Основные теоремы теории вероятностей
- •4.1Сложение вероятностей
- •4.2Умножение вероятностей
- •4.3Вычисление вероятностей
- •Случайные переменные
- •5Понятие случайной переменной
- •5.1Дискретные случайные переменные
- •5.2Непрерывные случайные переменные
- •6Математическое ожидание и дисперсия
- •7Моменты
- •Дискретные распределения
- •8Биномиальное распределение и измерение вероятностей
- •9Распределение редких событий (Пуассона)
- •Основные модели теоретических распределений
- •10Прямоугольное (равномерное) распределение
- •11Нормальное распределение
- •12Логарифмически нормальное распределение
- •Распределения параметров выборки
- •13.1Проблема Беренса–Фишера
- •15Χ2–распределение
- •Основы математической статистики
- •16Средние величины
- •16.1Общие свойства средних величин
- •17Средняя арифметическая
- •17.1Средний ранг (непараметрическая средняя)
- •17.2Взвешенная средняя арифметическая
- •17.3Средняя квадратическая
- •17.4Мода
- •17.5Медиана
- •18Средняя геометрическая
- •19Средняя гармоническая
- •Разнообразие значений признака
- •20Стандартное (среднеквадратическое) отклонение
- •20.1Число степеней свободы
- •20.2Коэффициент вариации
- •20.3Лимиты и размах
- •20.4Приближенные значения μ и
- •20.5Нормированное отклонение
- •21Проверка выпадов (артефактов)
- •22Средняя и сигма суммарной группы
- •23Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
- •Графическое представление распределений
- •24Вариационный ряд
- •25Гистограмма и вариационная кривая
- •26Кумулята
- •27Достоверность различия распределений
- •27.1Критерий χ2 (хи квадрат)
- •27.2Критерий λ (лямбда)
- •27.3Критерий по асимметрии и эксцессу
- •Нормальное распределение
- •28Генеральная совокупность и выборка
- •29Репрезентативность
- •30Ошибки репрезентативности и другие ошибки исследований
- •31Доверительные границы
- •Оценка генеральных параметров
- •32Общий порядок оценки
- •32.1Оценка средней арифметической
- •32.2Оценка средней разности
- •32.3Недостоверная и достоверная оценка средней разности
- •32.4Оценка разности генеральных средних
- •33Критерий достоверности разности
- •34Репрезентативность при изучении качественных признаков
- •35Достоверность разности долей
- •Парная корреляция
- •36Коэффициент корреляции
- •37Ошибка коэффициента корреляции
- •37.1Достоверность выборочного коэффициента корреляции
- •37.2Доверительные границы коэффициента корреляции
- •37.3Достоверность разности двух коэффициентов корреляции
- •38Уравнение прямолинейной регрессии
- •39Ошибки элементов уравнения прямолинейной регрессии
- •Частная и множественная линейные корреляции и регрессии
- •40Частный коэффициент корреляции
- •41Множественный коэффициент корреляции
- •42Линейное уравнение множественной регрессии
- •Криволинейная корреляция и регрессия
- •43Корреляционное отношение
- •44Свойства корреляционного отношения
- •45Ошибка репрезентативности корреляционного отношения
- •46Критерий линейности корреляции
- •Однофакторный дисперсионный анализ
- •47Сущность и метод дисперсионного анализа
- •47.1Результативный признак
- •47.2Фактор
- •47.3Градации факторов
- •47.4Градации комплекса
- •47.5Дисперсионный комплекс
- •47.6Статистические влияния
- •47.7Факториальное влияние
- •47.8Случайное влияние
- •47.9Общее влияние
- •48Однофакторный дисперсионный комплекс
- •Многофакторный дисперсионный анализ
- •49Многофакторный дисперсионный комплекс
- •50Преобразования
- •51Универсальное использование дисперсий
- •51.1Показатели силы влияний
- •51.2Ошибка репрезентативности основного показателя силы влияния
- •51.3Предельные значения показателей силы влияния
- •51.4Достоверность влияний
- •Классификация
- •52Дискриминантный анализ
- •52.1Постановка задачи, методы решения, ограничения
- •52.2Предположения и ограничения
- •52.3Алгоритм дискриминантного анализа
- •53Кластерный анализ
- •53.1Методы кластерного анализа
- •53.2Алгоритм кластерного анализа
- •Литература
- •Приложение. Основные формулы и определения
- •2 46019, Г. Гомель, ул. Советская, 104
Классификация
16.1 Дискриминантный анализ
16.2 Кластерный анализ
Классификацией называют разделение рассматриваемой совокупности объектов или явлений на однородные в определенном смысле группы.
Различают классификацию при наличии обучающих выборок (дискриминантный анализ) и классификацию без обучения. К классификации без обучения относят методы автоматической классификации (кластерный анализ).
52Дискриминантный анализ
Дискриминантный анализ является одним из методов многомерного статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид анализа является многомерным, так как измеряется несколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, температура больного и т.д.
Типичные области применения дискриминантного анализа – биология, медицина, управление производством, экономика, геология, контроль качества.
В медицине объектом исследования является пациент, когда по результатам измерений различных параметров, проведения диагностических тестов врач определяет, например, необходимо ли хирургическое вмешательство при лечении.
В управлении производством принимается решение по отнесению поступающего сырья или продукции к одному из нескольких типов.
В экономике важно решение по отнесению клиента к определенному классу при выдаче кредита.
Чрезвычайно интересно применение дискриминантного анализа в борьбе с терроризмом. Последствия действий против террористов могут привести к одному из двух результатов: успешное освобождение заложников и случаи, когда заложники пострадали. Здесь имеются следующие дискриминантные переменные: число террористов, степень поддержки, количество оружия и т.д.
Очевидно, лицам, ведущим переговоры, важно классифицировать возникшую ситуацию, с тем, чтобы определить свои действия.
Широкий круг задач, возникающих на практике и связанных с классификацией, можно решить методами дискриминантного анализа.
52.1Постановка задачи, методы решения, ограничения
Предположим, имеется n объектов с m характеристиками. В результате измерений каждый объект характеризуется вектором x1 ... xm, m >1. Задача состоит в том, чтобы по результатам измерений отнести объект к одной из нескольких групп (классов) G1,... Gk, k > = 2. Иными словами, нужно построить решающее правило, позволяющее по результатам измерений параметров объекта указать группу, к которой он принадлежит. Число групп заранее известно, также известно, что объект заведомо принадлежит к определенной группе.
Пусть X – пространство значений вектора измерений. Решающее правило называется нерандомизированным, если пространство X разбито на k непересекающихся областей; при попадании измерения параметров объекта в k–ю область объект относится к k–й группе.
Решающее правило называется рандомизированным, если для каждого вектора наблюдений х задана вероятность pi(x), с которой объект принадлежит i-й группе, pi(x) ≥ 0; p1(x) + ... + pk(x) = 1; i=1,...k.
Очевидно, при использовании решающего правила возникают потери, вызванные тем, что объект неправильно классифицирован – отнесен к классу i, когда в действительности он принадлежит классу j (i не равно j).
Если значение потерь трудно оценить численно, то при построении оптимального правила используют критерий минимальной вероятности ложной классификации.
В дискриминантном анализе можно задать априорные вероятности принадлежности объекта к определенному классу. На практике эти вероятности оцениваются из массива экспериментальных данных.
Так как массив экспериментальных данных накапливается, то эти оценки постепенно уточняются. При этом можно учесть различные факторы, влияющие на принадлежность объекта к определенному классу, например, если поступает мука в хлебное производство, то можно учесть сезонные факторы: вероятность того, что мука будет лучшего качества осенью выше той же вероятности весной.
В случае двух групп объектов дискриминантный анализ эквивалентен множественной регрессии (зависимой переменной является номер группы).
Независимые переменные с наибольшими стандартизированными коэффициентами регрессии дают наибольший вклад в предсказание принадлежности объекта к группе.
Для практических целей реализовано два общих метода дискриминантного анализа: стандартный и пошаговый (включения и исключения). Данные методы дискриминантного анализа аналогичны методам множественной регрессии. В случае двух групп методом наименьших квадратов строится регрессионная прямая (зависимая переменная – номер группы, все остальные переменные – независимые). Если групп несколько, то можно представить себе, что вначале строится дискриминация между группами 1 и 2, затем между 2 и 3, и так далее.
В пошаговом методе модель строится последовательно по шагам. Для метода включения на каждом шаге оценивает вклад в функцию дискриминации не включенных в модель переменных. Переменная, дающая наибольший вклад, включается в модель, далее система переходит к следующему шагу. Если применяется так называемый пошаговый метод исключения, то вначале в модель включаются все переменные, затем производится их последовательное исключение.
Близкими к методам дискриминантного анализа являются методы дисперсионного анализа, кластерного и факторного анализов, а также, как уже говорилось, методы множественной регрессии. Отличие кластерного анализа от дискриминантного в том, что в нем заранее не фиксировано число групп (кластеров).