
- •1. Характеристика учебной дисциплины
- •Назначение учебной дисциплины
- •Цель изучения дисциплины
- •Задачи изучения дисциплины
- •1.4. Методология
- •Календарно-тематический план курса
- •Темы (вопросы) для срс
- •4. Содержание программы
- •4.1. Планы лекций
- •4.2. Планы лабораторных занятий
- •4.3. Порядок изучения материала и выполнения заданий (срс)
- •5. Система оценки знаний студентов
- •Глоссарий
- •Базовые термины математической статистики и анализа данных
- •1.2 Краткая историческая справка[2]
- •1.4 Типы данных психолого-педагогического исследования
- •1.5 Описательная статистика
- •Случайная величина и вероятность события Математическая статистика тесно связана с другой математической наукой – теорией вероятности и базируется на ее математическом аппарате.
- •Математическое ожидание – числовая характеристика св, приближенно равная среднему значению св:
- •Закон распределения св
- •Биномиальное распределение (распределение Бернулли)
- •Распределение Пуассона
- •Нормальное (гауссовское) распределение
- •Распределение вероятностей непрерывной cв х, принимающие все свои значения из отрезка [а;b] называется равномерным, если ее плотность вероятности на этом отрезке постоянна, а вне его равна нулю:
- •Общие принципы проверки статистических гипотез
- •4.3 Понятие гипотезы в педагогике
- •Анализ одной и двух нормальных выборок
- •6.1 Параметрические критерии
- •6.1.1 Методы проверки выборки на нормальность
- •Случай независимых выборок
- •1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.
- •3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической экспериментальной группы, a — контрольной:
- •Б) случай связанных (парных) выборок
- •Лекция_5 Однофакторный дисперсионный анализ для несвязанных выборок
- •Лекция_6 Дисперсионный анализ для связанных выборок
- •Двухфакторный анализ
- •Связь задач двухфакторного и однофакторного анализа
- •Аддитивная модель данных двухфакторного эксперимента при независимом действии факторов
- •Непараметрические критерии проверки гипотезы об отсутствии эффектов обработки
- •Лекция_8 Регрессионный анализ
- •1. Парная линейная регрессия
- •1.1. Взаимосвязи экономических переменных
- •Суть регрессионного анализа
- •1.3. Парная линейная регрессия.
- •8.1 Требования к статистическим пакетам общего назначения
- •8.2 Российские пакеты обработки данных
- •8.4 Пакет stadia
- •Лекция_10 Корреляционный анализ Понятие корреляционной связи
- •7.2.2 Коэффициент корреляции Пирсона
- •Параметрические критерии
- •6.1.1 Методы проверки выборки на нормальность
- •Анализ временных рядов на компьютере
- •Многомерный анализ и другие статистические методы
- •Многомерное шкалирование
- •1.1 Характеристика пакета Excel
- •1.2 Использование специальных функций
- •Задания для самостоятельной работы
- •1.2 Использование инструмента Пакет анализа
- •Задание для самостоятельной работы
- •2.1 Биномиальное распределение
- •Задания для самостоятельной работы
- •2.2 Нормальное распределение
- •Задания для самостоятельной работы
- •2.3 Генерация случайных величин
- •Задание для самостоятельной работы
Многомерный анализ и другие статистические методы
Введение
Арсенал методов анализа данных, предлагаемых современной статистикой, разумеется, далеко не ограничивается тем, что было изложено в предыдущих главах этой книги. Так, за рамками рассмотрения остались широко используемые на практике методы многомерного статистического анализа (т.е. анализа многомерных статистических данных), а также всевозможные специализированные статистические методы, предназначенные для анализа специфических данных в конкретных предметных областях. В настоящей главе мы дадим очень краткий обзор таких методов, выбрав из них наиболее широко используемые и включенные в статистические пакеты для ЭВМ.
Замечание для профессиональных математиков и статистиков. Цель этой главы — всего лишь дать знакомящимся со статистикой читателям самое общее представление о назначении некоторых из тех областей статистики, которые не были затронуты в этой книге, а также указать список книг для дальнейшего чтения. Поэтому просим быть снисходительными к упрощениям и неточностям, неизбежным при описании сути сложных научных проблем в двух-трех абзацах.
Многомерный статистический анализ
В
предыдущих главах книги мы обсуждали,
в основном, такие проблемы, в которых
случайная изменчивость была представлена
одной (случайной)
переменной. Например, у каждого наудачу
выбранного объекта
мы измеряли какой-то один признак; либо
при каждой комбинации
управляющих факторов измеряли одномерный
отклик, и т.д. Исключение
составила, в которой мы рассматривали
вопросы связи двух
(случайных) признаков. Там мы встретились
с ситуацией, когда в одном
эксперименте — например, при обследовании
одного объекта, — измеряются
сразу несколько характеристик. В таких
опытах каждое наблюдение
представляется не одним-единственным
числом, а некоторым
конечным набором чисел, в котором в
заданном порядке записа
ны
все измеренные характеристики объекта.
Та часть математической статистики,
которая исследует эксперименты с такими
многомерными наблюдениями,
называется многомерным
статистическим анализом.
Измерение сразу нескольких признаков (свойств объектов) в одном эксперименте, в общем, более естественно, чем измерение лишь какого-то одного. Поэтому потенциально многомерный статистический анализ имеет обширное поле для применений. К тому же, с формальной точки зрения, одномерный статистический анализ (который мы и обсуждали ранее) представляет частный случай многомерного.
В настоящее время хорошо разработана математическая теория для многомерных гауссовских наблюдений, т.е. для случайных величин, подчиняющихся многомерному нормальному распределению. Здесь почти для каждого одномерного гауссовского метода существует соответствующий многомерный вариант. Кроме того, имеются решения и для некоторых специфически многомерных статистических проблем
К сожалению, построение теории для многомерных статистических данных оказалось делом весьма трудным. Такая теория до сих пор еще далеко не достигает той полноты и законченности, которая свойственна ее одномерной версии. Хорошо разработана лишь теория для гауссовских (имеющих многомерное нормальное распределение) данных. Здесь почти для каждого одномерного гауссовского статистического метода имеется соответствующий многомерный вариант. Кроме того, естественно, имеются и методы для решения некоторых специфически многомерных задач.
Построение многомерных версий для других статистических методов удается далеко не так гладко. В частности, непараметрические методы, такие важные и эффективные в одномерном случае, все еще не имеют своего законченного многомерного аналога (соответствующая теория находится в процессе разработки). Поэтому для аккуратного статистического анализа имеющихся данных нередко не находится адекватных статистических средств. Из-за этого, в частности, рассчитанные на гауссовские данные правила нередко приходится применять и там, где для этого нет достаточных оснований. Конечные выводы в таких случаях бывает нелегко интерпретировать. Более того, при анализе многомерных данных часто используют и методы, вообще не имеющие четкой статистической трактовки в духе рассмотренных ранее концепций проверки гипотез, построения доверительных интервалов и т.д. Поэтому мы не будем пытаться изложить здесь хоть сколько-нибудь цельную картину многомерного анализа, а ограничимся упоминанием и кратким пояснениями нескольких наиболее популярных методов — тех, которые уже нашли отражение в статистических пакетах.
Факторный анализ
При исследовании сложных объектов и систем (например, в психологии, биологии, социологии т.д.), часто мы не можем непосредственно измерить величины, определяющие свойства этих объектов (так называемые факторы), а иногда нам не известны даже число и содержательный смысл факторов. Для измерений могут быть доступны иные величины, тем или иным способом зависящие от этих факторов. При этом, когда влияние неизвестного фактора проявляется в нескольких измеряемых признаках, эти признаки могут обнаруживать тесную связь между собой (например, коррелированность), поэтому общее число факторов может быть гораздо меньше, чем число измеряемых переменных, которое обычно выбирается исследователем в той или иной мере произвольно. Для обнаружения влияющих на измеряемые переменные факторов используются методы факторного анализа.
В качестве примера применения факторного анализа приведем изучение свойств личности с помощью психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только на основании поведения человека, ответа на те или иные вопросы и т.д. Для объяснения результатов проведенных опытов их результаты подвергаются факторному анализу, который и позволяет выявить те личностные свойства, которые оказывали влияние на поведение испытуемых в проведенных опытах.
Первым этапом факторного анализа, как правило, является выбор новых признаков, которые являются линейными комбинациями прежних и «вбирают» в себя большую часть общей изменчивости наблюдаемых данных, а поэтому передают большую часть информации, заключенной в первоначальных наблюдениях. Обычно это осуществляют с помощью метода главных компонент, хотя иногда используют и другие приемы (скажем, метод максимального правдоподобия). Метод главных
компонент
по существу сводится к выбору новой
ортогональной системы
координат в пространстве наблюдений.
В качестве первой главной компоненты
избирают направление, вдоль которого
массив наблюдений имеет наибольший
разброс, выбор каждой последующей
главной компоненты происходит так,
чтобы разброс наблюдений вдоль нее был
максимальным и чтобы эта главная
компонента была ортогональна другим
главным
компонентам, выбранным прежде.
Однако обычно факторы, полученные методом главных компонент, не поддаются достаточно наглядной интерпретации. Поэтому следующим шагом факторного анализа служит преобразование (вращение) факторов таким образом, чтобы облегчить их интерпретацию.
Дискриминантами анализ
Предположим, что мы имеем совокупность объектов, разбитую на несколько групп (т.е. для каждого объекта мы можем сказать, к какой группе он относится). Пусть для каждого объекта имеются изменения нескольких количественных характеристик. Мы хотим найти способ, как на основании этих характеристик можно узнать группу, к которой принадлежит объект. Это позволит нам для новых объектов из той же совокупности предсказывать группы, к которой они относятся.
Например, исследуемыми объектами могут быть пациенты — здоровые или больные той или иной болезнью, а характеристиками — результаты медицинских анализов. Если мы научимся по этим характеристикам узнавать, здоров ли пациент, либо болен той или иной болезнью, это позволит значительно повысить эффективность медицинских обследований.
Для решения этой задачи применяются методы дискриминантного анализа, они позволяют строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминирующих признаков) было немного — в этом случае результаты анализа легче содержательно истолковать. Особую роль, благодаря своей простоте, играет линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков. В случае разделения нескольких нормальных (гауссовских) совокупностей линейный дискриминантный анализ имеет ясные статистические свойства.
Лекция_15
Кластерный анализ
Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами.
Большинство методов кластеризации (иерархической группировки) являются аггломеративными (объединительными) — они начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один. Момент остановки этого процесса может задаваться исследователем (например, указанием требуемого числа кластеров или максимального расстояния, при котором допустимо объединение). Графическое изображение процесса объединения кластеров моет быть получено с помощью дендрограммы — дерева объединения кластеров. Другие методы кластерного анализа являются дивизивными — они пытаются разбивать объекты на кластеры непосредственно.
Методы кластеризации довольно разнообразны, в них по-разному выбирается способ определения близости между кластерами (и между объектами), а также используются различные алгоритмы вычислений. Заметим, что результаты кластеризации зависят от выбранного метода, и эта зависимость тем сильнее, чем менее явно изучаемая совокупность разделяется на группы объектов. Поэтому результаты вычислительной кластеризации могут быть дискуссионными и часто они служат лишь подспорьем для содержательного анализа.
Заметим также, что методы кластерного анализа не дают какого-либо способа для проверки статистической гипотезы об адекватности полученных классификаций. Иногда результаты кластеризации можно обосновать с помощью методов дискриминантного анализа.