- •Определение целей и задач статистического исследования
- •Планирование статистического эксперимента. Эксперимент и наблюдательное исследование. Простая случайная выборка. Отклонения в выборках и их классификация.
- •Условия применения статистических методов для решения практических задач
- •Понятие пассивного эксперимента при исследовании объектов для получения статистических данных
- •Виды данных, используемые в статистическом анализе.
- •Интервальное оценивание. Доверительные интервалы и их интерпретация. Уровень доверия. Стандартная ошибка.
- •Понятие «черного ящика».
- •Понятие уровня значимости.
- •Определение факторного пространства.
- •Определение уровня фактора.
- •Понятие случайного возмущения
- •Интервальные оценки параметров. Понятие доверительного интервала.
- •Показали тесноты корреляционной связи между случайными величинами.
- •Понятие генеральной совокупности и выборки.
- •Требования к реальной информации при сборе данных для правомерности применения статистических методов.
- •Понятие «параллельные опыты».
- •Понятие и виды диаграммы рассеивания.
- •Метод наименьших квадратов.
- •Применение мнк для оценивания параметров регрессионного уравнения.
- •Свойства оценок параметров регрессионных уравнений, полученных по мнк.
- •Понятие и свойства дисперсии случайной величины.
- •Ошибки 1-го и 2-го рода при использовании статистических гипотез.
- •Понятие ковариации и формулы для ее расчета для генеральной и выборочной совокупностей.
- •Понятие функциональной и корреляционной связи.
- •Доверительная вероятность. Примеры использования.
- •Понятие мультиколлинеарности.
- •Виды связей между факторами и откликами.
- •Факторный анализ.
- •Дисперсионный анализ.
- •Кластерный анализ.
- •Регрессионный анализ.
-
Виды связей между факторами и откликами.
При постановке экспериментального исследования, как правило, заранее неизвестна степень влияния отдельных факторов на отклик. Может возникнуть ситуация, когда результаты эксперимента не зависят или слабо зависят от некоторого фактора, который, тем не менее, включен в уравнение регрессии. Для проверки значимости влияния факторов проверяется гипотеза о равенстве нулю математического ожидания коэффициента bi, H0: M[bi]=0. Проверка H0 выполняется по критерию Стьюдента
t i =| bi | / . (13)
По критерию Стьюдента для всех коэффициентов регрессии с помощью функции распределения можно рассчитать уровень значимости, назовём его p–level. Если для коэффициента при каком-то факторе значение p–level превысит0.05 (уровень значимости при вероятности 0.95), то гипотеза H0 принимается и предполагается, что этот фактор не оказывает влияние на отклик, т.е. коэффициент незначим.
Прежде, чем приступить к предварительной обработке, целесообразно оценить тесноту связи (корреляцию) между факторами и откликом. Для оценки используется корреляционная матрица, элементами которой являются коэффициенты парной корреляции. Чем больше абсолютная величина коэффициента, тем сильнее соответствующий фактор влияет на отклик. Знак коэффициента указывает на характер влияния: знак минус означает, что с увеличением фактора отклик уменьшается, а знак плюс означает, что с увеличением фактора отклик увеличивается.
-
Факторный анализ.
Факторный анализ - это один из способов снижения размерности, то есть выделения во всей совокупности признаков тех, которые действительно влияют на изменение зависимой переменной.
Цели:
-
определение взаимосвязей между переменными, (классификация переменных)
-
сокращение числа переменных необходимых для описания данных.
Обязательные условия факторного анализа:
-
Все признаки должны быть количественными;
-
Число признаков должно быть в два раза больше числа переменных;
-
Выборка должна быть однородна;
-
Исходные переменные должны быть распределены симметрично;
-
Факторный анализ осуществляется по коррелирующим переменным.
-
Дисперсионный анализ.
Дисперсионный анализ является статистическим методом анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, с целью выбора наиболее значимых факторов и оценки их влияния на исследуемый процесс.
Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку.
Многофакторный анализ позволяет проверить влияние нескольких факторов на зависимую переменную.
Исходными положениями дисперсионного анализа являются:
-
нормальное распределение зависимой переменной;
-
равенство дисперсий в сравниваемых генеральных совокупностях;
-
случайный и независимый характер выборки.
-
Кластерный анализ.
Кластерный анализ— многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.
Кластерный анализ выполняет следующие основные задачи:
-
Разработка типологии или классификации.
-
Исследование полезных концептуальных схем группирования объектов.
-
Порождение гипотез на основе исследования данных.
-
Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Цели кластеризации:
-
Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
-
Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
-
Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.