Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
уд экзамен.docx
Скачиваний:
48
Добавлен:
01.06.2024
Размер:
2.54 Mб
Скачать

Использование и интерпретация корреляции

Корреляция свидетельствует именно о взаимосвязи, но ни в коем случае нельзя делать на основе корреляционного анализа выводы о причинно-следственных связях. Если между признаками А и Б есть тесная взаимосвязь, то мы не может говорить, что А влияет на Б или Б влияет на А.

Во-первых, мы можем использовать его для прогнозирования. Если мы знаем, что две переменные связаны определенным образом, то мы можем прогнозировать значение одной по значению другой. Например, мы выяснили, что оценки за ЕГЭ по математике и информатике сильно коррелируют. Тогда мы можем предполагать, что если у школьника хороший балл по математике, то и по информатике он тоже будет высокий. Но такой прогноз будет не совсем точен. Не у всех, кто получил высокий балл по математике, будет высокий балл по информатике. Более корректные предсказания можно делать на основании регрессионных моделей.

Во-вторых, корреляцию можно использовать для оценки валидности (обоснованность и пригодность применения методик и результатов исследования в конкретных условиях) разных тестов. Например, если психолог разработал тест для определения уровня тревоги, то его результаты должны показывать сильную корреляцию с другими показателями, которые точно идентифицируют тревожность (например, физиологические индикаторы).

В-третьих, с помощью корреляции вычисляется надежность оценочных инструментов. Предположим, некий студент сдает экзамен, чтобы получить сертификат по английскому языку. Если он сдает его два раза через небольшие промежутки времени, то его результаты должны быть практически одинаковые, если экзамен действительно хорошо составлен и условия проведения не изменились. Поэтому для оценки надежности теста можно провести его на группе людей, а потом повторить процедуру. Если корреляция между результатами сильная, то можно говорить о надежности инструмента.

11. Сформулируйте центральную предельную теорему. Объясните её постулаты на практическом примере. Сформулируйте закон больших чисел.

Центральная предельная теорема: для любой генеральной совокупности со средним μ и среднеквадратичным отклонением σ распределение выборочных средних выборок размера n будет иметь среднее μ и среднеквадратичное отклонение σ/n, а его форма будет стремиться к нормальной при n стремящемся к бесконечности.

Более проще:

(Если мы берем достаточно большую выборку из любого распределения с конечным средним и конечной дисперсией, и складываем или усредняем значения этой выборки, то распределение этих сумм или средних будет приближаться к нормальному распределению, независимо от исходного распределения.)

Центральная предельная теорема также утверждает, что выборочное распределение будет иметь следующие свойства:

1. Среднее значение выборочного распределения будет равно среднему значению распределения генеральной совокупности:

х = μ

2. Дисперсия выборочного распределения будет равна дисперсии распределения генеральной совокупности, деленной на объем выборки:

с 2 = σ 2 / п

Среднее распределения выборочных средних называется математическим ожиданием выборочного среднего, а его среднеквадратичное отклонение — стандартной ошибкой выборочного среднего (SEM — Standard Error of Mean или σM)

Практический пример:

Предположим, мы хотим оценить средний рост населения города. Мы отбираем случайную выборку из 100 человек и измеряем их рост. Предположим, что рост в популяции распределен по нормальному закону со средним значением 170 см и стандартным отклонением 10 см.

Согласно центральной предельной теореме, даже если рост в популяции не распределен по нормальному закону, распределение средних значений роста в нашей выборке будет приблизительно нормальным. Это означает, что средний рост в нашей выборке будет приблизительно нормально распределен со средним значением 170 см и стандартным отклонением 10 см / √100 = 1 см.

Закон больших чисел:

Соответственно, здесь будет работать закон больших чисел (ЗБЧ) — чем больше размер выборки, тем больше вероятность, что значение его среднего будет близко к среднему генеральной совокупности.

12. Разделение выборки на обучающую и валидационную. Какое отношение данных обучающей выборки к валидационной обычно используется, для чего используются выборки? Опишите процесс стратификации данных, объясните для чего он используется.

При построении предсказательных моделей исходные данные обычно разбиваются на обучающую ("training set") и контрольную ("test set", "validation set") выборки.

Выборка обычно разделяется на обучающую и валидационную выборки в соотношении 80:20, где 80% данных используются для обучения модели, а 20% - для проверки ее производительности.

Обучающая выборка: Используется для обучения модели распознавания образов. Модель учится на закономерностях в данных и создает модель, которая может предсказывать результаты для новых данных.

Валидационная выборка: Используется для оценки производительности обученной модели на невиданных данных. Это помогает предотвратить переобучение модели на обучающей выборке.

Мы разделяем выборку на обучающую и валидационную по следующим причинам:

Предотвращение переобучения: Обучающая выборка используется для обучения модели, и если мы будем использовать ту же выборку для оценки ее производительности, модель может переобучиться на обучающих данных. Это означает, что модель может слишком хорошо подходить к обучающим данным и плохо обобщаться на новые данные.

Настройка гиперпараметров: Валидационная выборка может использоваться для настройки гиперпараметров модели. Гиперпараметры - это параметры модели, которые не обучаются из данных, такие как скорость обучения и количество эпох. Валидационная выборка помогает выбрать лучшие гиперпараметры, которые дают наилучшую производительность на невиданных данных.

Сравнение разных моделей: Валидационная выборка может использоваться для сравнения производительности разных моделей. Мы можем обучить несколько моделей с разными архитектурами или алгоритмами и оценить их производительность на валидационной выборке, чтобы определить лучшую модель для нашей задачи.

Стратификация — метод выбора подмножества объектов из генеральной совокупности, разбитой на подмножества (страты). При стратификации объекты выбираются таким образом, чтобы итоговая выборка сохраняла соотношения размеров страт. Стратификация данных используется для обеспечения того, чтобы обучающая и валидационная выборки имели аналогичное распределение целевой переменной, что исходная совокупность. Это помогает предотвратить смещение в оценке производительности модели.

Пример:

Допустим, в вашем наборе данных есть 1000 клиентов, из которых 600 совершили покупку (положительные примеры), а 400 не совершили покупку (отрицательные примеры).

1. Разделите данные на две страты: совершившие покупку и не совершившие покупку.

2. Случайный отбор образцов из каждой страты: Случайным образом выберите 80% образцов из страты "совершившие покупку" и 80% образцов из страты "не совершившие покупку" для формирования обучающей выборки.

3. Повторите для валидационной выборки: Случайным образом выберите 20% образцов из страты "совершившие покупку" и 20% образцов из страты "не совершившие покупку" для формирования валидационной выборки.

13. Постановка и тестирование гипотез. Что такое нулевая и альтернативная гипотеза? Виды альтернативных гипотез. Что такое уровень статистической значимости α? Определение критической области. Ошибка первого и второго рода.

Постановка и тестирование гипотез - это процесс статистического анализа, который позволяет проверить предположения о параметрах популяции на основе выборочных данных.

Пошаговый алгоритм:

1.Формулировка основной и альтернативной гипотезы

2.Выбор уровня значимости

3.Определение подходящего статистического критерия

4.Формулировка правила принятия решения

5.Принятие решения на основании данных выборки