
- •Министерство образования и науки украины
- •Третий модуль Тема 3. Корреляционно-регрессионный анализ данных наблюдений
- •Последовательность проведения корреляционно-регрессионного анализа
- •Введение в тему
- •Последовательность проведения корреляционно-регрессионного анализа
- •3.2. Проверка данных статистического наблюдения на наличие выбросов
- •3.3. Общие сведения из корреляционно-регрессионного анализа
- •3.4. Форма корреляционной связи
- •3.5. Теснота корреляционной связи
- •Проверка на тесноту связи
- •3.6. Сила корреляционной связи
- •3.7. Методикаполученияуравнений линейной регрессии в случае малых выборок Последовательность проведения регрессионного анализа
- •Технологияопределения в среде эт коэффициентовлинейнойрегрессии в случае малых выборок
- •Прогнозирование на основе полученной модели регрессии
- •3.8. Понятие о многомерном корреляционном анализе
- •Определение Для расчета используем ту же матрицу третьего порядка. Расчет ведем по формуле:
- •Коэффициент множественной корреляции
- •3.9. Создание математических моделей регрессии
- •Парный нелинейный регрессионный анализ
- •Экономический смысл коэффициентов регрессии
- •Многомерный нелинейный регрессионный анализ
- •3.10. Методика получения уравнений парной линейной регрессии при большом объеме выборки
- •3.11. Понятие о мультиколлинеарности
- •Тесты для самоконтроля
- •Характеристика тестов темы 3:
- •Контрольные задания
3.2. Проверка данных статистического наблюдения на наличие выбросов
Точность и достоверность исходного статистического материала – важнейшая задача статистического наблюдения. Даже при хорошей организации наблюдений или проведения эксперимента по тем или иным причинам могут оказаться неточности, погрешности, называемые ошибками регистрации. Ошибки регистрации могут быть преднамеренными и непреднамеренными. Непреднамеренные ошибки бывают случайными и систематическими.
Непреднамеренные случайные ошибки регистрации представляют собой описки или арифметические ошибки в расчетах. Эти ошибки выявляются при арифметическом или логическом контроле данных. Логический контроль состоит в сопоставлении показателей различных признаков. Например, явной непреднамеренной случайной ошибкой является запись в графе «год выпуска» – 2001, а в графе «год ввода в эксплуатацию» – 1998.
Непреднамеренные систематические ошибки регистрации обычно возникают из-за неправильного понимания вопросов документов отчетности. Предотвратить появление таких ошибок можно четкой формулировкой вопросов, их подробным разъяснением в инструкциях по заполнению, инструктажем регистраторов и др.
Преднамеренные ошибки возникают в тех случаях, когда опрашиваемое лицо или регистратор информации, зная фактическое состояние дела, преднамеренно сообщают неверные данные. Например, при сборе информации о результатах финансово-хозяйственной деятельности предприятия руководство иногда умышленно занижают темпы роста валового дохода и завышает темпы роста затрат на производство в сравнении с достигнутыми результатами в прошлом. В этом случае необходимо повторное и неоднократное обсуждение этого вопроса с руководством с целью установления обоснованности исходной информации.
Прежде чем проводить корреляционно-регрессионный анализ данных статистических наблюдений, необходимо проверить выборку на наличие выбросов (слишком большие и слишком малые значения признаков в ряде умеренно различающихся измерений).
Процедура проверки экстремальных значений на предмет их исключения из выборки как выбросов приведена в работе [10].
Пример
3.1. Среди 15-ти значений признака
(прибыль
банка) встречается отрицательное
значение. Проверить предположение, что
оно является выбросом.
Так
как объем выборки мал
,
то используемMкритерий,
расчетное значение которого определяется
по формуле
где
соответственно
первый, третий и 13-й элементы упорядоченного
массива
Результаты расчета в ЭТ приведены в
таблице 3.1, гдеXupозначает
упорядоченный в порядке возрастания
массив Х.
Таблица 3.1. Результаты расчета
X |
Xup |
x1 |
x3 |
x13 |
4,7 |
-0,8 |
-0,8 |
1 |
6,2 |
0,9 |
0,9 |
Mpac |
M |
|
2,1 |
1 |
0,257143 |
0,525 |
|
8,6 |
1,2 |
|
|
|
2,9 |
1,4 |
|
|
|
1,2 |
2,1 |
|
|
|
5,7 |
2,2 |
|
|
|
1,4 |
2,7 |
|
|
|
-0,8 |
2,9 |
|
|
|
6,2 |
4,7 |
|
|
|
6 |
5,7 |
|
|
|
2,7 |
6 |
|
|
|
7 |
6,2 |
|
|
|
1 |
7 |
|
|
|
2,2 |
8,6 |
|
|
|
Критическое значение критерия
для объема выборки
при
уровне значимости
=0,05
равно 0,525 (таблица 1 [10]). Следовательно,
расчетное значение критерия меньше
критического и экстремальное значение
не является выбросом. При объеме выборки
экстремальные
значения могут быть проверены по критерию
где
-
выборочное среднее и
-
стандартное отклонение, определенные
для всей выборки;
-
предполагаемый выброс. Критическое
значение критерия определяется по
таблице 2 [10].
Если
то
экстремальное значение
не
является выбросом. При
из
многомерной выборки исключается строчка,
содержащая это экстремальное значение.
Пример
3.2. Проверим значение 526,6 результативного
признака
(индекс
снижения себестоимости продукции),
который приведен в приложении 1 [10].
Выборочное среднее
=113,1945;
стандартное отклонение
=116,937.
Расчетное значение критерия равно
3,5353. Критическое значение критерия
для объема выборки
при
уровне значимости
=0,05.
Следовательно, значение 526,6 является
выбросом и из многомерной выборки
следует исключить строчку с информацией
39-го предприятия.