
- •1. Вводные примеры
- •1.1. Введение
- •Основная цель раздела
- •Основные шаги обработки данных в системе
- •1.2. Обработка данных в рамках линейной регрессионной модели
- •1.2.1. Линейная регрессия. Подбор прямой Формулировка задачи
- •Математическая постановка задачи
- •Запуск statistica
- •Выбор статистического модуля
- •Создание электронной таблицы с исходными данными
- •Ввод исходных данных и дополнительной информации
- •Преобразование исходных данных
- •Визуализация данных
- •Замечание
- •Вызов стартовой панели модуля и определение анализа
- •Выбор переменных для анализа
- •Задание дополнительных параметров анализа
- •Вывод результатов и их анализ
- •Информационная часть
- •Функциональные кнопки
- •Замечание
- •Исследование остатков
- •Замечание.
- •Вывод результатов анализа в файл с отчетом
- •2. Створити таблиці
Функциональные кнопки
Щелкните далее на кнопку Regression summary — Краткие результаты регрессии.
Вы увидите следующую электронную таблицу с результатами анализа:
Рисунок 2.13 Краткие результаты регрессии для данных из файла vine.sta
В третьем столбце таблицы вы видите оценки неизвестных параметров модели:
b0= 1.143891;
b1= 0.034652.
Итак, искомая модель зависимости логарифма цены от возраста имеет вид:
ЦЕНА_ЛОГ = 0.034652*ВОЗРАСТ + 1.143891 (5)
Требуемая регрессия построена. График приведен на рисунке 2.9. После перехода к исходным переменным модель примет вид:
ЦЕНА = ехр{0.034652*ВОЗРАСТ + 1.143891}
(6)
Рисунок 2.14. График зависимости цены от года закладки
Замечание
Численные результаты анализа в STATISTICA выводятся в виде электронных таблиц. Они называются электронными таблицами Scrollsheet и служат для вывода текстовой и численной информации о результатах анализа. В дальнейшем они могут быть сохранены в различных форматах или выведены на внешнее устройство. Имеется возможность их вывода (в том числе автоматического) в специальный файл с результатами анализа, который называется отчетом.
Рисунок 2.15. Значения остатков
Исследование остатков
Поясним, прежде всею, что такое остатки модели. Пересчитаем значения ЦЕНА _ЛОГ исходя из построенной модели для различных значений независимой переменной ВОЗРАСТ. Эти значения называются Predected values — Предсказанные значения или модельные, т. е. значения, предсказанные с помощью модели.
Очевидно, эти значения будут отличаться от значений ЦЕНА _ЛОГ, имеющихся в исходном файле vine.sta. Разность между исходными (наблюдаемыми) значениями зависимой переменной и предсказанными значениями называется остатками.
Рисунок 2.16 Окно Анализ остатков в модуле Множественная регрессия
В модуле Множественная регрессия в STATISTICA остатки исследуются в специальном окне Анализ остатков. Исследуя остатки, вы можете оценить степень адекватности модели. Для этого нажмите в окне Результаты множественной регрессии кнопку
Residual analysis — Анализ остатков. Нажав данную кнопку, вы раскроете окно Анализ остатков. С помощью функциональных кнопок в данном окне можно всесторонне просмотреть остатки модели как в графическом виде, так и в электронных таблицах.
Вначале для оценки адекватности модели лучше всего использовать визуальные методы и затем, если потребуется, перейти к статистическим.
Для оценки адекватности модели рассмотрим график остатков, например, на нормальной вероятностной бумаге.
Рисунок 2.17 Графики остатков на нормальной вероятностной бумаге и матричный график зависимости наблюдаемых и предсказаных значений
Из графика остатков на нормальной вероятностной бумаге видно, что они достаточно хорошо ложатся на прямую, которые соответствуют нормальному закону. Поэтому предположение о нормальном распределении ошибок выполнено.
Инициируйте, например, кнопку Reids&indep. var. — Остатки и независимые переменные. Вы увидите следующий график:
Рисунок 2.18 Графики остатков в линейной модели зависимости логарифма цены от предсказаных значений и переменной ВОЗРАСТ
Из этих графиков видно, что остатки хаотично разбросаны относительно прямой, в их поведении нет закономерностей. Нет оснований говорить, что остатки коррелированы между собой, нет также резко выделяющихся остатков. Отсюда можно заключить, что модель достаточно адекватно описывает данные.