Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
метрология_ / МСС / Глава 8.doc
Скачиваний:
28
Добавлен:
23.05.2015
Размер:
167.42 Кб
Скачать

8.4. Основные этапы исследования зависимостей

Вопрос о последовательности действий при исследовании зависимостей излагается здесь опять-таки с опорой на материал книги [1], где выделен ряд этапов исследования. Для определенности будем иметь в виду главным образом исследование для получения регрессионной зависимостимежду количественными переменными. Предполагается, что в решении рассматриваемых вопросов совместно участвуют эксперт-статистик и специалист той предметной области, для которой проводится исследование. На разных этапах то один, то другой из них играет главную роль.

Этап 1 (постановочный). На этом этапе исследователь должен определить:

1) элементарный объект исследования – единицу исследуемой статистической совокупности (например, одного из пациентов группы, на которой испытывается некоторая методика);

2) набор показателей с подразделением их на “входные” (предикторные) и “выходные” (результирующие) с определением способа их задания или измерения;

3) конечные прикладные цели исследования, тип исследуемых зависимостей, требуемую форму статистических выводов;

4) совокупность объектов исследования, на которую предполагается распространить полученные зависимости (например, неопределенное множество пациентов с некоторым сочетанием диагностических признаков);

5) объем необходимого статистического обследования.

Этап 2 (информационный). Этот этап состоит в получении необходимой статистической информации, которая может быть получена или в условиях активного эксперимента, когда исследователь имеет возможность заранее спланировать эксперимент, или в условиях пассивного эксперимента, когда исследователь работает с исходными данными, полученными без его участия.

Этап 3 (корреляционный анализ). На этом этапе исследователь выясняет: имеется ли вообще какая-нибудь связь между исследуемыми переменными, какова структура этих связей и степень их тесноты? Эти вопросы решаются с помощью вычисления соответствующих корреляционных характеристик.

Этап 4 (определение класса допустимых решений). Исследователь должен определить класс функций F, в рамках которого будет производиться дальнейший поиск конкретного вида зависимости. Реализация этого этапа в наибольшей степени требует совместной работы специалиста соответствующей предметной области (в общем случае – экономики, техники, медицины и т. д.) и математика-статистика, направленной на как можно более глубокое проникновение в “физический механизм” исследуемой связи.

Этап 5 (анализ переменных x на предмет мультиколлинеарности и отбор наиболее информативных из них). Под явлением мультиколлинеарности в регрессионном анализе понимается наличие тесных статистических связей между компонентами вектора x, что проявляется в близости к нулю определителя их корреляционной матрицы.

Так как этот определитель входит в знаменатель выражений для ряда важных характеристик анализируемых моделей, это приводит к сильной неустойчивости числовых характеристик анализируемых моделей и к невозможности содержательной интерпретации результатов анализа. Поэтому исследователь старается перейти к новой системе переменных x, в которой эффект мультиколлинеарности уже не имел бы места.

Отметим, что задача статистического анализа в условиях мультиколлинеарности есть частный случай так называемых плохо обусловленных задач. Другой пример – задача обратной фильтрации (коррекции динамических погрешностей средств измерений) – встречался в параграфе 7.7. Общие принципы решения таких задач разработаны в нашей стране научной школой академика А.Н. Тихонова.

Этап 6 (вычисление оценок неизвестных параметров, входящих в исследуемое уравнение статистической связи). На этом этапе ищется наилучшая функцияf*(x) из выбранного класса F, аппроксимирующая исследуемую зависимость. Иначе говоря, вычисляются параметры функции, при которых она проходит наиболее близко к опытным данным.

При этом обязательно должен быть выбран и обоснован критерий оптимальности – как правило, представляющий собой некоторую функциюневязок, имеющих виде =yf*(x). Можно, например, выбрать в качестве критерия оптимальностимаксимальную по модулюневязку из всего их множества. Но чаще параметры функцииf*(x) вычисляют так, чтобы минимизироватьсумму квадратовневязок. Такой способ аппроксимации называютметодом наименьших квадратов, сокращенно МНК. Полезно знать английский эквивалент термина “наименьшие квадраты” –least squares.

Напомним, что в параграфе 4.8, где рассматривались принципы обработки данных при измерении однойвеличины (как бы ординаты одной точки зависимости), говорилось, что оценка центра распределения в виде среднего арифметического эффективна (в смыслеминимума дисперсииотклонений от нее) и является оценкой максимального правдоподобия для нормального закона распределения первичных данных. Аппроксимация экспериментальной зависимости по МНК является обобщением этого положения, и она тоже опирается на предположение о нормальном распределении погрешностей.

Этап 7 (анализ точности полученных уравнений связи). Следует отдавать себе отчет в том, что найденная аппроксимация неизвестной функции является лишь некоторым приближением “истинной” зависимости. Возможные отклонения могут быть обусловлены как неправильным выбором класса функций F, так и неточностью определения параметров, выбирающих конкретную функцию из этого класса. “Истинная” зависимость здесь взята в кавычки, потому что это понятие, как и понятие “истинного” значения измеряемой величины, не учитывает неизбежной неопределенности самого объекта исследования.

При выполнении описанной последовательности этапов исследователь может столкнуться с необходимостью возврата к предыдущим этапам и их повторного выполнения с новыми заданным условиями, – например, если обнаружится, что класс функций F выбран неудачно.

Соседние файлы в папке МСС