Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Для диссертантов_статанализ.doc
Скачиваний:
5
Добавлен:
16.08.2019
Размер:
249.34 Кб
Скачать

Проблема множественного исследования

Допустим, вы провели сравнение групп и получили неудовлетворительный результат. Вам не удалось отвергнуть нулевую гипотезу. Вы берете другую выборку из популяции. Снова проводите исследование, и вновь не получаете нужного результата. Но совершенно ясно, что при большой настойчивости, рано или поздно найдется выборка, которая выдаст нужный результат. Только вот научная ценность этого результата весьма и весьма сомнительная.

Делая такие неоднократные исследования, вы каждый раз увеличиваете вероятность неверного отрицания нулевой гипотезы.

Подобная ситуация получается и в том случае, когда вы ставите задачу найти хоть какую то разницу между группами на основе анализа многих параметров. Если их много, то хотя бы в нескольких случаях ошибочно нулевая гипотеза, что группы не отличаются, может быть отвергнута.

Можно ли этот вопрос решить честно. Во первых, можно при неоднократных сравнениях увеличивать жесткость к P. В самом простом варианте требовать не P< 0,05, а P<0.05/k, где количество сравнений. Правда, это излишне жестко при больших количествах и есть поправки смягчающие это.

Но самое главное, за научным результатом должна быть не только статистика, а логика причинно-следственных отношений, именно это и есть ваш вклад в науку.

Регрессионный анализ

При изучении связи некоторых параметров хочется знать, не только есть ли между ними достоверная связь, но еще и по какому закону она происходит. Ведь тогда можно подставив в формулу значение одного параметра рассчитать значение другого, ну хотя бы диапазон в котором он может быть.

 

Если изобразить на рисунке в координатах X , Y точками результаты измерения двух параметров то получится что-то похожее на облако. Хорошо еще, если оно вот такой формы. Здесь явно напрашивается провести прямую линию через его середину.

Если вы еще помните из школы, то формула линейной функции Y=a+bX.

И чтобы ее построить нужно как-то определить коэффициенты a и b. Можно сделать, например, так. Провести какую-нибудь прямую линию на глазок, и рассчитать сумму отклонений всех точек от этой линии. Потому провести с другими параметрами и вновь рассчитать. Среди множества таких опытов выбрать тот, при котором сумма отклонений была бы минимальной.

К счастью, математики освободили нас от такой нудной работы и нашли способ расчета этих параметров а и b сразу исходя из результатов каждого наблюдения. Более того, это можно сделать для построения ни только линейных, но и иных функций, например параболы или гиперболы. Помните что это такое?

Но даже имея точные значения а и b для уравнения регрессии мы все равно проведя расчет для какого-нибудь параметра X получим вероятностную величину Y. Увы, это неизбежное зло в математической статистике, с которым можно бороться только анализируя доверительный интервал.

Поэтому для регрессионного анализа нужно еще строить и доверительную область значений как этот показано на рисунке. Она показывает область в которой могут находится значения Y с вероятностью 95% при конкретном X.

Иногда нужно знать не область в которой могут находится параметры, а область в которой может находится средняя величина популяции для данного X. Эта область будет похоже на первую, но значительно уже. Помните, что дисперсия разброса среднего всегда меньше чем дисперсия разброса величин?

Нужно понимать, что регрессионный анализ показывает только, что два параметра имеют некоторую связь, но совершенно не говорит, что является причиной, а что следствием. Более того, может оказаться, что оба параметра являются причиной какого то третьего, а сами между собой никаких причинно-следственных отношений не имеют.

Так как обычно в процессе научной работы проводится изучение двух групп, возникает идея построить две регрессионные линии, одну для исследуемой группы, другую для контрольной и затем сравнить их между собой. Наверняка эти линии не будут совпадать, но возникает закономерный вопрос насколько это несовпадение может быть случайным. Здесь используется расчет критерия Стьюдента. Если значение P получилось меньше 5%, то можно утверждать, что нулевая гипотеза отвергнута достоверна и различие между линиями нельзя объяснить случайностью.

Регрессия может иметь и нелинейный характер. Программа позволяет найти максимально близкую кривую, описывающую ее вид, но, к сожалению, расчет доверительной области это уже проблема очень высокой математики для каждого вида кривых. Тем не менее это может быть хорошим материалом для анализа и для выработки гипотез.

Компьютер легко позволяет строить графики и их анализировать, но остается проблема, как эти графики вставлять в отчеты, особенно когда их много.

Можно было бы приводить в отчете параметры a и b регрессионной кривой, но дело в том, что если поменять местами шкалы X и Y, то эти параметры уже будут иметь другое значение и это неудобно, так как мы в общем случае не знаем, что является причиной, а что следствием, и выбор что есть X, а что Y совершенно произволен. Другой исследователь выберет их иначе и сравнивать результаты двух исследований будет невозможно.

Поэтому для определения характера и величины связи вычисляется коэффициент корреляции, который этого неудобства лишен.