Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дьячков.doc
Скачиваний:
17
Добавлен:
21.09.2019
Размер:
618.5 Кб
Скачать

12. Предварительный анализ выборки

К предварительному анализу выборки обычно относят следующие задачи:

  1. Восстановление пропущенных наблюдений.

  2. Анализ резко выделяющихся наблюдений.

  3. Проверка статистической независимости исходных данных (элементов выборки).

Восстановление пропущенных наблюдений.

Будем предполагать, что в нашей исходной выборке отсутствие какого-либо показателя у некоторого лица связано с причинами технического характера, т.е. с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение стало неизвестным.

Однако отметим, что это не связано с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных наблюдений, либо оценить сами пропущенные значения, либо и то, и другое, но вместе. Две последние задачи требуют больших исходных допущений, чем оценка самих параметров.

Методы решения таких задач основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.

1. Самым простым подходом к проблеме обработки пропущенных наблюдений является использование исходных данных только для тех лиц, о которых мы имеем полную информацию.

Данный подход является наиболее целесообразным, если выборка содержит достаточное количество исследуемых объектов, а задача заполнения пропущенных значений не является целью обработки.

2. Однако для выборок небольшого объема, а также в ситуации, когда измерение имеет высокую стоимость, естественно попытаться использовать всю имеющуюся у нас информацию.

Одним из самых старых и простых способов обработки данных с пропущенными наблюдениями является следующий: пропущенное значение некоторого признака заполняется средним арифметическим значением, вычисленным по имеющимся данным. Недостатком этого способа является то, что в результате такого запоминания исходные данные становятся статистически зависимыми.

Анализ резко выделяющихся наблюдений.

Часто при предварительном просмотре исходных данных у исследователя возникают сомнения в истинности отдельных наблюдений, резко выделяющихся на общем фоне. Возникает вопрос, вправе ли мы объяснить обнаруженные отклонения только случайными колебаниями выборки или здесь дело в существенных искажениях стандартных условий сбора статистических данных.

Единственно абсолютно надежным способом решения вопроса резко выделяющихся наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях это принципиально невозможно. Поэтому необходимо обращаться к соответствующим формальным статистическим методам. Иногда резко выделяющиеся наблюдения достаточно хорошо просматриваются с помощью построения графика.

. .

. . . .

. . .

Р ассмотрим аналитический метод исследования одного резко выделяющегося наблюдения. Не нарушая общности будем считать, что речь идет о максимальном наблюдении. Пусть х(1), х(2), …, х(n) – вариационный ряд исходной выборки, когда в качестве резко выделяющегося наблюдения будет рассматриваться х(n). Решающее правило для исключения из выборки этого значения х(n) основано на следующей статистике.

Тn=(x(n) –x):Sx > Tкр, где х – среднее значение выборки, Sx – стандартное отклонение.

Если эта статистика Тn больше соответствующего критического значения Ткр, то делаем вывод о том, что наблюдение х(n) является резко выделяющимся наблюдением и мы должны это наблюдение удалить из исходной выборки. Если х(n) меньше или равно Ткр, то мы делаем вывод о том, что наблюдение х(n) не является резко выделяющимся наблюдением.

Т(n) < Ткр.

Критические значения находятся обычно в соответствующей статистической таблице или мастере функций. Наиболее полное собрание статистических таблиц находится в книге Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. М. Наука. 1983.

Если в выборке мы подозреваем несколько резко выделяющихся наблюдений, то сначала рассмотренный выше критерий применяют к максимальному из них. Если это значение будет признано резко выделяющимся, то его удаляют из выборки и рассмотренный критерий применяется к следующему по величине элементу выборки и т.д. до тех пор, пока не будет признано, что резко выделяющихся наблюдений больше нет.

Одним из недостатков рассмотренного критерия является то, что «подозрительные» наблюдения часто расположены близко друг к другу, образуя при этом группу в стороне от основной массы наблюдений. В результате рассмотренная процедура, основанная на использовании среднего значения и стандартного отклонения, становится нечувствительной, т.е. не считает их резко выделяющимися. В таких случаях рекомендуют использовать вместо х и Sx более устойчивые оценки – медиану.

Проверка независимости элементов выборки.

Перед тем, как подвергнуть исходные данные статистической обработке, необходимо убедиться в том, что они действительно образуют случайную выборку и являются статистически независимыми, т.е. значение любого элемента выборки не зависит от значений других элементов выборки.

Рассмотрим несколько статистических критериев для проверки независимости элементов выборки.

1. Сначала обратимся к критерию серий, основанному на медиане выборки. Пусть х1, х2, …, хn – исходная выборка из некоторой генеральной совокупности. Найдем сначала по этой выборке ее медиану хmed, после этого каждый элемент исходной выборки заменяем на плюс, если этот элемент больше медианы (+ xi > xmed ) и заменяем его на -, если этот элемент меньше медианы (- xi < xmed ). Если же элемент выборки равен медиане, то мы его исключаем из рассмотрения. В результате такой обработки мы получаем некоторую последовательность плюсов и минусов ++ - +++ - - - - + - ++. Под серией будем понимать последовательность идущих подряд плюсов или минусов. В частном случае серия может состоять только из одного плюса или минуса. В этом случае ее протяженность считается равной 1. Тогда исходную выборку можно охарактеризовать двумя параметрами: (n) –общее количество серий и (n) – протяженность самой длинной серии. В нашем примере (n) = 7; (n) = 4. Если наши исходные наблюдения являются статистически независимыми, то чередование + и - в полученной нами последовательности должно быть случайным, т.е. эта последовательность не должна содержать слишком длинных серий, а общее количество не должно быть слишком малым. В результате таких рассуждений приходят к следующему правилу:

- Наша исходная выборка является случайной, т.е. ее элементы являются статистически независимыми, если выполняются два следующих неравенства:

(n) > ½ (n+1-1,96 n-1);

(n) < 3,3 lg (n+1), где n – общее количество + и - в последовательности, а не общее количество исходных данных, х – целая часть числа х.

- Если же хотя бы одно из этих неравенств не выполняется, то мы делаем вывод о том, что элементы исходной выборки являются статистически зависимыми.

2. Второй статистический критерий – критерий «нисходящих» и «восходящих» серий. Как и для рассмотренного выше критерия в данном критерии рассматривается последовательность + и -. Однако в этом случае правило получения такой последовательности несколько иное.

Как обычно в качестве исходных данных рассматривается выборка х1, х2, …, хn. Последовательность + и – получается следующим образом. На i-том месте ставится +-, если хi+1 - xi>0, т.е. последующий элемент выборки больше предыдущего; ставится знак=, если xi+1 - xi<0, т.е. последующий элемент меньше предыдущего. Если два или несколько последующих значений одинаковы, то принимается во внимание только одно из них.

3 , 2, 2, 2, 4, 2, тогда последовательность подряд идущих плюсов будет

  • +

соответствовать возрастанию элементов выборки, поэтому она называется восходящей серией. Последовательность подряд идущих минусов будет соответствовать убыванию элементов выборки, поэтому она называется нисходящей серией. Полученную последовательность + и – как и для предыдущего критерия можно охарактеризовать двумя параметрами:

(n) – общее количество серий

  1. - протяженность самой длинной серии.

Тогда аналогично предыдущему критерию элементы исходной выборки будут статистически независимыми, если в полученной нами + и – общее количество серий не является слишком малым, а протяженность самой длинной серии не является слишком большой.

Математически это правило формулируется следующим образом: 1. Элементы исходной выборки являются статистически независимыми, если выполняются два следующих неравенства:

а) (n) > 1/3 (2n-1) – 1,96 (16n-29):90

б) (n) < 0 (n)

2. Если же хотя бы одно из этих двух неравенств не выполняется, то элементы нашей исходной выборки считаются статистически зависимыми. В данных неравенствах: n –общее количество + и – ; х - целая часть числа х. Величина 0(n) в зависимости от величины n определяется следующим образом:

5, n<26

0(n) = 6, 26<n<153

7, 153<n<1170

Задача. Проверить на статистическую независимость выборку, состоящую из номеров месяца рождения студентов группы. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4,. 1.

Проверим независимость с помощью критерия, основанного на медиане выборки. Для этого найдем медиану выборки. Сначала исходную выборку упорядочим: 1, 1, 1, 2, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 8, 8, 10, 10, 11, 11, 12, 12, 12, 12, 12, 12. Всего 28. xmed=(6+6):2=6 xmed=6. Получим теперь последовательность + и – по исходной выборке: +++++ - + - + - ++ - - + - - + - ++ - - - -. n=28 – 3 =25 (три шестерки = медиане, исключаются). (n) =14;

(n) =5.

Вычисляем теперь первые части неравенства:

  1. ½ (n+1 – 1,96 n – 1) = ½ (25+1 – 1,96 25 – 1 = 8,1 =8

  2. 3,3 lg (n+1) = 3,3lg (25+1) = 3,3 1,38 = 4,55 =4

Сравниваем теперь (n) и (n) с полученными значениями:

(n) = 14>8 (n) = 5>4

В результате получаем, что второе неравенство нарушено, следовательно, мы должны сделать вывод, что исходные данные являются статистически зависимыми.

Р ешим эту задачу с помощью критерия «нисходящих» и «восходящих» серий. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4, 1. ++++ - + - + - + - - - + - - ++ - - + - - + - (особенность попарно сравнивать) 25, на 1 меньше 3чел. – 2 пары; 12 и 4 искл., т.к. послед. Знач. одинаковы. n = 28 – 2 – 1 = 25; (n) = 16 (n) = 4. Вычисляем правые части неравенств: 1/3 (2n – 1) – 1,96 (16n – 29) : 90 = 1/3 (2 25 – 1) – 1,96 (16 25 – 29) : 90 = 12,4 = 12. 0(n) = 5 ( 5,25<26)

n

Сравниваем (n) и (n) с полученными значениями правых частей.

(n) = 16>12

(n) = 4<5

В данном случае оба требуемых неравенства выполняются, поэтому делаем вывод о том, что наши исходные данные являются статистическими независимыми (получили по 1-му и выбираете то, что вам нужно).