Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Prakticheskaya_2_Stat_analiz.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
1.08 Mб
Скачать

Характеристика тестов

  • всего вопросов – 25;

  • количество вопросов уровня 1 – 1; уровня 2 – 17; уровня 3 – 7;

  • количество баллов за вопрос :

    • уровня 1 – 1;

    • уровня 2 – 2;

    • уровня 3 – 3.

Количество баллов за раздел II – 56.

IV. Статистический анализ в Excel

§ 4.1.Очистка информации от засорения

При статистическом анализе информации принято считать, что результаты измерений подчиняются нормальному закону распределения. Однако на практике это не всегда верно. Наблюдаются отклонения как односторонние , так и двусторонние. Во избежание искажения значений характеристик распределения при обработке информации необходимо очистить ее от засорения случайными отклонениями. Метод выявления аномальных наблюдений и их удаления из совокупности при обработке многомерной статистической информации может привести к отбрасыванию слишком большого количества точек наблюдения. Известны более четко обоснованные методы обнаружения засорения : метод Смирнова–Граббса проверки максимального наблюдения, критерий Граббса для обнаружения одного экстремального наблюдения, критерий исключения нескольких грубых ошибок как обобщение критерия Граббса. Все они применяются к упорядоченной совокупности (вариационному ряду): (N 25).

Для проверки максимального и минимального значений на наличие грубой ошибки используются критерии

и ,

где , , .

При N>25 экстремальные значения могут быть проверены по критерию S:

,

где – стандартное отклонение, определенное для всей выборки ;

– предполагаемый выброс.

При Sрасч < Sкр гипотеза H0: – выброс отвергается, в противном случае экстремальное значение считается грубой ошибкой и из дальнейшего рассмотрения исключается. Критические значения критерия S определяются по таблице . При уровне значимости Sкр так зависит от объема выборки N : значениям N = 30 ; 50 ; 100 ; 1000 соответствуют Sкр = 2,929 ; 3,082 ; 3,283 ; 3,884 .

Парный корреляционный и регрессионный анализ удобно выполнять средствами Excel и надстройки «Пакет анализа» (в меню – Сервис– Анализ данных ).

Для наглядности выполним статистический анализ совокупности таких показателей (Приложение 1): Y2, X4, X5, X6, X7, X8.

Для проверки статистических данных на «засорение» необходимо выполнить следующие действия :

– скопировать все значения показателя ( например Y2) на чистый лист;

– упорядочить их по возрастанию, для чего выделить весь столбец без заголовка и нажать на панели кнопку сортировки ;

– установить курсор под последним значением и ввести функцию Статистическая – СРЗНАЧ, а затем СТАНДОТКЛ , как показано ниже;

A

B

49

236,7

50

264,8

51

267,3

52

355,6

53

526,6

54

598,1

55

=СРЗНАЧ(A2:A54)

Ср.знач.

56

=СТАНДОТКЛОН(A2:A54)

Ст.откл.

57

=(A54-A55)/A56

S расч

58

=СРЗНАЧ(A2:A53)

Ср.знач.1

59

=СТАНДОТКЛОН(A2:A53)

Ст.откл.1

60

=(A53-A58)/A59

S расч.1

61

=СРЗНАЧ(A2:A52)

Ср.знач.2

62

=СТАНДОТКЛОН(A2:A52)

Ст.откл.2

63

=(A52-A61)/A62

S расч.2


A

B

49

236,7

50

264,8

51

267,3

52

355,6

53

526,6

54

598,1

55

113,1945

Ср.знач.

56

116,937

Ст.откл.

57

4,146726

S расч

58

103,8694

Ср.знач.1

59

96,14184

Ст.откл.1

60

4,396947

S расч.1

61

95,58059

Ср.знач.2

62

76,05273

Ст.откл.2

63

3,418936

S расч.2

– вычислить значение статистики Sрасч по найденным характеристикам для наибольшего значения, которое нужно подставить в формулу вместо x1 и проверить гипотезу H0 : наибольшее (последнее в столбце) значение – выброс;

– если Sрасч > Sкр (0,05; 50) = 3,082 , это значение является выбросом, и необходимо проверить предыдущее значение , только при этом следует заново определить среднее значение и стандартное отклонение, но уже исключив выброс, как это и выполнено в приведенной таблице;

– проверку на выброс следует продолжать до первого значения, для которого гипотеза H0 окажется неправдоподобной, т.е. для которого значение Sрасч окажется меньше Sкр;

– такую же проверку необходимо выполнить и начиная с наименьшего (первого в столбце) значения, помня о том, что критерий S имеет двустороннюю критическую область, и поэтому следует рассматривать модуль Sрасч.

Для приведенного примера два последних значения Y2 являются выбросами. Это следует из таблиц, приведенных выше. Правая таблица содержит результаты проверки, а левая – формулы, которые следует ввести в ячейки, чтобы эти результаты получить. Третье проверенное значение может быть оставлено, так как значение Sрасч близко к Sкр. Такие проверки необходимо выполнить для всех показателей. В итоге на новый лист следует перенести исходные статистические данные и исключить полностью каждую строку, в которой есть выброс хотя бы одного из показателей. Весь последующий статистический анализ проводить только по очищенным данным.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]