
- •Корреляционно - регрессионный анализ статистических данных
- •1. Введение …………………………………………………………………………………….2
- •2. Постановка задания ……………………………………………………………………………3
- •2. Постановка задачи
- •3. Контроль исходной информации на наличие грубых ошибок и выбросов
- •4. Проверка соответствия исследуемых признаков нормальному закону распределения
- •Статистическая обработка многомерной выборки
- •Корреляционный анализ статистических данных
- •7. Регрессионный анализ статистических данных
- •7.1 Парный линейный регрессионный анализ
- •7.2. Парный нелинейный регрессионный анализ
- •7.3. Многомерный линейный регрессионный анализ
- •7.4. Многомерный нелинейный регрессионный анализ
- •8. Прогнозирование на основе методов оптимизации
- •Литература
3. Контроль исходной информации на наличие грубых ошибок и выбросов
Контроль включает логическую проверку данных, т. Е. смысловую согласованность сведений, исключение “нелогичных” данных и арифметическую согласованность.
Так как уравнения регрессии обычно используют для прогноза, то для их получения необходимо иметь достоверную информацию. С этой целью требуется выполнить анализ исходных данных и исключить из многомерной выборки строчки, содержащие сомнительную информацию, или провести дополнительное уточнение информации.
Процедуру проверки экстремальных значений на предмет их исключения из выборки как выбросов можно осуществить следующим образом:
просмотреть многомерную выборку и скопировать признак с экстремальным значением в свободный столбец рядом с выборкой;
значения скопированного признака выборки упорядочить в порядке возрастания или убывания, чтобы экстремальное значение оказалось на месте первого элемента массива;
При объеме выборки
экстремальные
значения могут быть проверены по критерию
(1)
где
-
выборочное среднее и
-
стандартное отклонение, определенные
для всей выборки;
-
предполагаемый выброс. Критическое
значение критерия определяется по
таблице 2.
Таблица 2. Критические значения критерия
Объем выборки |
Уровень значимости |
|
|
=0,01 |
|
30 |
2,929 |
3,402 |
50 |
3,082 |
3,539 |
100 |
3,283 |
3,718 |
1000 |
3,884 |
4,264 |
Если
то
экстремальное значение
не
является выбросом. При
из многомерной выборки исключается
строка с экстремальным значением.
Таблица 3. Контроль информации на наличие выбросов
1 |
у1 |
х4 |
х8 |
х11 |
2 |
3,78 |
0,01 |
0,03 |
3351 |
3 |
4,23 |
0,02 |
0,24 |
3557 |
4 |
4,32 |
0,16 |
0,33 |
3967 |
5 |
5,22 |
0,17 |
0,34 |
4210 |
6 |
5,22 |
0,17 |
0,43 |
5975 |
7 |
5,39 |
0,18 |
0,45 |
6265 |
8 |
5,49 |
0,18 |
0,54 |
6338 |
9 |
5,52 |
0,19 |
0,57 |
6371 |
10 |
5,59 |
0,22 |
0,57 |
6391 |
11 |
5,61 |
0,23 |
0,6 |
6462 |
12 |
5,68 |
0,23 |
0,66 |
6555 |
13 |
5,88 |
0,23 |
0,67 |
7394 |
14 |
6,22 |
0,23 |
0,67 |
7801 |
15 |
6,3 |
0,24 |
0,67 |
8402 |
16 |
6,48 |
0,24 |
0,68 |
8810 |
17 |
6,5 |
0,25 |
0,68 |
8901 |
18 |
6,54 |
0,25 |
0,74 |
9166 |
19 |
6,57 |
0,26 |
0,78 |
9185 |
20 |
6,61 |
0,26 |
0,79 |
9475 |
21 |
6,64 |
0,26 |
0,81 |
9484 |
22 |
6,67 |
0,27 |
0,82 |
9756 |
23 |
6,69 |
0,29 |
0,84 |
9872 |
24 |
6,7 |
0,29 |
0,84 |
10342 |
25 |
7 |
0,29 |
0,86 |
10811 |
26 |
7,02 |
0,29 |
0,86 |
11085 |
27 |
7,24 |
0,3 |
0,88 |
11115 |
28 |
7,37 |
0,31 |
0,96 |
11429 |
29 |
7,65 |
0,31 |
0,98 |
11470 |
30 |
8,1 |
0,31 |
0,99 |
11586 |
31 |
8,15 |
0,31 |
1 |
11587 |
32 |
8,16 |
0,31 |
1,04 |
11795 |
33 |
8,17 |
0,31 |
1,04 |
13833 |
34 |
8,25 |
0,32 |
1,06 |
14148 |
35 |
8,72 |
0,34 |
1,14 |
15118 |
36 |
8,77 |
0,35 |
1,16 |
15283 |
37 |
9,02 |
0,36 |
1,16 |
16662 |
38 |
9,12 |
0,36 |
1,21 |
17478 |
39 |
9,26 |
0,37 |
1,22 |
17659 |
40 |
9,27 |
0,37 |
1,23 |
18963 |
41 |
9,35 |
0,37 |
1,23 |
19418 |
42 |
9,37 |
0,38 |
1,27 |
19448 |
43 |
9,38 |
0,38 |
1,27 |
20874 |
44 |
9,42 |
0,4 |
1,46 |
21220 |
45 |
9,87 |
0,41 |
1,58 |
22589 |
46 |
10 |
0,41 |
1,6 |
23935 |
47 |
10,4 |
0,42 |
1,7 |
24628 |
48 |
10,8 |
0,42 |
1,72 |
26006 |
49 |
11 |
0,43 |
1,8 |
26609 |
50 |
11 |
0,43 |
1,89 |
26761 |
51 |
12,1 |
0,43 |
1,98 |
31160 |
52 |
13,1 |
0,49 |
2,13 |
32625 |
53 |
13,2 |
0,51 |
2,2 |
46461 |
54 |
18 |
0,51 |
4,44 |
49727 |
|
|
|
|
|
|
Skp = 3,082 |
|
|
|
№ п/п |
у1 |
х4 |
x8 |
x11 |
ср.знач |
7,96 |
0,30 |
1,07 |
14707,79 |
ст.отклон |
2,60 |
0,11 |
0,68 |
9907,13 |
S min |
-1,61 |
-2,77 |
-1,54 |
-1,15 |
S max |
3,86 |
1,97 |
4,98 |
3,53 |
|
|
|
|
|
|
|
|
|
|
ср.знач |
7,77 |
|
1,01 |
14034,35 |
ст.отклон |
2,21 |
|
0,49 |
8692,95 |
S min |
-1,81 |
|
-2,00 |
-1,23 |
S max |
2,46 |
|
2,44 |
3,73 |
|
|
|
|
|
ср.знач |
|
|
|
13398,53 |
ст.отклон |
|
|
|
7458,99 |
S min |
|
|
|
-1,35 |
S max |
|
|
|
2,58 |
После сортировки значений каждого из признаков в порядке возрастания отмечаем, что наибольшие значения признаков у1 и х11 являются возможными выбросами. В среде ЭТ с помощью мастера функций определяем для всех массивов выборочные среднее, стандартные отклонения и по формуле (1) считаем расчетное значение S - критерия. Результаты расчета представлены в таблице 3.
Исключаем из выборки (табл. 1) четыре строки, которые содержат значения признаков, превышающие Skp = 3,082. В выборке остается 54 строк.