Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие_2011.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
7.53 Mб
Скачать

Анализ данных (Пример для выполнения «по-шагам»)

Рассмотрим пример анализа данных, использую изученный материал.

Есть данные по статистике Швеции (файл Швеция.xls):

2010

2011

декабрь

январь

февраль

март

апрель

май

Количество человек

9 412 851

9 415 570

9 418 732

9 422 661

9 428 054

9 433 875

Общее количество работоспособного населения (тыс.чел)

4917

4954

4949

4969

4997

5001

Занятые (тыс.чел)

4554

4546

4557

4565

4601

4606

Безработных среди молодёжи (от общего числа безработных 15-24 лет) (тыс.чел)

133

148

147

169

158

164

Доля безработных, ищущих работу более 6 месяцев (от общего числа безработных)

35,30%

32,20%

32,60%

34,60%

32,90%

34,10%

Количество новых рабочих мест

46 033

62 223

72 979

74 037

61 833

72 796

Размер месячной зарплаты служащих в частном секторе (крон)

33 480

33 500

33 550

33 650

33 650

Уровень экономической активности

69,8

70,2

70,1

70,4

70,7

70,8

Строительство новых квартир

16,02

16,02

16,02

16,02

24,76

24,76

Экспорт товаров (млрд.крон)

102

96,9

99,9

112,8

98,5

107

Импорт товаров (млрд.крон)

91,1

87,9

87,9

103,2

92,7

101,3

Зарегистрировано новых легковых автомобилей

30 604

20 453

22 214

31 642

31 132

33 466

Хотим проанализировать:

Как зависит количество импортируемого товара (№ 11) от изменения числа занятых людей (№ 3). При этом не хотим учитывать зависимость от строительства новых квартир (№ 9) и регистрации новых автомобилей (№ 12).

Таким образом, можем сформулировать нашу гипотезу так:

Правда ли что чем лучше люди обеспечены рабочими местами, тем больше количество импортируемого товара.

Первый шаг.

Открываем нужный файл и сохраняем его с соответствующим расширением.

Запускаем программу и загружаем данные.

В нашем случае все переменные имеют Числовой тип.

Нажмите кнопку «View Data» и просмотрите свои данные. Обратите внимание на то, что имена переменных должны быть названиями СТОЛБЦОВ, а не строк.

Выставим зависимую (целевую) переменную для нашей гипотезы – это переменная 3. В столбце «Игнорировать поле» поставим галочки напротив переменных 9 и 12.

Второй шаг. (стр. 7)

Не снимаем галочку «Analyze the Dependent Variable As Boolean».

Закладка Rule Parameters (Параметры правил).

Predicted Value

более чем: (важно смотреть, чтобы частота, которая показывается справа не была очень высокой, иначе система не сможет найти правила и будет выдаваться ошибка)

4560

Минимальная доверительная вероятность (точность) (Minimum probability of …) для правила «Если…То» (if-then)

70

Минимальная доверительная вероятность (Minimum probability of …) для «Если…То Не» (if-then-Not)

70

Минимальное число объектов (Minimum number of …), на которых подтверждается правило

2

Максимальное число событий в правиле (Maximum number of …).

2

Если эти параметры не подходят, измените их.

Закладка Стоимость ошибок (Error Costs).

Закладка параметры вывода для отчета (Rule report).

См. стр. 9 и 10.

Закладка Manual Select

Допустим, мы не хотим анализировать зависимость экспорта товаров от импорта. Выбираем в левом окне поле № 10 в правом - № 11 и нажимаем «Add».

Переходим на следующую вкладку.

Закладка Data Format

Настройте параметры выдаваемого отчета по своему желанию.

Третий шаг. Выработка правил.

Запускаем процедуру поиска логических закономерностей, нажав кнопку «Issue Rule».

Система выдаст окно-сообщение о том, что найдено 18 правил. Нажимаем «ОК» и получаем окно отчета.

Кликнув на Summary Report, проверяем правильность заданных параметров поиска. И после этого переходим на вкладку If-Then Rules Report.

Мы помним, что нас интересует зависимость переменных 3 и 11. При этом зависимой переменной является переменная № 3, т.е. в читаемых правилах она стоит после Then (таким образом ищем правила где рассуждения ведутся следующим образом: если № 11 и … Тогда № 3 …). Или если мы ищем все правила, то после фразы if and only if.

Это правила № 4, 5, 15 и 16:

4).

N1 is 9 422 661,00 ... 9 433 875,00 (average = 9 428 196,67 )

and N11 is 93,00 ... 103,00 (average = 99,00 )

if and only if

N3 is more than 4 560,00

The rule exists in 3 records.

Significance Level: Error probability < 0,1

Positive Examples (records' serial numbers):

4, 5, 6

5).

N2 is 4 969,00 ... 5 001,00 (average = 4 989,00 )

and N11 is 93,00 ... 103,00 (average = 99,00 )

if and only if

N3 is more than 4 560,00

The rule exists in 3 records.

Significance Level: Error probability < 0,1

Positive Examples (records' serial numbers):

4, 5, 6

15).

If N11 is 91,00 ... 103,00 (average = 97,00 )

Then

N3 is more than 4 560,00

Rule's probability: 0,750

The rule exists in 3 records.

Significance Level: Error probability < 0,2

Positive Examples (records' serial numbers):

4, 5, 6

Negative Examples (records' serial numbers):

1

16).

If N11 is 88,00

Then

N3 is not more than 4 560,00

Rule's probability: 1,000

The rule exists in 2 records.

Significance Level: Error probability < 0,2

Positive Examples (records' serial numbers):

2, 3

Количество человек (население страны) 9 422 661,00 ... 9 433 875,00 (average = 9 428 196,67 ) и импорт товаров в пределах 93,00 ... 103,00 (average = 99,00 )

Тогда и только тогда если:

Количество занятых более чем 4 560,00

Щелкнув на «очках» посмотрите значения переменных для «позитивных» правил.

Общее количество работоспособного населения в пределах 4 969,00 ... 5 001,00 (average = 4 989,00 ) и импорт товаров в пределах 93,00 ... 103,00 (average = 99,00 )

Тогда и только тогда если:

Количество занятых более чем 4 560,00

Если импорт товаров в пределах 91,00 ... 103,00 (average = 97,00 )

Тогда

Количество занятых более чем 4 560,00

Щелкнув на «очках», посмотрите значения переменных для «позитивных» и «негативных» правил.

Если импорт товаров 88,00 )

Тогда

Количество занятых не более чем 4 560,00

Посмотрите визуализацию 5-го правила, вызвав «Rule Chart» в контекстном меню.

Таким образом, мы видим, что наша гипотеза подтверждается, т.е. чем больше людей занято, тем больше импортируется товара.

Продолжаем анализ. Переходим на вкладку Trend Report.

В области, расположенной в левом верхнем углу, мы задаём анализируемый признак (Field to be analyzed). Так, выбрав переменную № 11 мы видим следующий график, иллюстрирующий зависимость переменных 3 и 11:

Что визуально подтверждает правильность нашей гипотезы. А именно: импорт товаров в диапазоне 91-103, существенно влияет на количество занятых людей.

Задание: выберите в качестве анализируемых переменных переменные № 6 и 7(по очереди) и объясните получившиеся графики.

Продолжаем анализ. Переходим на вкладку Unexpected Rule и анализируем неожиданные правила нашего примера попутно выдвигая предположения какие результаты такое развитие событий может дать.

Выберем в левом нижнем окне Sort by нужную переменную, например № 11, получим окно со следующими результатами:

Как Вы помните, в левом окне приведено найденное неожиданное правило, которое объединяет два основных правила.

Анализируем:

Общее количество работоспособного населения (№2) находится в диапазоне 4 969,00 ... 5 001,00 (average = 4 989,00 ) и импорт товаров в пределах 91,00 ... 103,00 (average = 97,00 ) если и только если занятость больше чем 4 560,00.

Уровень неожиданности данного правила (Level of Unlikelihood) – 0,750. Что визуально представлено на графике красным столбиком, т.е. вероятность и достоверность этого правила достаточно высока.

Ожидавшаяся вероятность правила (Expected rule probability) - 0,862.

Задание: перебирая переменные, найдите наиболее неожиданное правило.

Займемся теперь предсказаниями на основе полученных правил (Predict online)

Нажимаем кнопку Predict online (или находим соответствующий пункт меню: Issue - Predict online), и в окно диалога для ручного ввода значений признаков устанавливаем интересующие нас значения, например: N4 = 160,00, N11 = 106,00.

И нажимаем кнопку «Issue Rule».

Ниже представлен полученный результат:

WIZWHY PREDICTION REPORT

File Name: D:\Sv_works\WizWhy\Задания\Швеция2.dbf

Condition Fields:

N4 = 160,00

N11 = 106,00

Dependent Variable: N3

Subject for Prediction: N3 is more than 4 560,00

Primary Prediction's probability: 0,500

Conclusive Prediction's probability: 1,000

Decision point: 0,502

Prediction: more than 4 560,00

The following conditions explain when N3 is more than 4 560,00

When at least one of the conditions holds, the probability that

N3 is more than 4 560,000

is 1,000 (3 out of 3 cases)

When all the conditions do not hold, the probability that

N3 is not more than 4 560,000

is 1,000 (3 out of 3 cases)

1) N4 is 158,000 ... 169,000 (average = 163,667 )

Прогнозирующий отчет

Имя файла: D:\Sv_works\WizWhy\Задания\Швеция2.dbf

Поля условий:

N4 = 160,00

N11 = 106,00

Зависимая переменная: №3

Предмет для прогнозирования: N3 is more than 4 560,00

Начальный прогноз по вероятности: 0,500

Заключительный прогноз по вероятности: 1,000

Точка решения: 0,502

Прогноз: больше чем 4 560,00

Следующие условия объясняют когда N3 is more than 4 560,00

Если хотя бы одно из условий имеет вероятность того, что

N3 is more than 4 560,000

is 1,000 (3 out of 3 cases)

Когда все условия не выполняются, вероятность того, что

N3 is not more than 4 560,000

is 1,000 (3 out of 3 cases)

1) N4 is 158,000 ... 169,000 (average = 163,667