
- •Методичні вказівки
- •Теоретична частина:
- •Постановка завдання.
- •1R алгоритм (One rule )
- •Naive Bayes метод (nbc)
- •1R алгоритм
- •2.1. Реалізація 1r алгоритму
- •2.2. Дискретизація
- •Наївний баєсовський класифікатор (Naive Bayes Classifier)
- •3.1. Припущення умовної незалежності
- •Проблема арифметичного переповнення
- •3.3. Оцінка параметрів байєсівської моделі
- •Проблема невідомих слів
- •Реалізація класифікатора
- •Застосування методу Naive Bayas
- •Характеристика методу
- •4. Порядок виконання роботи
- •Варіанти індивідуальних завдань
- •Вимоги до звіту
- •Доц. Ковівчак Ярослав Васильович
4. Порядок виконання роботи
Ознайомитися з теоретичною частиною.
Виконати реалізацію методами 1R i NBC для свого індивідуального завдання.
Оформити звіт згідно результатів виконаної роботи.
Варіанти індивідуальних завдань
Завдання 1
Необхідно побудувати правило класифікації за алгоритмом 1R, використовуючи навчальну вибірку (Таблиця 1). Незалежними змінними є «Стать», «Сімейний стан», «Освіта», «Річний дохід» респондента. Залежною змінною є «Політична партія», тобто партія, за яку голосував учасник опитування. У варіантах індивідуальних завдань вказано значення змінної «Річний дохід» для кожного респондента.
Таблиця 1
Стать |
Сімейний стан |
Освіта |
Річний дохід |
Політичні партія |
Чоловіча |
Одружений(а) |
Вища |
|
Демократична |
Чоловіча |
Одружений(а) |
Вища |
|
Демократична |
Жіноча |
Неождружений(а) |
Вища |
|
Республіканська |
Чоловіча |
Неождружений(а) |
Неповна вища |
|
Республіканська |
Чоловіча |
Неождружений(а) |
Неповна середня |
|
Демократична |
Жіноча |
Одружений(а) |
Неповна вища |
|
Республіканська |
Чоловіча |
Одружений(а) |
Середня |
|
Республіканська |
Жіноча |
Одружений(а) |
Вища |
|
Демократична |
Жіноча |
Неождружений(а) |
Неповна вища |
|
Демократична |
Жіноча |
Одружений(а) |
Неповна вища |
|
Республіканська |
Чоловіча |
Неождружений(а) |
Неповна середня |
|
Республіканська |
Чоловіча |
Неождружений(а) |
Вища |
|
Демократична |
Жіноча |
Одружений(а) |
Вища |
|
Республіканська |
Жіноча |
Одружений(а) |
Неповна середня |
|
Демократична |
Чоловіча |
Одружений(а) |
Неповна вища |
|
Республіканська |
Чоловіча |
Одружений(а) |
Вища |
|
Демократична |
Чоловіча |
Неождружений(а) |
Середня |
|
Демократична |
Чоловіча |
Неождружений(а) |
Середня |
|
Республіканська |
Жіноча |
Неождружений(а) |
Вища |
|
Республіканська |
Жіноча |
Одружений(а) |
Неповна середня |
|
Демократична |
Варіанти індивідуальних завдань.
41000, 35000, 53000, 29000, 15000, 33000, 19000, 48000, 23000, 37000, 11000, 59000, 60000, 13000, 24000, 40000, 34000, 27000, 41000, 12000
52500, 34000, 66400, 29000, 22000, 55000, 29000, 45400, 23100, 47000, 21200, 89300, 44000, 14300, 84000, 54300, 34000, 37400, 31800, 11900
56700, 45200, 72400, 64500, 16400, 23400, 17500, 48000, 31600, 64200, 12300, 89000, 40000, 15300, 22400, 44400, 62300, 27000, 79100, 11000
53300, 85300, 22900, 63400, 14300, 64000, 19000, 99000, 23300, 59100, 18000, 73400, 13400, 13800, 64000, 36000, 89200, 31000, 51300, 61300
41000, 63400, 95500, 63500, 17500, 77400, 18800, 75300, 29600, 37000, 16600, 59000, 60800, 24100, 36400, 84200, 63300, 84500, 33400, 17000
46600, 27300, 63800, 36700, 18000, 33000, 19000, 43400, 45200, 44300, 32100, 66500, 75000, 18900, 29100, 22000, 55100, 36400, 41000, 19900
66600, 49000, 59500, 23900, 22300, 29900, 22900, 36000, 22400, 68100, 35700, 88300, 75600, 29900, 39200, 65300, 42500, 32500, 33100, 17400
54000, 38600, 74300, 37400, 12100, 52400, 16800, 64900, 33000, 37100, 21100, 54500, 89000, 16400, 26900, 68900, 38900, 17900, 61600, 19900
31900, 49800, 36400, 66900, 32100, 32100, 29000, 46500, 33300, 43100, 91100, 79300, 75600, 24100, 21400, 47500, 34000, 27000, 61000, 22700
71300, 64300, 23600, 57700, 12300, 54300, 21500, 39000, 54300, 64100, 13200, 64100, 57600, 17100, 24000, 35400, 44600, 37100, 61100, 22400
53100, 23000, 34600, 29000, 11300, 50800, 89000, 40100, 23000, 37000, 21100, 34100, 81500, 16800, 20700, 40000, 64800, 27000, 74000, 69000
36100, 55100, 43100, 49700, 19400, 75300, 74900, 63700, 19400, 59100, 39400, 55000, 99000, 15000, 54100, 45400, 79000, 64900, 41000, 30100
53600, 39900, 61300, 25500, 35000, 23100, 12100, 43200, 33100, 27300, 71000, 50000, 45800, 13000, 44600, 70500, 25400, 57600, 25400, 93200
45200, 36600, 59100, 22000, 18200, 36600, 23000, 49300, 23000, 35100, 19300, 69100, 70400, 15300, 21800, 44500, 39000, 25800, 51600, 19900
45600, 23400, 78560, 89300, 27500, 78300, 67800, 82400, 58100, 44000, 91200, 34600, 56300, 15300, 64300, 75200, 65400, 78400, 67800, 43500
Завдання 2
Побудувати модель класифікатора Naive Bayes.
Визначити:
Яке повідомлення є спамом?
Яка імовірність що повідомлення є спамом?
Варіанти:
[SPAM] - класи, які містять спам
[HAM] - класи, які не містять спам
[SPAM]=3, [HAM]=2
В кожному документі не менше 2 слів.
[SPAM]=4, [HAM]=1
В кожному документі не менше 3 слів.
[SPAM]=4, [HAM]=2
В кожному документі не менше 3 слів.
[SPAM]=5, [HAM]=1
В кожному документі не менше 4 слів.
[SPAM]=2, [HAM]=1
В кожному документі не менше 2 слів.
[SPAM]=3, [HAM]=2
В кожному документі не менше 4 слів.
[SPAM]=5, [HAM]=3
В кожному документі не менше 2 слів.
[SPAM]=6, [HAM]=2
В кожному документі не менше 5 слів.
[SPAM]=4, [HAM]=2
В кожному документі не менше 5 слів.
[SPAM]=6, [HAM]=3
В кожному документі не менше 3 слів.
[SPAM]=3, [HAM]=2
В кожному документі не менше 5 слів.
[SPAM]=7, [HAM]=3
В кожному документі не менше 4 слів.
[SPAM]=3, [HAM]=1
В кожному документі не менше 3 слів.
[SPAM]=6, [HAM]=2
В кожному документі не менше 6 слів.
[SPAM]=7, [HAM]=2
В кожному документі не менше 5 слів.