
План:
1.
2.
3.
http://bukvar.su/zhurnalistika/page,2,180737-Obraz-Rossii-v-britanskih-SMI.html
http://www.niss.gov.ua/articles/1476/
http://uk.wikipedia.org/wiki/Російська_інтервенція_в_Україну_2014#.D0.86.D0.BD.D1.84.D0.BE.D1.80.D0.BC.D0.B0.D1.86.D1.96.D0.B9.D0.BD.D0.B5_.D0.B7.D0.B0.D0.B1.D0.B5.D0.B7.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.BD.D1.8F_.D0.B2.D1.96.D0.B9.D0.BD.D0.B8
http://uk.wikipedia.org/wiki/Фрейм_(психологія)
http://www.webeffector.ru/wiki/Парсинг
http://ru.wikipedia.org/wiki/Синтаксический_анализ
Мета і завдання курсового проекту
Основною метою курсового проекту є дослідження аналізу даних Web Mining . А також, застосування знань для рішення конкретної задачі, а саме аналіз інформації про політичних діячів, а саме Маргарет Тетчер . Набуття і закріплення навиків роботи з програмою парсингу Datacol.
Для початку моїм завданням є пошук необхідної інформації . Для аналізу інформації зібраної раніше, необхідно спершу здійснити її очистку Після чого, інформація структуризується і можна робити аналіз. .
ВСТУП
Web Mining - застосування інтелектуального аналізу даних методів виявити шаблони з веб.
Web Mining - застосування методів в алгоритмів Data Mining для пошуку залежностей і знань в мережі Інтернет.
Web Mining є причиною розвитку електронного бізнесу. За допомогою web mining можна визначити інтереси і переваги кожного з відвідувачів , можна спостерігати за його поведінкою, можна також заохочувати інших відвідувачів.
В даній курсовій роботі, я досліджую поширення інформації про смерть Маргарет Тетчер в Інтернеті , а також її дослідження (найбільша поширеність в Інтернеті, заінтересованість в країнах,поширеність серед користувачі глобальної мережі).
Web Mining застосовує технології Data Mining для аналізу неструктурованої , неоднорідної і великої за обсягом інформації, які розповсюджуються на різноманітних веб сторінках .
В даній курсовій роботі я буду використовувати аналіз веб-сторінок для пошуку інформації про смерть Маргарет Тетчер. Для цього я буду застосовувати програму Datacol (програму для парсингу).
Аналіз даних web mining
Основні етапи проведення Web Mining
Web Mining – набор методів Data Mining, які дозволяють обробляти дані, які знаходяться в мережі Інтернет. Як правило, такі методи в більшості випадків використовуються в електронному бізнесі (комерції) і лежать в основі статистичної інформації.
Основними етапами Web Mining є:
Вхідний етап (input stage) – отримання необроблених даних з мережі Інтернет. Такими даними є інформація на веб сторінках, яка є доступною для всіх користувачів. Збір інформації відбувається за допомогою різного програмного забезпечення , такого як Datacol (відома, як одна з найкращих програм парсингу), ZoloPages, InfoStream.
Етап перед обробки даних (preprocessing stage) . При цьому, перед обробка відбувається наступним чином:
очистка даних (набір даних потрібно відфільтрувати від інформації, яка генерується автоматично з загрузкою веб сторінки);
видалення записів, які показують неактивність користувача (веб-боти переглядають величезну кількість сторінок в Інтернеті, при цьому вони дивляться на активність користувачів (останній вхід на сайт, редагування даних, публікація нової статті) ;
визначення кожного окремого користувача – більшість сайтів не використовую систему реєстрації, тому користувачі, які відвідують такі сайти є анонімними. Це не досить зручно пошуковим системах , а також для обробки веб даних. Але більшість розкручених сайтів, або таких, які обмежують свою інформацію для стороннього перегляду все ж таки використовують систему реєстрації, при цьому користувач вносить контактну інформацію про себе. За допомогою реєстрації (кук-файлів) можна визначити інтереси користувача, які можуть значно розширити клієнтський склад великих корпорацій. В моєму випадку, можна дослідити користувачів, які публікують статті про політику Великої Британії ( а саме смерть Маргарет Тетчер), а також категорії заінтересованих користувачів.
Ідентифікація користувача сесії – це означає, що для кожного візиту визначаються сторінки за запитом і порядок їх перегляду.
Знаходження повного шляху, використаного користувачем.
Етап моделювання (parent discovery stage) – використовується попередньо оброблені дані для створення моделі процесу, при якому буде досліджуватися дана інформація.
Етап аналізу моделі (parent analysis stage) – інтерпретація(роз’яснення, тлумачення) отриманих даних. [5]
Після аналізу етапів проведення Web Mining потрібно провести дослідження категорій , що дасть змогу виділити основні завдання інтелектуального аналізу даних текстової інформації.