Категорії Web Mining
Web Mining – видобуток цікавих і потенційно корисних моделей і нечіткої інформації або діяльності, пов’язаної з всесвітньою павутиною. Є приблизно три області виявлення знань, які належать Web Mining: Витяг веб-контенту - Web Content Mining, Витяг веб-структур - Web Structure Mining, і Аналіз використання веб-ресурсів - Web Usage Mining.
Вилучення веб-контенту – це тип видобутку інформації , який дозволяє збирати інформацію, яка необхідна для доступу до веб-сторінок. Ця інформація збирається автоматично в журнали доступу через веб-сервери. Статистика видобутку дозволяє компанії отримувати продуктивну інформацію , яка може покращити розвиток цієї компанії. Також можливе , отримання нових результатів для дослідження глобальної мережі, а саме її розвиток, розширення, зацікавленість користувачів , поширення (популяризація) сайтів або різноманітних трендів тощо. Використання даних може також бути корисним для розробки маркетингових навичок.
Вилучення веб-структур – це інструмент який використовується для визначення відносин між веб-сторінками, посилання на інформацію та або пряме підключення посиланнями. Ця структура бази даних може бути виявлена шляхом надання веб-схеми структури бази даних через методи, які використовуються для пошуку інформації веб-сторінок. Цей метод визначення відносин виконується за допомогою “павуків”, які сканують веб-сайти, основну увагу звертаючи на головну сторінку (індексну, а не категоріальні). Ці “павуки” пов’язують інформацію за допомогою посилань, для з’єднання з конкретними сторінками, які містять потрібну інформацію. [7]
Аналіз використання веб-ресурсів – видобуток веб ресурсів за допомогою сканування веб-сторінок і видобутку тексту, зображень і графіки, веб-сторінки для визначення актуальності змісту в пошуковому запиті. Це сканування завершується після кластеризації веб-сторінок через структури інтелектуального аналізу даних і забезпечує результати, засновані на рівні відношення до запропонованого запиту. Зміст самих веб ресурсів надає списки результатів у пошукових системах в порядку найвищого відношення до ключових слів у запиті.
Видобуток змісту веб-сторінки – це є один з підкатегорій вилучення веб-контенту. Видобуток собою представляє пошук необхідної інформації для аналізу певних явищ, для отримання певних характеристик, для створення нових видів методів (методик).[8]
Результат пошуку – це отримані дані в результаті видобутку змісту веб-сторінок. Це вибрана інформація, яка підлягає її обробці. При цьому, інформація могла бути найдена не точна, а лише подібна. Тому за допомогою очистки і узагальнення можна зробити висновок, по знайденому матеріалу.
Загальне відстеження доступу до файлів – основною метою цієї під категорії є полегшення доступу користувачів до необхідних даних.[6]
Індивідуальний контроль використання – основною метою є налагодження сайту для користувача, що відображається в пошуку глибинної структури сайту і формати ресурсів можуть динамічно налаштовуватись для кожного користувача з певним періодом часу в залежності від їх моделей доступу. [2]
Провівши дослідження категорій Web Mining потрібно виділити задачі та охарактеризувати проблему оцінки впливу діяльності політичних діячів в сфері міжнародних відносин.
Задачі Web Mining
Всі задачі, які вирішуються методами обробки та аналізу даних в Інтернеті, можна поділити на наступні групи:
Виявлення шаблонів поведінки користувача – вирішення таких задач дозволяє найбільш поширений контент веб-ресурсів, знаходити інформацію серед великої кількості інформації (велика кількість сайтів),визначення закономірностей пошуку інформації користувачами;
Пошук релевантної інформації – використання пошукових систем для пошуку інформації користувачами, а також використання пошукових машин в локальному середовищі для знаходження інформації на локальному комп’ютері , серед бази даних;
Вилучення інформації (контенту) з неструктуризованих джерел – дозволяє формувати структуризовані документи з глосарієм, із структуризованим змістом на основі безлічі неструктуризованих даних;
Аналіз структури сегментації в мережі Інтернет;
Персоналізація інформації;
Пошук шаблонів в поведінці користувачів. [8]
Для пошуку необхідної інформації користувачі зазвичай використовують пошукові системи. При цьому часто використовую прості запити, які складаються з ключових слів. Результати виконання запиту є список сторінок, відсортовані по деякому індексі релевантності, описуючи ступінь спів падіння з запитом. Однак, існують пошукові механізми, які мають деякі недоліки. Основними з яких є низька точність результатів. Це спричинено малим врахуванням семантичних зв’язків і контексту знайдених в тексті виразів. Індексація необхідних елементів мережі з використанням інтелектуального аналізу даних, а саме які використовують алгоритми математичну лінгвістику та обробку мовних елементів в мережі, які являються одним з найперспективніших методів Web Mining в пошуку інформації [4].
Аналіз структури сегментації в мережі Інтернет полягає в аналізі структури посилань між різними веб - сторінками, внутрішніми і зовнішніми сайтами. Поява цього виду задачі була спричинена необхідністю вирішенню питань, які виникають в результаті аналізу соціальних мереж або специфічних областей людської діяльності або знань. Результатом такого аналізу може бути знайдений набір специфічних сторінок. Такими сторінками можуть бути:
Хаби – з такої сторінки посилання йдуть на найбільш значущі ресурси в даній галузі знань або в соціальних мережах найбільш авторитетними представниками цих соціальних мереж;
Авторитети – сторінки, на які посилаються велика кількість авторів різноманітних тематик або користувачів соціальної мережі, до “дружби” з якими прагне велика кількість користувачів.
Вилучення інформації (контенту) з неструктуризованих джерел являє собою дослідження знайдених веб-сторінок, отриманих в результаті запиту користувача. Далі необхідно виконати обробку даних з точки зору автоматичної класифікації, створення заголовків, пошук ключових слів і загальних тем. Знаходженні дані можуть представлятися в вигляді дерев, описуючи структуру документів і в вигляді логічних і семантичних виразів. Вирішення частково цих проблем може підпадати під Text Mining –технологія автоматичного вилучення даних в великих об’ємів такстових матеріалів.
Персоналізації інформації – задача по створенню веб систем, які адаптують свої можливості піж користувача на основі зібраної і проаналізованої інформації . [4]
Пошук шаблонів в поведінці користувачів - задача подібна до попередньої , але основною її ціллю являється адаптація ресурсів під користувача, а пошук закономірностей в шаблонах взаємодії користувача з веб-ресурсом. Основною метою є прогнозування майбутніх дій. Аналізуючи дії користувачів можуть включати не тільки переходи по посиланнях, а й відправка форм, прокрутка сторінок, додавання в обрані сторінки в браузері тощо. Знайденні шаблони використовуються в майбутньому для оптимізації структури сайту, вилучення цільової аудиторії і для прямого маркетингу.
Розроблено безліч підходів до вирішення завдання з виявлення знань з шаблонів навігації користувачів (Jose Borges и Mark Levene "Data Mining of User Navigation Patterns", A. G. Buechner "Navigation Pattern Discovery from Internet Data").
З точки зору застосування алгоритмів інтелектуального аналізу даних при пошуку шаблонів поведінки користувача найчастіше використовуються такі методики :
Кластеризація – пошук груп схожих відвідувачів, сайтів, сторінок, тощо.
Асоціація – пошук спільно запитуваних сторінок, наприклад для замовлення необхідних товарів.
Аналіз послідовностей - пошук послідовності дій. Найбільш часто застосовується варіант алгоритму Apriori, розроблений для аналізу частих наборів. [4]
Отже, аналіз політичних постатей засобами Web Mining дозволить виділити актуальні питання міжнародних відносин або провести аналіз подій , що пов’язані з їхньою діяльністю.
