Категорії Web Mining

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Тернопольский национальный экономический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kursach.rtf

Скачиваний:

Добавлен:

01.07.2025

Размер:

5.87 Mб

Скачать

☆

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Категорії Web Mining

Web Mining – видобуток цікавих і потенційно корисних моделей і нечіткої інформації або діяльності, пов’язаної з всесвітньою павутиною. Є приблизно три області виявлення знань, які належать Web Mining: Витяг веб-контенту - Web Content Mining, Витяг веб-структур - Web Structure Mining, і Аналіз використання веб-ресурсів - Web Usage Mining.

Вилучення веб-контенту – це тип видобутку інформації , який дозволяє збирати інформацію, яка необхідна для доступу до веб-сторінок. Ця інформація збирається автоматично в журнали доступу через веб-сервери. Статистика видобутку дозволяє компанії отримувати продуктивну інформацію , яка може покращити розвиток цієї компанії. Також можливе , отримання нових результатів для дослідження глобальної мережі, а саме її розвиток, розширення, зацікавленість користувачів , поширення (популяризація) сайтів або різноманітних трендів тощо. Використання даних може також бути корисним для розробки маркетингових навичок.

Вилучення веб-структур – це інструмент який використовується для визначення відносин між веб-сторінками, посилання на інформацію та або пряме підключення посиланнями. Ця структура бази даних може бути виявлена шляхом надання веб-схеми структури бази даних через методи, які використовуються для пошуку інформації веб-сторінок. Цей метод визначення відносин виконується за допомогою “павуків”, які сканують веб-сайти, основну увагу звертаючи на головну сторінку (індексну, а не категоріальні). Ці “павуки” пов’язують інформацію за допомогою посилань, для з’єднання з конкретними сторінками, які містять потрібну інформацію. [7]

Аналіз використання веб-ресурсів – видобуток веб ресурсів за допомогою сканування веб-сторінок і видобутку тексту, зображень і графіки, веб-сторінки для визначення актуальності змісту в пошуковому запиті. Це сканування завершується після кластеризації веб-сторінок через структури інтелектуального аналізу даних і забезпечує результати, засновані на рівні відношення до запропонованого запиту. Зміст самих веб ресурсів надає списки результатів у пошукових системах в порядку найвищого відношення до ключових слів у запиті.

Видобуток змісту веб-сторінки – це є один з підкатегорій вилучення веб-контенту. Видобуток собою представляє пошук необхідної інформації для аналізу певних явищ, для отримання певних характеристик, для створення нових видів методів (методик).[8]

Результат пошуку – це отримані дані в результаті видобутку змісту веб-сторінок. Це вибрана інформація, яка підлягає її обробці. При цьому, інформація могла бути найдена не точна, а лише подібна. Тому за допомогою очистки і узагальнення можна зробити висновок, по знайденому матеріалу.

Загальне відстеження доступу до файлів – основною метою цієї під категорії є полегшення доступу користувачів до необхідних даних.[6]

Індивідуальний контроль використання – основною метою є налагодження сайту для користувача, що відображається в пошуку глибинної структури сайту і формати ресурсів можуть динамічно налаштовуватись для кожного користувача з певним періодом часу в залежності від їх моделей доступу. [2]

Провівши дослідження категорій Web Mining потрібно виділити задачі та охарактеризувати проблему оцінки впливу діяльності політичних діячів в сфері міжнародних відносин.

Задачі Web Mining

Всі задачі, які вирішуються методами обробки та аналізу даних в Інтернеті, можна поділити на наступні групи:

Виявлення шаблонів поведінки користувача – вирішення таких задач дозволяє найбільш поширений контент веб-ресурсів, знаходити інформацію серед великої кількості інформації (велика кількість сайтів),визначення закономірностей пошуку інформації користувачами;
Пошук релевантної інформації – використання пошукових систем для пошуку інформації користувачами, а також використання пошукових машин в локальному середовищі для знаходження інформації на локальному комп’ютері , серед бази даних;
Вилучення інформації (контенту) з неструктуризованих джерел – дозволяє формувати структуризовані документи з глосарієм, із структуризованим змістом на основі безлічі неструктуризованих даних;
Аналіз структури сегментації в мережі Інтернет;
Персоналізація інформації;
Пошук шаблонів в поведінці користувачів. [8]

Для пошуку необхідної інформації користувачі зазвичай використовують пошукові системи. При цьому часто використовую прості запити, які складаються з ключових слів. Результати виконання запиту є список сторінок, відсортовані по деякому індексі релевантності, описуючи ступінь спів падіння з запитом. Однак, існують пошукові механізми, які мають деякі недоліки. Основними з яких є низька точність результатів. Це спричинено малим врахуванням семантичних зв’язків і контексту знайдених в тексті виразів. Індексація необхідних елементів мережі з використанням інтелектуального аналізу даних, а саме які використовують алгоритми математичну лінгвістику та обробку мовних елементів в мережі, які являються одним з найперспективніших методів Web Mining в пошуку інформації [4].

Аналіз структури сегментації в мережі Інтернет полягає в аналізі структури посилань між різними веб - сторінками, внутрішніми і зовнішніми сайтами. Поява цього виду задачі була спричинена необхідністю вирішенню питань, які виникають в результаті аналізу соціальних мереж або специфічних областей людської діяльності або знань. Результатом такого аналізу може бути знайдений набір специфічних сторінок. Такими сторінками можуть бути:

Хаби – з такої сторінки посилання йдуть на найбільш значущі ресурси в даній галузі знань або в соціальних мережах найбільш авторитетними представниками цих соціальних мереж;
Авторитети – сторінки, на які посилаються велика кількість авторів різноманітних тематик або користувачів соціальної мережі, до “дружби” з якими прагне велика кількість користувачів.

Вилучення інформації (контенту) з неструктуризованих джерел являє собою дослідження знайдених веб-сторінок, отриманих в результаті запиту користувача. Далі необхідно виконати обробку даних з точки зору автоматичної класифікації, створення заголовків, пошук ключових слів і загальних тем. Знаходженні дані можуть представлятися в вигляді дерев, описуючи структуру документів і в вигляді логічних і семантичних виразів. Вирішення частково цих проблем може підпадати під Text Mining –технологія автоматичного вилучення даних в великих об’ємів такстових матеріалів.

Персоналізації інформації – задача по створенню веб систем, які адаптують свої можливості піж користувача на основі зібраної і проаналізованої інформації . [4]

Пошук шаблонів в поведінці користувачів - задача подібна до попередньої , але основною її ціллю являється адаптація ресурсів під користувача, а пошук закономірностей в шаблонах взаємодії користувача з веб-ресурсом. Основною метою є прогнозування майбутніх дій. Аналізуючи дії користувачів можуть включати не тільки переходи по посиланнях, а й відправка форм, прокрутка сторінок, додавання в обрані сторінки в браузері тощо. Знайденні шаблони використовуються в майбутньому для оптимізації структури сайту, вилучення цільової аудиторії і для прямого маркетингу.

Розроблено безліч підходів до вирішення завдання з виявлення знань з шаблонів навігації користувачів (Jose Borges и Mark Levene "Data Mining of User Navigation Patterns", A. G. Buechner "Navigation Pattern Discovery from Internet Data").

З точки зору застосування алгоритмів інтелектуального аналізу даних при пошуку шаблонів поведінки користувача найчастіше використовуються такі методики :

Кластеризація – пошук груп схожих відвідувачів, сайтів, сторінок, тощо.
Асоціація – пошук спільно запитуваних сторінок, наприклад для замовлення необхідних товарів.
Аналіз послідовностей - пошук послідовності дій. Найбільш часто застосовується варіант алгоритму Apriori, розроблений для аналізу частих наборів. [4]

Отже, аналіз політичних постатей засобами Web Mining дозволить виділити актуальні питання міжнародних відносин або провести аналіз подій , що пов’язані з їхньою діяльністю.

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.202584.53 Кб0KPIZ_z_POLITOLOGIYi.docx
#
01.03.2025183.3 Кб1KPIZ_z_Regionalnoyi_ekonomiki.doc
#
15.08.2019186.37 Кб2kpiz_z_up-olya_gordiychuk.doc
#
01.07.2025225.79 Кб0Kr_fin_pidpriyemstva.doc
#
09.02.20162.12 Mб19Kurs-lektsij-z-makroekonomiki.pdf
#
01.07.20255.87 Mб0Kursach.rtf
#
01.07.202590.42 Кб0kursova (2).docx
#
18.09.201992.16 Кб2kursovaya_po_marketingu_moya_3_variant.doc
#
01.07.20251.11 Mб0kurs_rob_modeli-14.doc
#
01.05.202598.65 Кб0Kznacheyska_-_modul_1.docx
#
01.05.20252.19 Mб1K_17-К_17_9.rtf