Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Иванова_Магистерская работа.doc
Скачиваний:
20
Добавлен:
06.02.2016
Размер:
1.02 Mб
Скачать

Потік e-mail

Оперативна база даних Ретроспективна база даних

Рис. 1. Основні технологічні процеси системи контент-моніторингу

У відповідності своєму основному призначенню, перша підсистема забезпечує:

  • збір та обробку інформації з різноманітних веб-ресурсів та її форматування;

  • виявлення ключових слів та понять;

  • автоматичну рубрикацію;

  • виявлення змістового дублювання документів;

  • вибіркове розповсюдження інформації.

Головна задача другої підсистеми — формування баз даних та забезпечення доступу до неї користувачів, а саме:

  • формування оперативних та ретроспективних баз даних;

  • ротація баз даних;

  • персоналізація роботи користувачів, збереження їх персональних запитів та джерел, ведення статистики роботи;

  • забезпечення пошуку в базах даних;

  • генерація вихідних форм;

  • інформаційна взаємодія з базами даних інших підсистем.

Підсистема аналізу та узагальнення інформації забезпечує:

  • формування інформаційних портретів;

  • формування дайджестів;

  • виявлення тематичних сюжетів;

  • побудову таблиць взаємозв’язків понять;

  • розрахунок рейтингів понять.

2.2. Архітектура систем аналізу

Процес відбору необхідної інформації з загального інформаційного потоку вимагає великих затрат часу. Перед людством стала проблема створення інтелектуальних систем пошуку необхідної інформації. Розвиток методів запису і зберігання даних призвело до бурхливого зростання обсягів збираємої і аналізуємої інформації. Обсяги даних настільки значні, що людині просто не під силу проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже в цих «сирих» даних укладені знання, які можуть бути використані при прийнятті рішень. Для того щоб провести автоматичний аналіз даних, використовується Data Mining.

Data Mining — це технологія виявлення в «сирих» даних раніше невідомих нетривіальних практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності [29]. Data Mining є одним з кроків Knowledge Discovery in Databases.

Інформація, знайдена в процесі застосування методів Data Mining, повинна бути нетривіальною і раніше невідомою. Знання повинні описувати нові зв’язки між властивостями, передбачати значення одних ознак на основі інших і тощо. Знайдені знання повинні бути застосовні і на нових даних з деяким ступенем достовірності. Корисність полягає в тому, що ці знання можуть приносити певну вигоду при їх застосуванні. Знання повинні бути в зрозумілій для користувача не математика вигляді. Наприклад, найпростіше сприймаються людиною логічні конструкції «якщо ... то ...». Більше того, такі правила можуть бути використані в різних СУБД в якості SQL-запитів. У випадку, коли витягнуті знання непрозорі для користувача, повинні існувати методи постобробки, що дозволяють привести їх до інтерпретуємого виду.

Алгоритми, що використовуються в Data Mining, вимагають великої кількості обчислень. Раніше це було стримуючим фактором широкого практичного застосування Data Mining, проте сьогоднішнє зростання продуктивності сучасних процесорів зняло гостроту цієї проблеми. Тепер за прийнятний час можна провести якісний аналіз сотень тисяч і мільйонів записів.

Завдання, які вирішуються методами Data Mining:

  • Класифікація — це віднесення об’єктів (спостережень, подій) до одного з наперед відомих класів.

  • Регресія, у тому числі завдання прогнозування. Встановлення залежності безперервних вихідних від вхідних змінних.

  • Кластеризація — це угрупування об’єктів (спостережень, подій) на основі даних (властивостей), що описують суть цих об’єктів. Об’єкти усередині кластера повинні бути «схожими» один на одного і відрізнятися від об’єктів, що ввійшли в інші кластери. Чим більше схожі об’єкти усередині кластера і чим більше відмінностей між кластерами, тим точніше кластеризація.

  • Асоціація — виявлення закономірностей між пов’язаними подіями. Прикладом такої закономірності служить правило, яке вказує, що з події X випливає подія Y. Такі правила називаються асоціативними.

  • Послідовні шаблони — встановлення закономірностей між пов’язаними в часі подіями, тобто виявлення залежності, що якщо відбудеться подія X, то через заданий час відбудеться подія Y.

  • Аналіз відхилень — виявлення найбільш нехарактерних шаблонів.

Проблеми бізнес аналізу формулюються по-іншому, але рішення більшості з них зводиться до тієї чи іншої задачі Data Mining або до їх комбінації. Наприклад, оцінка ризиків — це вирішення завдання регресії або класифікації, сегментація ринку — кластеризація, стимулювання попиту — асоціативні правила. Фактично, завдання Data Mining є елементами, з яких можна зібрати рішення переважної більшості реальних бізнес завдань.

Для вирішення вищеописаних задач використовуються різні методи і алгоритми Data Mining. З огляду на те, що Data Mining розвивався і розвивається на стику таких дисциплін, як статистика, теорія інформації, машинне навчання, теорія баз даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних методів з цих дисциплін. Наприклад, процедура кластеризації k-means була просто запозичена з статистики. Велику популярність отримали такі методи Data Mining як нейронні мережі, дерева рішень, алгоритми кластеризації, в тому числі і масштабовані, алгоритми виявлення асоціативних зв’язків між подіями тощо [44].

Пошук в мережевому середовищі може стати більш ефективним за рахунок технологій глибинного аналізу текстів (Text Mining), знаходження в текстах аномалій і трендів. Розроблені на основі статистичного і лінгвістичного аналізу, а також методів штучного інтелекту, технології Text Mining призначені для проведення смислового аналізу. Завдання — вибирати з текстів найбільш ключову і значущу інформацію для користувачів [35,50]. Важлива компонента технологій Text Mining пов’язана з витягом з тексту характерних елементів або ознак, які можуть використовуватися в якості ключових слів, метаданих, анотацій. Ще одне завдання Text Mining — віднесення документів до деяких категорій із заданої схеми їх систематизації. Крім того, Text Mining — це новий вид пошуку, який на відміну традиційних підходів не тільки знаходить списки документів, формально релевантні запитам, але і допомагає в розумінні змісту текстів. Таким чином, користувачеві не потрібно буде самому «просіювати» величезну кількість неструктурованої інформації. Text Mining — це алгоритмічне виявлення раніше невідомих зв’язків у вже наявних даних. Застосовуючи Text Mining, користувачі можуть отримувати нову цінну інформацію — знання.

Слід зауважити, що технології глибинного аналізу тексту історично передувала технологія видобутку даних (Data Mining), методологія та підходи якої широко використовуються і в методах Text Mining.

Сформувавшись в середині 90-х років ХХ століття як напрямок аналізу неструктурованих текстів, технології Text Mining відразу ж взяла на озброєння методи Data Mining, такі як класифікація або кластеризація. В Text Mining з’явилися і додаткові можливості, такі як автоматичне реферування текстів і виявлення феноменів — понять і фактів. Можливості сучасних систем Text Mining можуть застосовуватися при управлінні знаннями для виявлення шаблонів в текстах, для автоматичного «проштовхування» або розподілу інформації з потрібних користувачам профілів, створення оглядів.

Одне з джерел концепції Text Mining — контент-аналіз. Поняття контент-аналізу, коріння якого йдуть у психологію і соціологію, не має однозначного визначення:

    • Контент-аналіз — це методика об’єктивно якісного та систематичного вивчення змісту засобів комунікації.

    • Контент-аналіз — це систематична числова обробка, оцінка та інтерпретація форми та змісту інформаційного джерела.

    • Контент-аналіз — це якісно-кількісний метод вивчення документів, який характеризується об’єктивністю висновків і строгістю процедури й полягає в квантифікованій обробці тексту з подальшою інтерпретацією результатів.

    • Контент-аналіз полягає в знаходженні в тексті певних змістовних понять (одиниць аналізу), виявленні частоти їх появи і співвідношення з вмістом всього документа.

Більшість з наведених визначень конструктивні, але через різні початкові посилання вони породжують різні, іноді суперечливі алгоритми.

Прийнято розділяти методології контент-аналізу на дві області: якісну і кількісну. Основа кількісного контент-аналізу — частота появи в документах певних характеристик змісту (понять, феноменів). Якісний контент-аналіз грунтується на самому факті присутності або відсутності в тексті однієї або кількох характеристик змісту.

Відповідно до вже сформованої методології, до основних елементів Text Mining відносяться: класифікація, кластеризація, вилучення фактів, понять, реферування, відповідь на запити, тематичне індексування і пошук за ключовими словами.

При класифікації текстів використовуються статистичні кореляції для розміщення документів в певні категорії. Завдання класифікації — це класична задача розпізнавання, де за деякою контрольною вибіркою система відносить новий об’єкт до тієї чи іншої категорії. Особливість класифікації в рамках концепції Text Mining полягає в тому, що кількість об’єктів і їх атрибутів може бути дуже великою, тому повинні бути передбачені механізми оптимізації цього процесу.

На відміну від класифікації, при кластеризації заздалегідь не фіксуються певні категорії. Результатом кластеризації є автоматичне групування інформації, в результаті якої створюються класифікаційні схеми, що забезпечують ефективне охоплення великих обсягів даних. Кластеризація в Text Mining розглядається як процес виділення компактних підгруп об’єктів з близькими властивостями. При кластеризації система повинна самостійно знайти ознаки і розділити об’єкти по групах. Кластеризація, як правило, передує класифікації, оскільки дозволяє визначати групи об’єктів.

Text Mining передбачає також побудову семантичних мереж, аналіз зв’язків, які визначаються появою дескрипторів (наприклад, ключових слів) в текстах.

Крім того, існує ще кілька завдань технології Text Mining, наприклад, прогнозування, яке полягає в тому, щоб передбачити за значеннями одних ознак тексту значення інших. Ще одне завдання — знаходження винятків, тобто пошук документів, які своїми характеристиками виділяються із загальної маси [33]. Для цього спочатку з’ясовуються середні параметри документів, а потім досліджуються ті документи, параметри яких найбільш сильно відрізняються від середніх значень. Зазвичай пошук винятків найчастіше проводиться після класифікації або кластеризації для того щоб з’ясувати, наскільки останні були точні.

Окремо від завдання кластеризації стоїть завдання пошуку пов’язаних ознак (ключових слів, понять) окремих документів. Від прогнозу ця задача відрізняється тим, що заздалегідь невідомо, за якими саме ознаками реалізується взаємозв’язок — мета саме в тому і полягає, щоб знайти зв’язки ознак. Це завдання схоже з кластеризацією, але не по безлічі документів, а по безлічі ознак.

Витяг понять з тексту є технологією, що забезпечує отримання інформації в структурованому вигляді. В якості структур можуть запитуватися як відносно прості поняття (ключові слова, персони, організації, географічні назви), так і більш складні, наприклад, ім’я персони, її посада в конкретній організації і т.п.

Дана технологія включає три основні методи:

  • Entity Extraction — вилучення слів або словосполучень, важливих для опису змісту тексту. Це можуть бути списки термінів предметної області, персон, організацій, географічних назв, та ін;

  • Feature Association Extraction — простежування зв’язків між витягнутими поняттями;

  • Event and Fact Extraction — витяг сутностей, розпізнавання фактів і подій.

Технологія витягу понять заснована на застосуванні спеціальних семантико-лінгвістичних методів, які дають можливість отримувати прийнятну точність і повноту.

Слід зазначити, що підходи до вилучення різних типів понять із текстів істотно відрізняються як по контексту їх подання, так і за структурними ознаками. Так, для виявлення приналежності документа до тематичної рубрики можуть використовуватися спеціальним чином складені запити на інформаційно-пошукових мовах, що включають логічні і контекстні оператори, дужки і т.д. Виявлення географічних назв передбачає використання таблиць, в яких крім шаблонів написання цих назв використовуються коди та назви країн, регіонів і окремих населених пунктів.

Виявлені поняття можуть служити основою для побудови багатопрофільних інформаційних портретів або інтерактивних ситуаційних карт (мереж, вузлами якої є поняття, а ребрами — інформаційні зв’язки між ними), що відповідають запитам користувачів. Безпосередньо за даними, представленими на ситуаційній карті, що відбиває найбільш актуальні поняття (терміни, тематичні рубрики, географічні назви, прізвища персон, назви компаній) можливе виявлення взаємозв’язків, тобто самі ситуаційні карти можуть служити вихідними даними для побудови мереж взаємозв’язків понять.

Оскільки веб-джерела, як правило, не є текстовими даними, то і підходи до процесу отримання даних відрізняються в цьому випадку. У першу чергу необхідно пам’ятати, що інформація в інтернеті зберігається у вигляді спеціальної мови розмітки HTML, веб-сторінки можуть мати додаткову метаінформацію, а також інформацію про структуру (семантику) документа, кожен веб-документ знаходиться всередині деякого домену і до нього можуть застосовуватися правила пошукової оптимізації. Тож для цього використовується технологія Web Mining, яка з’явилася не так давно.

Web Mining — застосування методів і алгоритмів Data Mining для виявлення і пошуку залежностей і знань у мережі Інтернет [27].

Всі сайти мережі Інтернет зберігаються на веб-серверах. Щоб отримати сторінку сайту, браузер посилає запити на веб-сервер. У відповідь на них повертаються файли, необхідні для формування інтернет-сторінки у вікні браузера.

Завантаживши сторінку, користувач переглядає наявну на ній інформацію. Після чого він може перейти на іншу відповідно до структури сайту, зв’язку в якій встановлюються за допомогою гіперпосилань. Для зручності навігації сторінки можуть бути об’єднані в категорії, а вони в свою чергу в розділи.

Всередині категорій між сторінками може бути різноманітна структура (ієрархічна, послідовна, мережна). На більшості сайтів передбачений швидкий перехід з будь-якої сторінки на головну. Залежно від обраної структури користувач переміщується з однієї сторінки на іншу. На рис. 2 зображено фрагмент структури сайту, де сторінки пронумеровані згідно з порядком їх перегляду.

Рис. 2. Шлях користувача на сайті

Можна помітити, що між п’ятою та шостою сторінками прямого посилання немає, але виходячи зі структури абсолютно очевидно, що після п’ятої сторінки користувач повернувся до першої.

Виходячи з перерахованих особливостей розміщення інформації в мережі Інтернет виникають різні складнощі аналізу веб-даних.

Всесвітня мережа зараз містить величезну кількість інформації, знань. Користувачі на різних умовах можуть переглядати різноманітні документи, аудіо-і відеофайли. Однак це різноманіття даних приховує в собі проблеми, які можуть виникнути не тільки при аналізі, але і при пошуку необхідної інформації в Інтернет.

Проблема пошуку потрібної інформації пов’язана з тим, що користувач не завжди відразу може знайти необхідні йому електронні ресурси. Лише невеликий відсоток посилань серед запропонованих пошуковими системами приводить до необхідних документів. Також важко шукати неіндексовану інформацію такими засобами.

Проблема виявлення нових знань. Навіть якщо знайдено безліч інформації, для користувача витяг корисних знань є досить трудомістким і непростим завданням. Сюди ж можна і віднести складності, пов’язані з осмисленням відомостей, поняттям тих ідей, які були вкладені авторами.

Проблема вивчення споживачів пов’язана з наданням користувачеві інформації, яка була б йому цікава. Це особливо актуально для електронних торговельних порталів, які могли би «підказувати» користувачеві при виборі товару.

У Web Mining можна виділити наступні етапи:

  • вхідний етап — одержання «сирих» даних із джерел (логи серверів, тексти електронних документів);

  • етап перед обробки — дані представляються у формі, необхідної для успішної побудови тієї чи іншої моделі;

  • етап моделювання;

  • етап аналізу моделі — інтерпретація отриманих результатів.

Це загальні кроки, які необхідно пройти для аналізу даних мережі Інтернет. Конкретні процедури кожного етапу залежать від поставленого завдання. У зв’язку з цим виділяють різні категорії Web Mining, до яких Web Mining належать: аналіз використання веб-ресурсів, витяг веб-структур та витяг веб-контенту [1].

Аналіз використання веб-ресурсів грунтується на витягу даних з логів веб-серверів. Метою аналізу є виявлення переваг відвідувачів при використанні тих чи інших ресурсів мережі Інтернет.

Тут вкрай важливо здійснити ретельне передопрацювання даних: видалити зайві записи лога, які не цікаві для аналізу.

Витяг веб-структур розглядає взаємозв’язок між веб-сторінками, грунтуючись на зв’язках між ними. Побудовані моделі можуть бути використані для категоризації веб-ресурсів, пошуку схожих і розпізнавання авторських сайтів.

В залежності від поставленої задачі структура сайту моделюється з певним рівнем деталізації. У найростішому випадку гіперпосилання представляють у вигляді спрямованого графа:

G = (D, L), де D — це набір сторінок, вузлів або документів; L — набір посилань.

Витяг веб-структур може бути використано як підготовчий етап для вилучення веб-контенту.

Витяг веб-контенту вирішує непросте і трудомістке завдання пошуку знань в мережі Інтернет. Воно засноване на поєднанні можливостей інформаційного пошуку, машинного навчання і Data Mining.

Аналізується зміст документів: перебувають схожі за змістом слова та їх кількість. Потім вирішується завдання кластеризації або класифікації. Так документи групуються за смисловою близькістю.

Цей напрямок може бути використано для оптимізації пошуку індексованих документів [4].

Загальний взаємозв’язок між категоріями Web Mining і завданнями Data Mining зображена на рис. 3.