
- •Історична довідка
- •Text Mining в системі управління знаннями
- •Класична схема обробки текстів передбачає кілька послідовних етапів:
- •Технологія аналізу тексту
- •Структурування тексту
- •Очищення і розбір тексту
- •Опис проблеми
- •Варіант вирішення завдання
- •Результати
- •Text Mining для аналізу неструктурованих даних
- •Застосування пошукових систем
- •Автоматизація добування інформації
- •Автоматизація аналітичних процедур
- •Основні технології Text Mining
- •1. Information Extraction (витяг інформації):
- •Пакети рішень Text Miming
- •Медіалогія http://www.Mlg.Ru
- •Ерам-Рішення http://www.Clarabridge.Ru
- •Інструментарій PolyAnalyst ™ пропонує клієнтам наступний функціонал:
- •Особливості системи PolyAnalyst ™:
- •Висновки
Застосування пошукових систем
Цей підхід передбачає наявність на підприємстві пошукової системи, яка використовується як основний засіб в роботі з неструктурованими текстами.
Менеджер чи аналітик вводить ключові слова, обробляє посилання, отримує документ, переглядає вміст, вибирає потрібну інформацію, завантажує її в програму аналізу або базу даних і генерує звіт. Відомо, що продуктивність такої роботи складає від 400 до 1000 статей у добу залежно від досвідченості аналітика. Людина тут зайнята в основному рутинними операціями, а тому не може багато уваги приділити дійсно інтелектуальній роботі.
Основні переваги такого підходу цілком очевидні: поширеність і загальнодоступність пошукових технологій. Це так зване one-click-рішення, коли ви набрали ключове слово, натиснули на одну кнопку і .... Додайте до цього звичку думати, що з подальшою обробкою інформації, крім людини, ніхто впоратися не може.
Оскільки інструменти пошуку розвиваються вже давно і досягли високої стадії зрілості, вони цілком успішно відповідають на запитання, де знаходиться інформація. Їх можна порівняти з компасом, який дозволяє орієнтуватися в світі неструктурованих даних. Користувачі вже встигли настільки звикнути до пошуковиків, що немає необхідності проводити якесь спеціальне навчання.
Однак якщо мова йде про обробку великих масивів даних, застосування одних лише пошукових систем стає малоефективним, оскільки вимагає значних людських ресурсів на етапах "видобутку" фактів та їх аналізу.
Автоматизація добування інформації
Цей підхід передбачає наявність технологічно "просунутого" інструменту, здатного виділяти з тексту потрібні елементи (Text Mining). Його робота полягає в тому, що на вхід подається текст, написаний на природній мові, а на виході користувач отримує запитану інформацію в структурованому вигляді. Структури можуть являти собою як прості сутності (персони, організації, географічні назви), так і складні (факти, що містять якась подія, його учасників, дату, фінансові параметри та ін.) Події бувають самі різні: події, операції, суди і т. п. Зазначений інструмент дозволяє автоматично збирати результати своєї роботи в колекції даних, які вже придатні для проведення аналізу.
Аналізувати подібні набори даних, безумовно, простіше і швидше, ніж результати роботи пошуковика. Однак і тут потрібні зусилля по інтеграції засобів Text Mining з джерелами документів, пошуковиком і аналітичними інструментами. Сьогодні постачальники інструментів Text Mining постачають свої продукти можливостями інтеграції з джерелами документів (в основному з Web-ресурсами) і з базами даних через файли у форматі XML.
Основною проблемою використання цих технологій є складність налаштування і підтримки таких інструментів. Це обумовлено специфікою комп'ютерної лінгвістики, що оперує термінами синтаксису, і семантики. Як правило, кінцеві користувачі та розробники далекі від цих матерій, а в підсумку можливості таких інструментів використовуються лише на 5-10%.
Тим не менш користувач вже позбавлений від необхідності вручну переглядати тисячі документів і підбирати ключові слова. За нього це робить система. З'являються додаткові можливості автоматичної класифікації і порівняння подібних документів. Крім того, програма здатна сама розпізнавати смислові елементи тексту, наприклад факти, події, і передавати їх на подальшу обробку.