
- •Історична довідка
- •Text Mining в системі управління знаннями
- •Класична схема обробки текстів передбачає кілька послідовних етапів:
- •Технологія аналізу тексту
- •Структурування тексту
- •Очищення і розбір тексту
- •Опис проблеми
- •Варіант вирішення завдання
- •Результати
- •Text Mining для аналізу неструктурованих даних
- •Застосування пошукових систем
- •Автоматизація добування інформації
- •Автоматизація аналітичних процедур
- •Основні технології Text Mining
- •1. Information Extraction (витяг інформації):
- •Пакети рішень Text Miming
- •Медіалогія http://www.Mlg.Ru
- •Ерам-Рішення http://www.Clarabridge.Ru
- •Інструментарій PolyAnalyst ™ пропонує клієнтам наступний функціонал:
- •Особливості системи PolyAnalyst ™:
- •Висновки
Автоматизація аналітичних процедур
В найпростішому випадку в руках кінцевого користувача є такі аналітичні інструменти, як MS Excel та MS Access, в удосконаленому - Data Mining. В окремих замовних розробках реалізуються ті чи інші ноу-хау. Як би там не було, напрошується очевидне рішення: сформувати технологічний ланцюжок пошуковик - Text Mining - інструмент аналізу. Інтегрувати елементи зазначеної ланцюжка можна через базу даних. Для автоматизації процесу в ідеалі потрібен певний механізм, який запросить інформацію у пошуковика, сам просканує документи, виявить шукані факти, структурує їх, збереже в базі і повідомить про виконане завдання. Тоді аналітику достатньо відкрити звіти та проаналізувати результати.
Основні технології Text Mining
Text Mining - це набір технологій і методів, призначених для добування інформації з текстів. Основна мета - дати аналітику можливість працювати з великими обсягами вихідних даних за рахунок автоматизації процесу видобутку потрібної інформації.
1. Information Extraction (витяг інформації):
а) Feature (Entity) Extraction - видобуток слів чи груп слів, які, з точки зору користувача є важливими для опису змісту документа. Це можуть бути згадки персон, організацій, географічних місць, термінів предметної області та інших слів або словосполучень. Видобуті сутності також можуть бути найбільш значущими словосполученнями, що характеризують документ по його основній темі.
б) Feature (Entity) Association Extraction - більш складні з технологічної точки зору. Простежуються різного роду зв'язки між видобутими сутностями. Наприклад, якщо про обрані суб'єкти згадано в різних документах, і вони мають певну спільну характеристику (час, місце і т. д.), можна з великим ступенем визначеності сказати, чи є між ними якийсь зв'язок.
в) Relationship, Event and Fact Extraction - найскладніший варіант видобутку інформації (Information Extraction), що містить видобуток сутностей, розпізнавання фактів і подій, а також витягнення інформації з цих фактів. Наприклад, система може зробити висновок, що Іван Петров купив компанію "Пупкін і Ко", навіть якщо в тексті містяться лише непрямі вказівки на цю подію. Пошукова система тут є безпорадною, оскільки звичайна людська мова передбачає багато варіантів викладу. Користуючись лише пошуковиком, ми повинні були б ідентифікувати цей факт по всіх ключових слів, які його характеризують.
А технологія Text Mining робить це сама, причому у відповідності з заданими обмеженнями відрізняє факти, що відносяться до справи від тих, що з ними не пов'язані. Наприклад, якщо ми проводимо аналіз угод купівлі-продажу компаній, система здатна віднести до різних категорій факти "Мужик купив пляшку горілки" та "Іван Петров купив компанію" Пупкін і Ко "".
2. Summarization (автоматичне реферування, анотування)
Побудова короткого змісту документа за його повним текстом.
3. Categorization (категоризація, класифікація)
Віднесення документа або його частини до однієї або кількох категорій. Категорії можуть визначати "спрямованість" тексту - тематичну, жанрову, емоційну, оцінну.
4. Clusterization (кластеризація)
Об'єднання документів в групи за принципом їх схожості.
Проблеми застосування таких технологій очевидні і пов'язані з багатокомпонентністтю рішення. Потрібно інсталювати пошуковик, інструмент отримання даних з тексту, засоби аналізу, а крім того, зробити всю супутню інтеграцію. Але саме цим шляхом просуваються розробники рішень для кінцевих користувачів.
Перспективи розвитку технологій ТМ
Інструменти аналізу, зокрема Data Mining, у всьому світі стають стандартом де-факто, і все більше фахівців спирається на них як на основні засоби створення аналітичної середовища.
Технології Text Mining, що містять засоби інтеграції з джерелами інформації і аналітичними інструментами, зазвичай є комерційними (їх пропонують такі фірми, як Медіалогія (mlg.ru), Clarabridge (http://clarabridge.ru), Nstein Technologies, Attensity).
Разом з комерційними продуктами такого роду розвивається світ відкритих ресурсів (проект Pentaho.com), доступних для широкої аудиторії користувачів.
Розвиваються наукові області, на яких базується ТМ - комп'ютерна лінгвістика, методи аналізу текстів. З'явилися консультанти, в основну сферу діяльності яких входить вирішення подібних завдань. Залучення цих експертів робить проекти такого роду виключно ефективними.