
- •Історична довідка
- •Text Mining в системі управління знаннями
- •Класична схема обробки текстів передбачає кілька послідовних етапів:
- •Технологія аналізу тексту
- •Структурування тексту
- •Очищення і розбір тексту
- •Опис проблеми
- •Варіант вирішення завдання
- •Результати
- •Text Mining для аналізу неструктурованих даних
- •Застосування пошукових систем
- •Автоматизація добування інформації
- •Автоматизація аналітичних процедур
- •Основні технології Text Mining
- •1. Information Extraction (витяг інформації):
- •Пакети рішень Text Miming
- •Медіалогія http://www.Mlg.Ru
- •Ерам-Рішення http://www.Clarabridge.Ru
- •Інструментарій PolyAnalyst ™ пропонує клієнтам наступний функціонал:
- •Особливості системи PolyAnalyst ™:
- •Висновки
Варіант вирішення завдання
Для вирішення даної задачі використовується спеціалізована база знань, в яку імпортуються стандартизовані матеріали. У базі знань накопичуються відомості про предметних областях, правила очищення та розбору текстів. Працює це таким чином.
Перед початком розбору користувач формує шаблон розбору для конкретної предметної області, на основі якого в подальшому і проводиться аналіз текстів. Наприклад:
Предметна область |
Периферійні пристрої ПК |
Шаблон разбору |
Тип пристрою |
Торгова марка |
|
Виробник |
|
ГОСТ |
|
Інтерфейс |
|
Сумісність |
|
Сертифікати |
|
Колір |
Після підготовки такого шаблону і починається, власне, робота з розбору тексту.
Перші тексти користувач розбирає самостійно, тобто вказує, що "клавіатура" - це тип пристрою, "сірий" - це колір. При цьому він фактично навчає програму, як треба розбирати дані. У міру того, як програмі показують все більше прикладів, вона накопичує все більше знань і починає вгадувати все більше варіантів розбору.
Сильною стороною таких систем використання самонавчальних алгоритмів, що дозволяють відразу навчатися правилам розбору, з врахуванням особливостей конкретної предметної області. Завдяки такому підходу система, спочатку не маючи жодних закладених алгоритмів розбору, по мірі роботи навчається і починає допомагати користувачу, пропонуючи правильні варіанти розбору. В системі використовуються оригінальні ефективні алгоритми, що дозволяють коректно аналізувати текст з помилками, пропущеними та / або зайвими словами і різними варіантами розташування слів.
Якщо користувач починає працювати з предметною областю, яка є відмінною від попередньої, але досить близькою до неї, система в змозі використати раніше знайдені правила розбору, тобто якщо після опису клавіатур перейти до розбору відомостей про монітори, система буде в змозі використати "досвід", накопичений при аналізі клавіатур.
Результати
Системи на практиці демонструють добрі результати розбору, причому незалежно від мови. Після початку роботи з розбору тексту по якої предметної області, обробивши буквально кілька десятків текстів, програма починає "вгадувати", як правильно потрібно розбирати і по мірі накопичення знань збільшує точність розбору, досить швидко доходячи до рівня 80-90% вірно оброблених текстів .
В результаті використання таких систем маємо значні переваги, по-перше, значно (у рази) збільшити швидкість обробки текстів, по-друге, підвищити якість завдяки тому, що одні й ті ж терміни завжди розбираються ідентично. При ручній обробці періодично виникають різночитання. По-третє, після "навчання системи" використовувати менш кваліфіковані кадри для обробки значної частини текстів, тобто підвищити ефективної роботи.
Перспективною сферою в подібних системах є підтримка процесу перекладу. Система автоматично створює і поповнює словники, тому маючи переклади слів, можливий автоматичний переклад вже стандартизованого тексту та генерація на їх основі багатомовних прайс-листів, буклетів, описів тощо.