
- •Історична довідка
- •Text Mining в системі управління знаннями
- •Класична схема обробки текстів передбачає кілька послідовних етапів:
- •Технологія аналізу тексту
- •Структурування тексту
- •Очищення і розбір тексту
- •Опис проблеми
- •Варіант вирішення завдання
- •Результати
- •Text Mining для аналізу неструктурованих даних
- •Застосування пошукових систем
- •Автоматизація добування інформації
- •Автоматизація аналітичних процедур
- •Основні технології Text Mining
- •1. Information Extraction (витяг інформації):
- •Пакети рішень Text Miming
- •Медіалогія http://www.Mlg.Ru
- •Ерам-Рішення http://www.Clarabridge.Ru
- •Інструментарій PolyAnalyst ™ пропонує клієнтам наступний функціонал:
- •Особливості системи PolyAnalyst ™:
- •Висновки
Структурування тексту
В організаціях зазвичай накопичуються величезні обсяги даних, якими незручно користуватися через їх "нетехнологічність". Звичайно, фахівець швидше за все розбереться з будь-яким грамотно складеним описом. Але у разі машинної обробки необхідно подати відомості в зручному саме для машинної обробки вигляді, тобто в стандартизованому. Системи аналізу тексту дозволяють значно підвищити можливості автоматизованої обробки частково структурованих даних.
Аналіз тексту як правило містить етапи структурування вихідного тексту (зазвичай шляхом синтаксичного аналізу, додавання одних лінгвістичних структур і видалення інших з подальшою вставкою результатів в базу даних), пошуку закономірностей у даних, а також оцінювання та інтерпретації результатів.
Очищення і розбір тексту
Можливості машинної обробки інформації всередині організації варіюються залежно від ступеня структуризації даних. Чим вище ступінь структурованості даних, тим більше можливостей для їх автоматизованої обробки. Дані можна поділити на 3 частини:
Високо структуровані. Це такого роду дані, як рахунки, платіжні документи, звіти та інше. Для такого роду даних є чіткі формати, правила, жорстко заданий зовнішній вигляд. Зазвичай вони зберігаються в базах даних компанії.
Частково структуровані. Описи деталей і продукції, технологічна документація, відомості про співробітників та інше. Для цих даних визначено деякі правила і формати, але в самому загальному вигляді.
Неструктуровані. Це електронні листи, відомості про конкурентів, доповідні записки та інше відомості, які пишуться у вільній формі.
Очевидно, що механізми підготовки, фільтрації, аналізу і обробки, наприклад, відомостей, представлених у вигляді звітів, значно потужніші, ніж механізми обробки довільного тексту. У разі використання автоматизованих механізмів обробки, необхідно застосовувати способи підвищення рівня структурованості використовуваних даних.
Найбільш простим завданням ТМ є обробка слабкоструктурованих вузькоспеціалізованих текстових масивів (різні звіти про поламки, результати опитувань). В текстових масивах, де форма документа і набір лексики є обмеженими, нову інформацію можна витягати, аналізуючи статистику на рівні окремих ключових слів (термінів).
Для таких текстів можливе створення механізмів, що перетворюють їх до чіткого (структурованого) виду. Наприклад, є опис препарату «Інсулін ряду SPP сусп.40 ОД / 1 мл 10 мл». Необхідно дані очистити від незначущих і перекручених відомостей і виділити назву препарату, фасування, дозування і т.п. Назвемо цей процес стандартизацією. Стандартизовану інформацію значно простіше обробляти, шукати, формувати на їх основі буклети та прайс-листи, робити переклади на інші мови.
Опис проблеми
Візьмемо для прикладу опис клавіатури: "Клавіатура Defender, Windows-сумісна, роз'єм PS / 2, 124 клавіші". Такого роду описи зустрічаються практично в будь-якій сфері діяльності.
Необхідно даний текст перетворити до вигляду:
Поле |
Значення |
Тип пристрою |
Клавіатура |
Торгова марка |
Defender |
Інтерфейс |
PS/2 |
Сумісність |
Windows |
Незважаючи на те, що в різних предметних областях використовуються різні терміни і поняття, є те, що об'єднує всі такі тексти.
Це неприродна мова, тому вони пишуться не як речення, а за зовсім іншими правилами; набагато простіше.
Описи практично завжди схожі один з одним за структурою.
Найчастіше використовуються один відносно невеликий набір слів, якщо порівнювати з природною мовою.
Дуже часто зустрічаються абревіатури та скорочення.
Використовуючи цю інформацію, можна запропонувати рішення, що дозволяє автоматизувати роботу з очищення та розбору тексту.