Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КТ2.docx
Скачиваний:
0
Добавлен:
14.12.2019
Размер:
135.9 Кб
Скачать

15 Лекция Основные задачи Text Mining

В отличии от Data manning Text Manning формулируется следующим образом: обнаружение знаний в тексте это нетривиальный процесс обнаружение действительно новых потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Под терминов неструктурированные текстовые данные понимается логически объеденный текст без ограничений на его структуру. В общем случаи такой текст может включать в себя практически любою информацию (собственно текст, графическая информация, табличная информация, мультимедиа информация, файлы и т.д.). Определенным исключением являются тексты создаваемые на формальных языках (исходные тексты программ) или на языках типа XML, SGML(полу структурированные тексты), в общем случаи Text Mining можно представить как последовательность таких этапов:

поиск информации. Идентификация анализируемых документов, обеспечение доступности анализированных документов, определения вариантов отборов документов по заданными критериями;

предварительная обработка документов. Простейшее преобразование обрабатываемых документов для проведения их к виду пригодных для методов Text Mining (удаление лишних слов и формализация текста).

извлечения информации. Выделение ключевых понятий, подготовка ключевых понятий к обработки методами Text Mining

  • применение методов Text Mining (поиск шаблонов и отношений);

  • Интерпретация результатов (преобразование текстов на естественном языке или в визуальные образы определенный структуры и содержание).

По аналогии с Data Mining успех проведения Text Mining во многом зависит о предварительной обработки текста, чаше всего используется такие приемы:

удаление стоп-слов(это слова которые являются вспомогательными и практически не несут информацию о содержание документа);

морфологический поиск или стэмминг (приводит каждое слово к нормальной форме, стэмминг исключает род, число, падежи и т.д.). Алгоритмы стэмминга изменяются от зависимости от языка;

N-граммы. Разделение строк текста на части состоящие из n-символов;

приведение регистра (преобразования всех строк к верхнему или нижнему регистру);

Типовые задачи Text Mining:

задачи классификации. Это задача определяет для каждого документа одну или несколько заданных категорий или рубрик которым этим документ относиться. Особенностью данной задачи является априорное предложение о том что множество классифицируемых документов обязательно должно относиться хотя бы к одной рубрики. Частным случаем данной задаче является задача определения тематики документа;

кластеризация документов. Данная задача заключается в автоматическом выделение групп семантических похожих документов среди исходного фиксированного множества. Такие группы формируются только на основе попарного схожести описаний документов;

автоматическое аннотирование(Summarization). Данная задача позволяет сократить текст сохранив его смысл, результатом ее решений включают в себя наиболее значимые предложения текста количество которых определяется аналитиком;

извлечение ключевых понятий (feature extraction). Результатов решения данной задаче является идентификации отдельных фактов и отношений между ними;

навигация по тексту. Результатом решения данной задаче является схема возможных перемещений по множеству документов относительно тем и отдельных терминов;

анализ трендов. Данная задача направленна на выявление существующих изменений в наборах документов за изучаемый временной период;

поиск ассоциации в текстах. Результатом решения данной задаче является идентификации ассоциативных отношений между ключевыми понятиями текста;

Задачи Text Mining:

  • Извлечение ключевых понятий. Данная задача может решать, как самостоятельно так и часть других задач Data Mining. В первом случаи результаты решения образуют различные структуры которые можно хранить и обрабатывать в БД. В другом случаи данные являются исходными данными для данной задаче. Данная задача может решаться множественным способом однако наиболее часто используются следующие способы :

  • — применения разновидности Apriori

  • — использование априорно заданных шаблонов. Данный способ предполагает выполнение следующий стадий и этапов

  1. стадия локального анализа состоящий из этапов;

а. лексический анализ;

б. извлечения имен собственных;

в. синтаксический анализ;

г. сопоставление с образом (в качестве образов могут выступать информационные сущности и события);

2) стадия интеграций и вывода новых понятий;

а. анализ ссылок в экземпляре документа;

б. вывод новых понятий ( в основном путем следствий из ранний выявленных понятий);

Преимуществом алгоритмом Apriori:

— сравнительная простота реализации;

— понятность результатов непрофессиональному пользователю

Недостатки алгоритмов априори

— неприспособленность к изменению терминов предметной области;

— непримиримость сформированной выборке ключевых слов к другой выборки;

— вероятность характерный алгоритм допускает вероятность ошибки;

Преимущества использование шаблонов:

— возможность преобразование документов в совокупность фактов которые в последствии можно преобразовать во фрагменты базы или хранилища

данных, в качестве таких фактов обычно выделяют отношения в виде картежей события происходящие с экземплярами отношений и связи между отношениями и отдельными отношениями.

— модель формализации исходного текста не зависит от конкретной СУБД;

Недостатки использование шаблонов:

— данные шаблоны практически не возможно преобразовать естественный текст;

— невозможность прогнозирование конкретных шаблонов для конкретный предметной области;

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]