
- •12 Лекция Задача кластеризации в Data Mining
- •Формальная постановка задачи.
- •Решения задач кластеризации и иерархические алгоритмы
- •13 Лекция
- •Неархаические алгоритмы
- •Рассмотрим пример неархаического алгоритма на основе k-means. Общее представления алгоритма k-means
- •14 Лекция
- •Визуальный анализ данных
- •15 Лекция Основные задачи Text Mining
- •Задача классификации текстовых документов
15 Лекция Основные задачи Text Mining
В отличии от Data manning Text Manning формулируется следующим образом: обнаружение знаний в тексте это нетривиальный процесс обнаружение действительно новых потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.
Под терминов неструктурированные текстовые данные понимается логически объеденный текст без ограничений на его структуру. В общем случаи такой текст может включать в себя практически любою информацию (собственно текст, графическая информация, табличная информация, мультимедиа информация, файлы и т.д.). Определенным исключением являются тексты создаваемые на формальных языках (исходные тексты программ) или на языках типа XML, SGML(полу структурированные тексты), в общем случаи Text Mining можно представить как последовательность таких этапов:
— поиск информации. Идентификация анализируемых документов, обеспечение доступности анализированных документов, определения вариантов отборов документов по заданными критериями;
— предварительная обработка документов. Простейшее преобразование обрабатываемых документов для проведения их к виду пригодных для методов Text Mining (удаление лишних слов и формализация текста).
— извлечения информации. Выделение ключевых понятий, подготовка ключевых понятий к обработки методами Text Mining
применение методов Text Mining (поиск шаблонов и отношений);
Интерпретация результатов (преобразование текстов на естественном языке или в визуальные образы определенный структуры и содержание).
По аналогии с Data Mining успех проведения Text Mining во многом зависит о предварительной обработки текста, чаше всего используется такие приемы:
— удаление стоп-слов(это слова которые являются вспомогательными и практически не несут информацию о содержание документа);
— морфологический поиск или стэмминг (приводит каждое слово к нормальной форме, стэмминг исключает род, число, падежи и т.д.). Алгоритмы стэмминга изменяются от зависимости от языка;
— N-граммы. Разделение строк текста на части состоящие из n-символов;
— приведение регистра (преобразования всех строк к верхнему или нижнему регистру);
Типовые задачи Text Mining:
— задачи классификации. Это задача определяет для каждого документа одну или несколько заданных категорий или рубрик которым этим документ относиться. Особенностью данной задачи является априорное предложение о том что множество классифицируемых документов обязательно должно относиться хотя бы к одной рубрики. Частным случаем данной задаче является задача определения тематики документа;
— кластеризация документов. Данная задача заключается в автоматическом выделение групп семантических похожих документов среди исходного фиксированного множества. Такие группы формируются только на основе попарного схожести описаний документов;
— автоматическое аннотирование(Summarization). Данная задача позволяет сократить текст сохранив его смысл, результатом ее решений включают в себя наиболее значимые предложения текста количество которых определяется аналитиком;
— извлечение ключевых понятий (feature extraction). Результатов решения данной задаче является идентификации отдельных фактов и отношений между ними;
— навигация по тексту. Результатом решения данной задаче является схема возможных перемещений по множеству документов относительно тем и отдельных терминов;
— анализ трендов. Данная задача направленна на выявление существующих изменений в наборах документов за изучаемый временной период;
— поиск ассоциации в текстах. Результатом решения данной задаче является идентификации ассоциативных отношений между ключевыми понятиями текста;
Задачи Text Mining:
Извлечение ключевых понятий. Данная задача может решать, как самостоятельно так и часть других задач Data Mining. В первом случаи результаты решения образуют различные структуры которые можно хранить и обрабатывать в БД. В другом случаи данные являются исходными данными для данной задаче. Данная задача может решаться множественным способом однако наиболее часто используются следующие способы :
— применения разновидности Apriori
— использование априорно заданных шаблонов. Данный способ предполагает выполнение следующий стадий и этапов
стадия локального анализа состоящий из этапов;
а. лексический анализ;
б. извлечения имен собственных;
в. синтаксический анализ;
г. сопоставление с образом (в качестве образов могут выступать информационные сущности и события);
2) стадия интеграций и вывода новых понятий;
а. анализ ссылок в экземпляре документа;
б. вывод новых понятий ( в основном путем следствий из ранний выявленных понятий);
Преимуществом алгоритмом Apriori:
— сравнительная простота реализации;
— понятность результатов непрофессиональному пользователю
Недостатки алгоритмов априори
— неприспособленность к изменению терминов предметной области;
— непримиримость сформированной выборке ключевых слов к другой выборки;
— вероятность характерный алгоритм допускает вероятность ошибки;
Преимущества использование шаблонов:
— возможность преобразование документов в совокупность фактов которые в последствии можно преобразовать во фрагменты базы или хранилища
данных, в качестве таких фактов обычно выделяют отношения в виде картежей события происходящие с экземплярами отношений и связи между отношениями и отдельными отношениями.
— модель формализации исходного текста не зависит от конкретной СУБД;
Недостатки использование шаблонов:
— данные шаблоны практически не возможно преобразовать естественный текст;
— невозможность прогнозирование конкретных шаблонов для конкретный предметной области;