Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский национальный университет радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

КТ2.docx

Скачиваний:

Добавлен:

14.12.2019

Размер:

135.9 Кб

Скачать

☆

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

15 Лекция Основные задачи Text Mining

В отличии от Data manning Text Manning формулируется следующим образом: обнаружение знаний в тексте это нетривиальный процесс обнаружение действительно новых потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Под терминов неструктурированные текстовые данные понимается логически объеденный текст без ограничений на его структуру. В общем случаи такой текст может включать в себя практически любою информацию (собственно текст, графическая информация, табличная информация, мультимедиа информация, файлы и т.д.). Определенным исключением являются тексты создаваемые на формальных языках (исходные тексты программ) или на языках типа XML, SGML(полу структурированные тексты), в общем случаи Text Mining можно представить как последовательность таких этапов:

— поиск информации. Идентификация анализируемых документов, обеспечение доступности анализированных документов, определения вариантов отборов документов по заданными критериями;

— предварительная обработка документов. Простейшее преобразование обрабатываемых документов для проведения их к виду пригодных для методов Text Mining (удаление лишних слов и формализация текста).

— извлечения информации. Выделение ключевых понятий, подготовка ключевых понятий к обработки методами Text Mining

применение методов Text Mining (поиск шаблонов и отношений);
Интерпретация результатов (преобразование текстов на естественном языке или в визуальные образы определенный структуры и содержание).

По аналогии с Data Mining успех проведения Text Mining во многом зависит о предварительной обработки текста, чаше всего используется такие приемы:

— удаление стоп-слов(это слова которые являются вспомогательными и практически не несут информацию о содержание документа);

— морфологический поиск или стэмминг (приводит каждое слово к нормальной форме, стэмминг исключает род, число, падежи и т.д.). Алгоритмы стэмминга изменяются от зависимости от языка;

— N-граммы. Разделение строк текста на части состоящие из n-символов;

— приведение регистра (преобразования всех строк к верхнему или нижнему регистру);

Типовые задачи Text Mining:

— задачи классификации. Это задача определяет для каждого документа одну или несколько заданных категорий или рубрик которым этим документ относиться. Особенностью данной задачи является априорное предложение о том что множество классифицируемых документов обязательно должно относиться хотя бы к одной рубрики. Частным случаем данной задаче является задача определения тематики документа;

— кластеризация документов. Данная задача заключается в автоматическом выделение групп семантических похожих документов среди исходного фиксированного множества. Такие группы формируются только на основе попарного схожести описаний документов;

— автоматическое аннотирование(Summarization). Данная задача позволяет сократить текст сохранив его смысл, результатом ее решений включают в себя наиболее значимые предложения текста количество которых определяется аналитиком;

— извлечение ключевых понятий (feature extraction). Результатов решения данной задаче является идентификации отдельных фактов и отношений между ними;

— навигация по тексту. Результатом решения данной задаче является схема возможных перемещений по множеству документов относительно тем и отдельных терминов;

— анализ трендов. Данная задача направленна на выявление существующих изменений в наборах документов за изучаемый временной период;

— поиск ассоциации в текстах. Результатом решения данной задаче является идентификации ассоциативных отношений между ключевыми понятиями текста;

Задачи Text Mining:

Извлечение ключевых понятий. Данная задача может решать, как самостоятельно так и часть других задач Data Mining. В первом случаи результаты решения образуют различные структуры которые можно хранить и обрабатывать в БД. В другом случаи данные являются исходными данными для данной задаче. Данная задача может решаться множественным способом однако наиболее часто используются следующие способы :
— применения разновидности Apriori
— использование априорно заданных шаблонов. Данный способ предполагает выполнение следующий стадий и этапов

стадия локального анализа состоящий из этапов;

а. лексический анализ;

б. извлечения имен собственных;

в. синтаксический анализ;

г. сопоставление с образом (в качестве образов могут выступать информационные сущности и события);

2) стадия интеграций и вывода новых понятий;

а. анализ ссылок в экземпляре документа;

б. вывод новых понятий ( в основном путем следствий из ранний выявленных понятий);

Преимуществом алгоритмом Apriori:

— сравнительная простота реализации;

— понятность результатов непрофессиональному пользователю

Недостатки алгоритмов априори

— неприспособленность к изменению терминов предметной области;

— непримиримость сформированной выборке ключевых слов к другой выборки;

— вероятность характерный алгоритм допускает вероятность ошибки;

Преимущества использование шаблонов:

— возможность преобразование документов в совокупность фактов которые в последствии можно преобразовать во фрагменты базы или хранилища

данных, в качестве таких фактов обычно выделяют отношения в виде картежей события происходящие с экземплярами отношений и связи между отношениями и отдельными отношениями.

— модель формализации исходного текста не зависит от конкретной СУБД;

Недостатки использование шаблонов:

— данные шаблоны практически не возможно преобразовать естественный текст;

— невозможность прогнозирование конкретных шаблонов для конкретный предметной области;

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.05.2015135.68 Кб22КР ЗЯОБП.doc
#
19.08.2019974.34 Кб6кр1_шпора.doc
#
13.04.201598.82 Кб12КРЗ_Психология.doc
#
24.09.201986.9 Кб1Кримінально-виконавчий кодекс України Стаття 86...docx
#
14.04.201510.64 Mб31КС_ЛК.djvu
#
14.12.2019135.9 Кб0КТ2.docx
#
12.09.2019196.61 Кб3культура киевкой руси.doc
#
12.09.2019230.91 Кб3Культура незалежної України.doc
#
23.11.20191.93 Mб1курс_БСД.doc
#
18.08.20192.96 Mб10курсавой.doc 11.doc
#
13.04.2015569.07 Кб29Курсач Ивана.docx