Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
STBDiIS шпоры1.doc
Скачиваний:
13
Добавлен:
26.09.2019
Размер:
275.46 Кб
Скачать

35.Понятие Text Mining. Основные задачи.

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining

Основные задачи:

1.задача классификации- отнесение документов к нужной тематике

2.задача кластеризации- выявить семантически похожие группы данных

3.автоматитческое аннотирование- несколько фраз, наиболее полно отражающих весь текст.

4.извлечение ключевых понятий- выявить факты, взаимосвязанные с основным

5.навигация по тексту.

36. Предварительная обработка данных, основные приемы.

Основные приемы: 1.приведение текста к одному регистру.2.удаление стоп-слов.3.морфологический поиск.4.алгоритмы N-грамм.

38.Oracle Data Mining (odm). Возможности, архитектура, характеристики. Используемые алгоритмы.

Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации данных, необходимых для принятия решений в различных сферах человеческой деятельности.

ОДМ(оракле дата мининг)- набор функций. особенности дата мининг:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.

задачи

классификация

Алгоритмы

Naïve bayes, adaptive bayes network

Классификация и регрессия

Support vector machine

Поиск существенных алгоритмов

Minimal descriptor length

кластеризация

Поиск ассоциаций

Enhanced k-means o-cluster

Apriori algorithm

Выделение признаков

Non-negative matrix factorization

Прогнозирующие модели и дескрипторные(описательные).

Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.

1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)

ABN:

1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. ,т.е можно посмотреть на результат. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.

Регрессия применяется для прогнозирования непрерывных величин. Основная задача- выявление атрибутов, наиболее важных для прогнозирования целевых значений.

Enchanced k-means.

1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.

О-Claster.

1.кол-во кластеров опр. Сам.2.может работать с числовыми и с категориальными атрибутами.3.может работать с большим кол-вом атрибутов и записей.

39.Функциональные возможности odm. Алгоритм Naïve Bayes.

Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации данных, необходимых для принятия решений в различных сферах человеческой деятельности.

ОДМ(оракле дата мининг)- набор функций. особенности дата мининг:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.

Прогнозирующие модели и дескрипторные(описательные).

Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.

1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)

ABN:

1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. ,т.е можно посмотреть на результат. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.

Регрессия применяется для прогнозирования непрерывных величин. Основная задача- выявление атрибутов, наиболее важных для прогнозирования целевых значений.

Enchanced k-means.

1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.

О-Claster.

Naïve Bayes. Св-ва наивной классификации:1.использование всех переменных и определение всех зависимостей между ними.2.наличие двух предположений относительно переменной.

2 предположения:1.все переменные важные.2.все переменные являются статистически-независимыми.

Достоинства:

1.в модели определяются зависимости между всеми переменными.2.Байсовские модели достаточно просто интерпретируются.3.позволяют естественным образом совмещать закономерности, выведенные из данных.4.позволяет избежать проблемы переучивания.

Недостатки:

1.невозможна непосредственная обработка непрерывных переменных.2.на результат классификации влияют только индивидуальные значения входных переменных.3.условные вероятности перемножаются корректно, когда все входные переменные действительно статически независимы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]