Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Teoria_Obrabotki_Informatsii.docx
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
60.7 Кб
Скачать

Ин формация – сведения об объектах, процессах, которые передаются по каналам связи и, которая уменьшают неопределённость о данном объекте.

Мера измерения информации – энтропия. Чем больше информации – тем меньше энтропии. Без размерная.

Отличие знания от данных.

Данные – информация фактического характера, описывающие объекты, процесс и явления предметной области, а также их свойства.

Знания – более сложная категория информации по сравнению с данными. Знания описывают не только отдельные факты, но и взаимосвязи между ними, поэтому их иногда называют структурированными данными.

По типу представления на факты и правила. Факты- это знания типа «А это Б». Такие знания характерны для БД и сетевых моделей. Правила или Продукция – это знания типа «Если А, то Б».

Инженерия знаний:

  1. Непосредственное извлечение знаний;

  2. Автоматизированное приобретение знаний;

  3. Автоматическое формирование знаний.

Для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых, приходиться практически добывать знания из «завалов информации». За этим направление прочно закрепился термин «Data Mining».

«Data Mining» - исследование и обнаружение в «машинами» и алгоритмами (средствами ИИ) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человека.

Свойства обнаруженных знаний:

  1. Знания должны быть новые, ранее неизвестные;

  2. Знания должны быть не тривиальны;

  3. Знания должны быть практически полезными;

  4. Знания должны быть доступными для понимания человеком;

7 Февраля 2013.

Классификация задач Data Mining.

Основными задачами являются:

1.Задача классификации, она сводиться к определению класса объекта по его характеристикам. В этой задачи множество классов к которым можно отнести объект известно заранее.

2. Задача регрессии. Она подобна задачи классификации позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличии от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.

3. Поиск ассоциативных правил. Его целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил, и могут быть использованы как для лучшего понимания природы анализированных данных, так и для предсказания появления событий.

4. Задача кластеризации. Заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно и облегчить анализ.

Причисленные задачи по назначению делятся на описательные и предсказательные. Описательные задачи - уделяют внимание улучшения понимания анализируемых данных. Ключевым моментом в таких моделях является легкость и прозрачность результатов для восприятия человеком. К такому виду относятся кластеризация и поиск ассоциативных правил. Решение предсказательных задачи разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строятся модели. На втором этапе она используется для предсказания результатов. На основании новых наборов данных. К данному виду задач относиться задачи классификации и регрессии.

По способам решения задачи делятся на обучение с учителем и без учителя. В случае обучения с учителем задача анализа данных решается в несколько этапов. Сначала с помощью какого-либо алгоритма строится модель анализируемых данных - классификатор. Затем классификатор подвергается обучению. Другими словами - проверяется качество его работы. И если оно не удовлетворительное происходит дополнительное обучение классификатора до требуемого уровня качества. К этому типу задач относятся задачи классификации и регрессии.

Обучение без учителя объединяет задачи выявляющие описательные модели. Достоинством таких задач является возможность их решения без каких либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация и поиск ассоциативных правил.

Задача классификации и регрессии.

При анализе часто необходимо классифицировать данные. В ДМ задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значения других параметров. Определяемый параметр часто называют зависимой переменной, а параметры участвующие в его определении - независимыми переменными. Если значения независимых и зависимых переменных являются действительные числа, то задача называется задачей регрессии.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]