- •Лекции по курсу «Системы обработки экономической информации»
- •Тема 1. Общее представление о Data Mining
- •1. Что такое Data Mining
- •2. Области использования Data Mining
- •3. Типы закономерностей
- •Классы систем Data Mining
- •Тема «Документальные (полнотекстовые) системы данных и знаний»
- •1. Назначение и основные понятия
- •Общая функциональная структура дипс
- •3. Формальное представление смыслового содержания текста
- •Тема «Обработка и поиск текстовой информации»
- •Обработка входящей текстовой информации
- •Поиск текстовой информации
- •Эффективность дипс
- •1. Обработка входящей текстовой информации
- •2. Поиск текстовой информации
- •Оценка качества дипс
- •Тема «знания и их представление»
- •Понятие о знании
- •Логические модели
- •3. Продукционные модели
- •4. Фреймовая модель представления знаний
- •5.Семантические сети
- •Тема «Особенности обработки информации у человека»
- •1. Основные понятия
- •2. Конструкт как единица мыслительной деятельности
- •3. Понятие как единица мыслительной деятельности
- •4. Мысленные модели
- •5. Когнитивные модели.
- •6. Объектно-схемные или качественные модели.
- •7. Синтез моделей с различными уровнями семантики и формализации
- •Тема «Нейросети»
- •Назначение и основные понятия
- •Одиночный нейрон
- •Простые нейросети
- •Назначение и основные понятия
- •2. Структура нейросетей
- •Тема «Нейросети»
- •1. Методы обучения нейронных сетей
- •2. Модель нейронной сети с обратным распространением ошибки
- •1. Методы обучения нейронных сетей
- •Применение нейросетей
- •1) Общая характеристика нейросетевых технологий
- •2 Классы решаемых задач
- •3) Области использования нейросетей
- •Общая характеристика нейросетевых технологий
- •2. Классы решаемых задач
- •3. Области использования нейросетей
- •Тема «Генетические алгоритмы»
- •Классы задач оптимизации
- •Методы решения оптимизационных задач
- •Эволюционные вычисления
- •Основы теории генетических алгоритмов
- •Решение задач с помощью генетических алгоритмов
- •Генетические алгоритмы и нейросети
- •Тема «Метод группового учета аргументов»
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Вопросы к 1 модулю «Системы обработки экономической информации»
- •1. Что такое Data Mining
- •Области использования Data Mining
- •Классы систем Data Mining
2. Поиск текстовой информации
Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:
представление документов и запросов;
критерии смыслового соответствия;
методы ранжирования результатов запроса;
механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.
Существует большое количество методов поиска, наиболее известны следующие:
метод булевой модели. При этом, если слово хотя бы раз входит в исходный текст, оно получает значение единица (истина), если ни разу – нуль (ложь). При поиске возможно использовать любые логические комбинации, включая операторы «и» и «или». Эффективность этого метода невысока, поскольку не отличаются документы с однократным и многократным вхождением слова;
метод весовых коэффициентов. Подобен методу булевой модели, однако численные значения коэффициентов пропорциональны количеству вхождений данного слова в документ. Аналогичный принцип используется и при поиске информации в Интернет;
третий метод – использование нечеткой логики для поиска в случае большого набора элементов (например, если при поиске в документе найдено 9 слов из требуемых 10). Пограничные ситуации даются на решение пользователю. На практике не дает заметных преимуществ по сравнению с предыдущим методом;
нейросетевые методы.
Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.
Существуют два основных подхода к использованию такой обратной связи:
модификация запроса и
модификация представления документов.
Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.
Оценка качества дипс
Как уже отмечалось, поисковый образ документа содержит лишь основное, сокращенное смысловое содержание документа. Некоторые черты реального исходного документа в поисковом образе отсутствуют. Это приводит к тому, что информационный поиск, основанный на сопоставлении поискового предписания и поискового образа документа, не в состоянии обеспечить отыскание всех документов, отвечающих информационному запросу, т.е., часть документов, отвечающих запросу (релевантных ему) остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е., не являются релевантными. Таким образом, практически любой реальной ДИПС присущи два вида ошибок:
ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;
ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.
Введем следующие обозначения:
а – количество выданных релевантных документов,
b – количество выданных нерелевантных документов,
с – не выданных релевантных документов,
d – количество не выданных нерелевантных документов.
Эти обозначения позволяют выразить основные показатели эффективности ДИПС:
коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:
p = a/(a + c)
коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:
n = a/(a + b)
