- •Лекции по курсу «Системы обработки экономической информации»
- •Тема 1. Общее представление о Data Mining
- •1. Что такое Data Mining
- •2. Области использования Data Mining
- •3. Типы закономерностей
- •Классы систем Data Mining
- •Тема «Документальные (полнотекстовые) системы данных и знаний»
- •1. Назначение и основные понятия
- •Общая функциональная структура дипс
- •3. Формальное представление смыслового содержания текста
- •Тема «Обработка и поиск текстовой информации»
- •Обработка входящей текстовой информации
- •Поиск текстовой информации
- •Эффективность дипс
- •1. Обработка входящей текстовой информации
- •2. Поиск текстовой информации
- •Оценка качества дипс
- •Тема «знания и их представление»
- •Понятие о знании
- •Логические модели
- •3. Продукционные модели
- •4. Фреймовая модель представления знаний
- •5.Семантические сети
- •Тема «Особенности обработки информации у человека»
- •1. Основные понятия
- •2. Конструкт как единица мыслительной деятельности
- •3. Понятие как единица мыслительной деятельности
- •4. Мысленные модели
- •5. Когнитивные модели.
- •6. Объектно-схемные или качественные модели.
- •7. Синтез моделей с различными уровнями семантики и формализации
- •Тема «Нейросети»
- •Назначение и основные понятия
- •Одиночный нейрон
- •Простые нейросети
- •Назначение и основные понятия
- •2. Структура нейросетей
- •Тема «Нейросети»
- •1. Методы обучения нейронных сетей
- •2. Модель нейронной сети с обратным распространением ошибки
- •1. Методы обучения нейронных сетей
- •Применение нейросетей
- •1) Общая характеристика нейросетевых технологий
- •2 Классы решаемых задач
- •3) Области использования нейросетей
- •Общая характеристика нейросетевых технологий
- •2. Классы решаемых задач
- •3. Области использования нейросетей
- •Тема «Генетические алгоритмы»
- •Классы задач оптимизации
- •Методы решения оптимизационных задач
- •Эволюционные вычисления
- •Основы теории генетических алгоритмов
- •Решение задач с помощью генетических алгоритмов
- •Генетические алгоритмы и нейросети
- •Тема «Метод группового учета аргументов»
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Вопросы к 1 модулю «Системы обработки экономической информации»
- •1. Что такое Data Mining
- •Области использования Data Mining
- •Классы систем Data Mining
Общая функциональная структура дипс
В состав типичной ДИПС входят, как правило, четыре основных подсистемы:
Подсистема ввода и регистрации;
Подсистема обработки;
Подсистема хранения;
Подсистема поиска.
Подсистема ввода и регистрации решает следующие основные задачи:
создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;
подключение к каналам доставки электронных документов;
преобразование при необходимости формата электронного документа;
присвоение электронным документам уникальных идентификаторов (имен).
Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его поискового образа. В поисковый образ заносится информация, необходимая для последующего поиска документа.
Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.
3. Формальное представление смыслового содержания текста
Естественный язык является универсальной знаковой системой, служащей для обмена информацией между людьми. Несмотря на то, что документы создаются и хранятся на естественном языке, использование его в ДИПС практически невозможно в связи со спецификой естественного языка (в других случаях эта специфика может быть и достоинством), в частности
многообразием и неформализуемостью средств передачи смысла:((контекст, ссылки, текстуальные отношения между словами и др.);
семантическая неоднозначность, связанная с наличием синонимов и различной трактовки одних и техм же слов;
многозначность;
эллипсность (возвраты и пропуски слов)..
Невозможность использования естественного языка в качестве основного средства представления информации в ДИПС приводит к необходимости разработки и использования искусственных языковых средств.
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности их последующего поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ принято разбивать на два основных класса:
классификационные языки;
дескрипторные языки.
Особенностью классификационных языков является то, что заранее, группой экспертов, отбираются понятия ИПЯ в виде слов ЕЯ или сочетаний слов. В этом случае построение сложных языковых конструкций заменяется выбором из набора простых и сложных понятий. Происходит своего рода классификация терминов и выражений входящего сообщения, с чем и связано название этого типа искусственных языков. Примером такого класса языков является рубрикатор (напр.УДК), состоящий из рубрик и многоуровневых вложенных подрубрик.
В дескрипторных языках заранее заданы только простые лексические единицы, но не отношения между ними. Сложные понятия естественного языка как бы описываются набором слов искусственного языка, откуда и происходит название – дескрипторные (дескрипция в переводе значит описание).
