- •Лекции по курсу «Системы обработки экономической информации»
- •Тема 1. Общее представление о Data Mining
- •1. Что такое Data Mining
- •2. Области использования Data Mining
- •3. Типы закономерностей
- •Классы систем Data Mining
- •Тема «Документальные (полнотекстовые) системы данных и знаний»
- •1. Назначение и основные понятия
- •Общая функциональная структура дипс
- •3. Формальное представление смыслового содержания текста
- •Тема «Обработка и поиск текстовой информации»
- •Обработка входящей текстовой информации
- •Поиск текстовой информации
- •Эффективность дипс
- •1. Обработка входящей текстовой информации
- •2. Поиск текстовой информации
- •Оценка качества дипс
- •Тема «знания и их представление»
- •Понятие о знании
- •Логические модели
- •3. Продукционные модели
- •4. Фреймовая модель представления знаний
- •5.Семантические сети
- •Тема «Особенности обработки информации у человека»
- •1. Основные понятия
- •2. Конструкт как единица мыслительной деятельности
- •3. Понятие как единица мыслительной деятельности
- •4. Мысленные модели
- •5. Когнитивные модели.
- •6. Объектно-схемные или качественные модели.
- •7. Синтез моделей с различными уровнями семантики и формализации
- •Тема «Нейросети»
- •Назначение и основные понятия
- •Одиночный нейрон
- •Простые нейросети
- •Назначение и основные понятия
- •2. Структура нейросетей
- •Тема «Нейросети»
- •1. Методы обучения нейронных сетей
- •2. Модель нейронной сети с обратным распространением ошибки
- •1. Методы обучения нейронных сетей
- •Применение нейросетей
- •1) Общая характеристика нейросетевых технологий
- •2 Классы решаемых задач
- •3) Области использования нейросетей
- •Общая характеристика нейросетевых технологий
- •2. Классы решаемых задач
- •3. Области использования нейросетей
- •Тема «Генетические алгоритмы»
- •Классы задач оптимизации
- •Методы решения оптимизационных задач
- •Эволюционные вычисления
- •Основы теории генетических алгоритмов
- •Решение задач с помощью генетических алгоритмов
- •Генетические алгоритмы и нейросети
- •Тема «Метод группового учета аргументов»
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Вопросы к 1 модулю «Системы обработки экономической информации»
- •1. Что такое Data Mining
- •Области использования Data Mining
- •Классы систем Data Mining
Тема «Обработка и поиск текстовой информации»
Вопросы:
Обработка входящей текстовой информации
Поиск текстовой информации
Эффективность дипс
1. Обработка входящей текстовой информации
На входе ДИПС документы представлены на естественном языке. Задача входной обработки таких документов – перевод их содержания с ЕЯ на ИПЯ (искусственный поисковый язык).
Тип используемого ИПЯ оказывает сильное влияние как на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:
классификационные (рубрицирование) и
дескрипторные (индексирование).
Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.
Независимо от используемого языка, в операции перевода выделяют два основных этапа:
анализ смыслового содержания текста с целью выделения из него сведений об известных на уровне ИПЯ объектах, их свойствах, а также отношениях между ними. Такой смысловой анализ принято называть лингвистическим анализом текта;
выражение этих сведений на ИПЯ, т.е. принятие решения о приравнивании отдельных выражений входного документа отдельным элементам или их сочетаниям на ИПЯ. Как уже упоминалось, в зависимости от используемого языка этот процесс называется индексированием или рубрицированием.
Рассмотрим детальнее содержание этих этапов.
Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:
морфологического анализа;
синтаксического анализа.
Цель морфологического анализа заключается в получении основ слов (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (часть речи, род, число, падеж и т.д.) для каждой из словоформ.
Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.
Собственно, выражение таких зависимостей на основе текста на ЕЯ, и припавнивание их некоторым конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:
автоматическое индексирование. Определяется количество вхождений какого-либо термина, либо группы терминов в документ, в зависимости от количества вхождений присваиваются весовые коэффициенты;
автоматическое рубрицирование, основанное на знаниях: в этом случае заранее создаются некоторые базы знаний, в которых на основе знаний экспертов закладываются наиболее важные термины и их сочетания. Процесс создания подобных систем во многом напоминает создание экспертных систем для диагностики и классификации;
автоматическое рубрицирование, основанное на обучении и примерах – в этом случае используются нейросетевые технологии.
