
- •Вопросы по курсу «Системы обработки экономической информации»
- •1.Что такое Data Mining
- •2.Области использования Data Mining
- •3.Типы закономерностей в Data Mining
- •4.Классы систем Data Mining
- •5.Назначение и основные понятия текстовых систем данных и знаний
- •6.Общая функциональная структура дипс
- •7. Формальное представление смыслового содержания текста
- •8. Обработка входящей текстовой информации
- •9. Поиск текстовой информации
- •10.Оценка качества дипс
- •11.Понятие о знании
- •12Логические модели
- •13. Продукционные модели
- •14. Фреймовая модель представления знаний
- •15.Семантические сети
- •16. Основные понятия по обработки информации у человека
- •17. Конструкт как единица мыслительной деятельности
- •18. Понятие как единица мыслительной деятельности
- •19. Мысленные модели
- •20. Когнитивные модели.
- •51.Деревья решений
5.Назначение и основные понятия текстовых систем данных и знаний
В отличие от классических БД, предназначенных для точного и детального воспроизведения информации, документальные БД и знаний ориентированы на частичное, приближенное представление данных, имеющих сложную смысловую структуру и представленных на входе системы в виде текста.
Такие системы поиска текстовых знаний получили название документальных информационно-поисковых систем (ДИПС).
Основной функцией любой ДИПС является информационное обеспечение потребителей путем информационного поиска и последующей выдачи ответов на их вопросы.
Фактически ИПС имеют дело с информационными запросами, представляющими собой осознанную и сформулированную человеком информационную потребность в данный момент времени, но информационный запрос не тождественен информационной потребности, в связи с чем вводятся два важных новых понятия:
пертинентность – это соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными;
релевантность – это соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.
Для записи поискового предписания и поисковых образов применяются специальные языки, называемые информационно-поисковыми или просто поисковыми языками.
В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления поискового предписания и поисковых образов. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).
Решение о выдаче или невыдаче документа в ответ н запрос принимается на основании некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между поисковым предписанием и поисковым образом. Такой набор правил получил название критерия смыслового соответствия.
6.Общая функциональная структура дипс
В состав типичной ДИПС входят, как правило, четыре основных подсистемы:
Подсистема ввода и регистрации;
Подсистема обработки;
Подсистема хранения;
Подсистема поиска.
Подсистема ввода и регистрации решает следующие основные задачи:
создание электронных копий бумажных документов, включая распознавание текста или ввод с клавиатуры;
подключение к каналам доставки электронных документов;
преобразование при необходимости формата электронного документа;
присвоение электронным документам уникальных идентификаторов (имен).
Для хранения документов применяют средства сжатия и быстрого поиска по идентификатору. Такой поиск осуществляется по алгоритмам, аналогичным используемым в классических базах данных.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его поискового образа. В поисковый образ заносится информация, необходимая для последующего поиска документа.
Поисковые образы документов сохраняют в индексах. Индексы представляют собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится поисковый образ документа. В ячейках таблицы могут храниться значения 0 или 1 в зависимости от наличия или отсутствия признака.