- •90 Символы, отношения и графы
- •Введение План:
- •Введение. Предмет и задачи курса, понятие предметной области
- •Документальные информационно - поисковые системы
- •Сетевые технологии передачи данных
- •Информационно - поисковые системы в Интернет
- •Фактографические информационные системы
- •Экспертные системы, базовые понятия
- •Понятие системы Основные составляющие системы.
- •Компоненты и свойства системы
- •Состояние системы3
- •Виды состояний4
- •Статическое и динамическое состояние
- •Установившееся и переходное динамическое состояние
- •Исходное и возмущенное состояние
- •Устойчивое и неустойчивое состояние
- •Свободное и вынужденное состояние
- •Обратимые и необратимые состояния.
- •Тема. Данные Общие понятия и определения
- •Концепция трех схем хранения данных
- •Технология анализа предметной области
- •Анализ концептуальных требований и информационных потребностей
- •Выявление информационных объектов и связей между ними
- •Построение концептуальной модели предметной области
- •Логическое проектирование
- •Реляционная модель данных
- •Понятия математической логики
- •Сетевая модель данных
- •Организация веерного отношения в памяти эвм
- •Алгоритм получения двухуровневой структуры сети
- •Отображение информационной схемы на сетевую модель данных
- •Иерархическая модель данных
- •Сравнение моделей данных
- •Средства для описания данных Символы
- •Отношения
- •Некоторые свойства графов
- •Деревья
- •Раскрашенные графы как инструмент представления данных
- •Методы ускорения доступа к данным
- •Адресная функция
- •Построение хеш-функции.
- •Ключи состоящие из нескольких слов, ключи переменной длины
- •Разрешение коллизий методом "цепочек".
- •Индексы
- •Тема 7. Проектирование реляционных бд на основе принципов нормализации
- •Системный анализ предметной области
- •Дата логическое проектирование
- •Формы нормальных отношений
- •Тема 8 Нормализация отношений
- •. Вторая нормальная форма
- •Третья нормальная форма
- •Нормальная форма Бойса-Кодда
- •Четвертая нормальная форма
- •Пятая нормальная форма
- •Лекция информационные системы Понятие информационной системы
- •Компоненты информационной системы
- •Архитектура информационной системы
- •История развития информационных систем
- •Процессы, обеспечивающие работу информационной системы
- •Принципы построения информационной системы
- •Структура информационной системы
- •2.3.1. Информационное обеспечение
- •2.3.2. Техническое обеспечение
- •2.3.3. Математическое и программное обеспечение
- •2.3.4. Организационное обеспечение
- •2.3.5. Правовое обеспечение
- •Типы, оценка и области применения информационных систем Классификация информационных систем по функциональному признаку
- •Система обработки данных
- •Автоматизированная система управления
- •Информационно-поисковые системы
- •Классификация информационных систем по профессиональному признаку
- •Типы информационных систем
- •Информационная система оперативного уровня
- •Информационные системы специалистов
- •Информационные системы для менеджеров среднего звена
- •Стратегические информационные системы
- •Классификация по сфере применения
- •Использование информационных систем в практической деятельности Информационные системы в бизнесе
- •Бухгалтерские информационные системы (буис)
- •Особенности функционирования буис на крупных предприятиях
- •Особенности функционирования буис на предприятиях малого и среднего бизнеса
- •Банковские информационные системы
- •Справочно-правовые информационные системы
- •Рассмотрим наиболее известные системы, существующие в нашей стране. Система "Консультант Плюс"
- •Система "Гарант"
- •Информационная система «Договор»
- •Системы распознавания и перевода текста Системы оптического распознавания текста
- •Системы электронного перевода
- •Электронные словари
- •Корпоративные информационные системы: технологии и решения Общий взгляд на предприятия с точки зрения информационной системы
- •Основные этапы создания корпоративной ис
- •Информационное обследование
- •Архитектура ис
- •Выбор субд
- •Выбор системы автоматизации документооборота
- •Выбор программных средств для управления документами
- •Выбор специализированных прикладных программных средств.
- •Общие выводы
Документальные информационно - поисковые системы
Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.
Документальный поиск – информационный поиск, цель которого нахождение в хранилище ИПС документов, соответствующих полученному запросу. В реальных условиях документальный поиск осуществляется в два этапа: в хранилище вторичных документов, в хранилище первичных документов. Соответственно выделяют два вида документального поиска: библиографический и библиотечный.
Библиографический поиск – документальный поиск, осуществляемый с целью нахождения данных о первичных документах и их адресах. ИПС, обеспечивающая хранение вторичных документов и библиографический поиск называется библиографической информационно – поисковой системой.
Библиотечный поиск – документальный поиск, осуществляемый с целью нахождения первичных документов в их собрании. Соответствующая ИПС называется библиотечной.
При документальном поиске потребитель сам извлекает из документа интересующие его факты и идеи.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового предписания (ПП) и поисковых образов документов (ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПП. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПП.
Релевантность – соответствие содержания документа информационному запросу в том виде, в котором он сформулирован.
Фактическая релевантность, понимаемая как смысловое соответствие содержания выданного документа информационному запросу, может быть установлена человеком в процессе осмысления содержания документа и запроса.
Элементами ИПС являются:
Массивы документов, выступающие в качестве объекта поиска
Информационно – поисковый язык (ИПЯ). Это искусственный язык предназначенный для описания содержания и формы документов и запросов для осуществления поиска.
Правила индексирования, следуя которым осуществляется описание средствами ИПЯ документов и запросов. В результате индексирования документа получается поисковый образ документа (ПОД), а в результате индексирования запроса – поисковое предписание (ПП).
Правила поиска документов, соответствующих запросов, которые задаются в виде критерия соответствия.
Технические средства, с помощью которых реализуется ИПС, т.е. осуществляется хранение и поиск информации.
Обслуживающий персонал – индексаторы и технические работники, обеспечивающие обработку и ввод в систему документов.
В состав ИПС входят четыре подсистемы: ввода и регистрации, обработки, хранения, поиска. Структура ИПС представлена на рис. 1.2.
Рис. 1.2 Структура ИПС
Текстовые документы поступают на вход. Все поступающие документы без каких либо изменений направляются в систему хранения. Система хранения представляет собой или совокупностью файлов, или специализированные средства управления базой данных. Система хранения в виде файлов имеет ряд недостатков, а именно хранимые документы неэффективно используют дисковое пространство и имеют низкую скорость доступа при большом количестве файлов. Специализированные средства представляют собой совокупность стандартных или специализированных средств архивации и СУБД, обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа поисковых образов документа, в который заносится информация, необходимая для последующего поиска документа.
Поисковые образы всех документов сохраняются в индексе. Он представляет собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится ПОД. В ячейках таблицы хранятся единицы и нули в зависимости от наличия или отсутствия данного признака в данном документе.
Очевидно, что такая таблица сильно разряжена, и хранить в ней все ее значения не имеет смысла, поэтому используют свертку таких таблиц. Форма хранения таблицы без свертки называется прямой, со сверткой – инверсной. При свертке таблицы структура индекса значительно усложняется, для его поддержания используются средства СУБД.
Запрос пользователя преобразуется в код поискового предписания и передается в подсистему поиска, которая осуществляет выдачу пользователю документов. Найденные документы признаются системой формально релевантными.
Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где “энтропия” употреблена в ином смысле, чем предполагалось), а с другой – не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании).
