
- •Введение
- •Общая схема банка данных в системе
- •Основные понятия
- •Базы данных
- •Банк данных как система управления основные понятия
- •Банк данных как автоматизированная система
- •Субд с включающим языком
- •Информационные системы
- •Документальные аис основные понятия дескриптор
- •Фактографические аис
- •Основные понятия
- •Основные данные
- •Уровни моделей
- •Классификация моделей
- •Роль подсхемы
- •Этапы проектирования базы данных
- •Архитектура банка данных
- •Последовательность действий при чтении записи
- •Инфологическое проектирование базы данных
- •Модели данных и подъязыки данных
- •Иерархическая модель данных
- •Сетевая модель данных
- •Реляционная модель данных
- •Реляционные базы данных
- •Алгебра отношений
- •Преимущества реляционных бд
- •Отношения
- •Нормализация отношений
- •Функциональная зависимость
- •Полная функциональная зависимость.
- •Проектирование баз данных.
- •Специальные операции над отношениями
- •Операции над отношениями.
- •Централизация и децентрализация процессов обработки данных.
- •Традиционный набор операций
- •Нормализация отношений
- •Исчисление отношений
- •Вторая и третья нормальные формы.
- •26. Язык запросов sql
- •1 Основы sql
- •Многотабличные запросы на чтение (объединения)
- •Сортировка результатов запроса (предложение order by)
- •Объединение результатов нескольких запросов (union)*
- •Запрос на объединение и сортировка *
- •Многотабличные запросы на чтение (объединения)
- •Простое объединение таблиц (объединение по равенству)
- •Запросы с использованием отношения предок/потомок
- •Объединения с условием для отбора строк
- •Несколько связанных столбцов
- •Запросы на чтение к трем и более таблицам
- •Чтение всех столбцов
- •Самообъединения
- •Псевдонимы таблиц
- •Правила выполнения многотабличных запросов
- •Внешнее объединение таблиц *
- •Итоговые запросы на чтение
- •Агрегатные функции
- •Агрегатные функции в списке возвращаемых столбцов
- •Запросы с группировкой (предложение group by)
- •Несколько столбцов группировки
- •Ограничения на запросы с группировкой
- •Вложенные запросы на чтение
- •Внешние ссылки
- •Вложенные запросы и объединения
- •Связанные вложенные запросы
- •Однострочный оператор insert
- •В интерактивном режиме удобно не включать в оператор insert список столбцов, так как это уменьшает длину оператора. В случае программного
- •Многострочный оператор insert
- •Удаление существующих данных
- •Удаление всех строк
- •Оператор delete с вложенным запросом *
- •Обновление существующих данных
-
Документальные аис основные понятия дескриптор
ЯОД – язык описания документа ПОД – поисковый образ документа
ЯОЗ – язык описания запроса ПОЗ – поисковый образ запроса
Релевантность, точность, полнота
Словарь дескрипторов, тезаурус
Основная задача – поиск документов по их содержанию.
Если язык запросов (как и язык самих документов) является обычным (неформализованным) языком (естественным), возможно с профессиональным уклоном, то полное решение задачи поиска требует понимания системой смысла запросов. Эта задача связана с проблемой создания искусственного интеллекта.
Поэтому на практике применяются упрощенные способы поиска. Простейший – использование дескрипторов.
Дескриптор – слово или совокупность слов (в том числе специальный профессиональный термин), которое в наибольшей степени характеризует содержание документа.
В АИС создается фиксированный словарь дескрипторов. Система просматривает текст запроса (на естественном языке) и фиксирует все встречающиеся дескрипторы. Затем просматривает полные тексты всех документов и отбирает те из них, которые содержат все дескрипторы из запроса. Необходимо честь, что и в запросе, и в тексте дескрипторы могут изменяться по падежам, по родам и так далее. Поэтому идентификация дескрипторов должна проводиться с точностью до окончаний (или даже до суффиксов).
Просмотр полных текстов документов требует много времени. Вместо этого просматривают поисковые образы.
Поисковый образ документа – совокупность дескрипторов, описывающая содержание и смысл документа.
Поисковый образ запроса – совокупность дескрипторов из запроса.
Поисковый образ составляется заранее либо вручную, либо автоматически в результате просмотра текстов специальной программой. Поисковые образы хранятся отдельно от текстов самих документов и имеют в своем составе ссылку на адрес соответствующего документа. В процессе поиска сравниваются поисковые образы запроса и документа на основе критерия смыслового соответствия. Этот критерий либо фиксирован для системы, либо указывается в запросе. Если условие сравнения выполняется, документ считается релевантным запросу. В качестве критерия смыслового соответствия может выступать условие совпадения множества дескрипторов поисковых образов, включение множеств друг в друга, пересечение множеств и др.
Наиболее дешевый способ хранения информации – микрофильмы и микрофиши. Их используют для хранения полных текстов документов. Поисковые образы хранятся во внешней памяти ЭВМ. Поисковые образы запросов обычно хранятся в ОП. После поиска и определения адреса документа осуществляется обращение к микрофильму или микрофиши. Можно получить твердую копию на бумаге.
Так как время обращения к хранилищу микрокопий велико, используется промежуточный этап.
Если найдено большое количество релевантных документов, в диалоге уточняется, что выдавать. Могут быть показаны заголовки документов, их полные наборы дескрипторов. В некоторых АИС на внешних ЗУ хранятся краткие рефераты документов, текст которых выдается пользователю на экран. Если пользователь подтвердит необходимость документа, выдается твердая копия.
Документальная АИС с простыми дескрипторными поисковыми образами может рассматриваться как фактографическая с булевыми атрибутами (да-нет), число которых равно полному числу используемых дескрипторов. Но такое представление, вообще говоря, не экономично, если число дескрипторов в словаре велико.
Описать содержание документа простой системой дескрипторов очень сложно, т. к. в естественном языке имеется неоднозначность, выражение смысла различными средствами, синонимичность и так далее.
Поэтому при поиске по дескрипторам могут быть извлечены нерелевантные документы, то есть не имеющие отношения к рассматриваемому запросу, а некоторые релевантные могут быть не найдены.
В первом случае говорят о неточности (информационный шум) АИС, во втором о её неполноте.
Для системы применительно к каждому запросу определяются (экспертным путем) два коэффициента.
Коэффициент полноты – отношение числа выданных по запросу релевантных документов к их общему числу в поисковом массиве.
Коэффициент точности – отношение релевантных (в данной задаче) документов к общему числу выданных (релевантных и нерелевантных документов).
Система характеризуется средним значением этих коэффициентов или минимальными их величинами.
Множество простых дескрипторов дополняется служебными словами (например, предлоги) и строится специальная грамматика (формализованная). Это множество превращается в некоторый формальный язык, что улучшает информационные характеристики системы. Но это усложняет поиск, удорожает систему. Вводится статистика и постоянные запросы.