Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Proektirovanie_informatsionnykh_sistem.rtf
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
580.95 Кб
Скачать

Тема 5.

Вопросы

  • Основные определения, понятия и требования к информационному обеспечению.

  • Внемашинное информационное обеспечение.

  • Понятие унифицированной системы документации.

  • Состав и содержание операций проектирования классификаторов.

1. Информационное обеспечение состоит из двух компонентов: внемашинное информационное обеспечение, и внутримашинное информационное обеспечение. Внемашинное состоит из системы документации и системы классификации и копирования. Внутримашинное содержит файлы, базы данных, пользовательский интерфейс. Информационное обеспечение является средством для решения следующих задач: 1. Однозначного и экономного представления информации в системе( на основе кодирования объектов). 2. Организация процедур анализа и обработки информации с учетом характера связей между объектами ( на основе классификаций объектов). 3. Организация взаимодействия пользователя с системой ( на основе экранных форм интерфейса). 4. Обеспечения эффективного использования информации в системе управления объектом( на основе унифицированной системы документации). Внемашинное информационное обеспечение составляют системы документации, регламентирующее распределение показателей по входным и выходным документам, и классификации кодирования, позволяющее представить реквизиты и показатели информации в соответствии требованиям машинной обработки. Внутримашинное информационное обеспечение представляет собой набор файлов, содержащий не структурированную информацию в виде документов. Базы данных, содержащие информацию в виде записей, с определенным реквизитным составом, и обеспечивающие поиск информации по ключевым реквизитам.

В состав внутримашинного обеспечения включается так же пользовательский интерфейс, представляющий собой экранную форму, для ввода информации, иерархическое меню, и отчеты, содержащие результатную информацию. Информационному обеспечению применяются следующие общие требования: 1. Обеспечение должно быть достаточно для поддержания всех автоматизированных функций объекта. 2. Для кодирования информации, должны использоваться принятые заказчикам классификаторы. 3. Должна быть обеспечена совместимость с информационным обеспечением взаимодействующих систем. 4. Формы документов должны отвечать требованиям корпоративных стандартов заказчика. 5. Структура документов и экранных форм, должна соответствовать характеристикам автоматизированных рабочих мест, конечных пользователей. 6. Графики формирования и содержания информационных сообщений, а так же используемые сокращения (аббревиатуры), должны быть согласованы с заказчиком. 7. В информационной системе должны быть предусмотрены средства контроля входной и результатной информации.

2.

2.1. Понятия классификации информации.

Классификация — это разделения множества объектов на подмножества, по их сходству или различию в соответствии с принятыми методами. Классификация фиксирует закономерные связи между классами объектов. Система классификаций — это совокупность правил распределения объектов множества на подмножества. Система классификаций тесно связано с понятием классификатор. Классификатор — это документ с помощью которого, осуществляется формализованное описание информации, в информационной системе, содержащий наименование объектов, наименование классификационных группировок, и их кодовое обозначение. По сфере действия выделяют следующие виды классификаторов: 1. Международные классификаторы. Эти классификаторы разрабатываются системой международных экономических стандартов ( СМЭС). Они обязательны для передачи информации между организациями разных стран. 2. Общегосударственные( общесистемные) классификаторы. Обязательны для организации процессов передачи и обработки информации, между экономическими системами внутри страны. 3. Отраслевые классификаторы. Используются для выполнения процедур обработки информации, между организациями одной отрасли. 4. Локальные классификаторы. Используются внутри отдельных предприятий.

Различают две системы классификации объектов: 1. Последовательная (иерархическая). 2. Параллельная ( фасетная).

Иерархическая система предусматривает классификацию методом последовательного разделения на группы, группы на подгруппы, и т. д. Характерными особенностями иерархической системы является: 1. Возможность использования неограниченного количества признаков классификации. 2. Соподчиненность признака с классификацией. Это выражается разбиением каждой классификационной группировки, образованной по одному признаку, на множество классификационных группировок по подчиненному ( нижестоящему).

Классификационные сумы, построенные на основе иерархического принципа, имеют неограниченную емкость, величина которой зависит от глубины классификации. К положительным сторонам данной системы следует отнести логичность, простоту построения и удобство логической и арифметической обработки. Серьезным недостатком иерархической схемы является жесткость построения классификации. Она обусловлена заранее установленным набором признаков, и порядком их использования по ступеням классификации. Этот недостаток приводит к тому, что при изменении состав объектов классификации, или характера решаемых с помощью классификатора задач требуется коренная переработка классификационной схемы. Недостатки присущие иерархической системы отсутствуют в параллельной классификации. В параллельной (фасетной) классификации существует понятие аспект. Аспект — это точка зрения на объект классификации, который характеризуется одним или несколькими признаками.

Фасетная классификация представляет собой таблицу, по столбцам которой, располагаются фасеты, а по строкам значения фасетов. Фасет — это аспект классификации, который используется для образования независимых классификационных группировок.

Факультет

Кафедра

Группа

Курс

Успеваемость

Физ-мат

К П М и И

ПИМ 1

1

5

ЕГФ

ПИМ 2

2

4

Ист фак

ПИМ 3

3

3

Под фасетным методом классификации понимается параллельное разделение множество фасет на независимые классификационные группировки. При этом методе заранее жесткие классификационные схемы не создаются, разрабатывается лишь система таблиц, признаком объекта классификаций. При необходимости создания классификационной группировки для решения конкретной задачи осуществляется выборка необходимых признаков из таблицы и их объединение в определенной последовательности. К преимуществам данной системы относятся: большая емкость системы классификации, гибкость ( при необходимости можно вводить дополнительные фасеты, или изменять их место в таблице. Если какие характеристики изменятся, то можно просто добавит фасет, без коренной перестройки всего классификатора. Недостаток, это сложность структуры, низкая заполненность системы). В современных системах классификации используют комбинации из обоих методов.

2.2. Системы кодирования.

Кодирование — это процесс присвоения условных обозначений объектам и классификационным группировкам по соответствующей системе кодирования. Система кодирования — это совокупность правил обозначения объектов и группировок с использование кода. Код — это условное обозначение объектов в виде знака или группы знаков, в соответствии с принятой системой. Код характеризуется следующими параметрами: длинной, основанием кодирования, структурой кода. Системы кодирования бывают двух типов: регистрационная, классификационная. Они в свою очередь делятся на порядковую, серийную, разрядную, повторение ( серийная относится и к регистрационной и классификационной). Самая простая система кодирования — это порядковая. Объекты кодируются числами натурального ряда. Эта система используется для кодирования небольших устойчивых номенклатур. Серийная система предусматривает выделение серийных номеров для кодирования каждого класса объектов, т. е. перед присвоением номеров объект принадлежит укрупненной классификации. Имеется система повторений. По этой системе код представляет собой повторение какого либо количественного признака объекта. При разрядной системе кодирования, код разбивается на разряды, по признакам классификаций. Наиболее гибкой системой кодирования является комбинированное кодирование, кода используется комбинация нескольких систем кодирования.

3. Унифицированная система документации (УСД) — это рационально-организованный комплекс взаимосвязанных документов, который отвечает единым правилам и требованиям, и содержит информацию, необходимую для управления экономическим объектом. Все объекты входящие в состав УСД и все реквизиты должны быть закодированы с использованием классификаторов.

4. При разработки классификатора придерживаются следующей схемы:

1. Разработка ТЗ на проектировании. Включает две работы: 1.1. Определение состава назначения и сферы действия классификатора. 2.2. Определение состава исходных данных и требований классификаторов.

2. Разработка методических материалов проектирования. 2.1. Разработка основных принципов построения классификаторов. 2.2. Разработка методики построения классификаторов.

3. Организация сбора и обработки исходных данных. 3.1. Разработка инструктивных материалов по сбору и обработки данных. 3.2. Сбор и обработка данных.

4. Составление классификатора и система его ведения. 4.1. Построение эталонной и рабочей формы классификатора. 4.2. Экспериментальная проверка и внесение коррективов. 4.3. Утверждение и издание классификаторов.

Проектирование информационного обеспечения.

Вопросы:

  • Внутримашинное информационное обеспечение.

  • Проектирование информационной базы при различных способах организации.

  • Проектирование экранных форм электронных документов.

1. Основами внутримашинного обеспечения является информационная база. Информационная база — это совокупность данных, организованная определенным способом, и хранимая в памяти вычислительной системы в виде файлов, с помощью которых удовлетворяются информационные потребности управленческих процессов для решаемой задачи. Все файлы информационной базы можно классифицировать по следующим принципам: 1. По этапам обработки ( входные, базовые и результатные). 2. По типу носителя( на промежуточных носителях, на основных носителях ( закреплены в вычислительной технике стационарно)). 3. По составу информации( файлы с оперативной информацией, файлы с постоянной информацией). 4. По назначению ( в зависимости от типа функциональных подсистем). 5. По типу логической организации. Файлы с линейной и иерархической структурой записи, реалиционная, табличная.

По этапам обработки, входные фалы создаются из первичных документов ввода данных или обновления в базовых файлов. Файлы с результатной информацией предназначаются для её вывода на печать, или в каналы связи. Они не подлежат долговременному хранению.

К числу базовых файлов относятся следующие: 1. Основные. 2. Рабочие. 3. Промежуточные. 4.Служебные. 5. Архивные.

Основные файлы имеют однородную структуру, и могут содержать записи с оперативной и условно-постоянной информацией. Информация считается условно-постоянной, если она в течении года изменяется не более чем на 40%.

Рабочие файлы создаются для решения конкретных задач на базе основных файлов, путем выборки части информации из нескольких основных файлов с целью сокращения времени обработки данных.

Промежуточные файлы отличаются от рабочих тем, что они образуются в результате решения экономических задач, и служат для дальнейшего использования при решении других задач.

Служебные файлы предназначаются для ускорения поиски информации в основных файлах, и включают в себя справочники, индексные файлы и каталоги.

Архивные файлы содержат ретроспективные данные из основных файлов. Они используются для решения задач прогнозирования, или же для восстановления информации.

Организация хранения файлов в информационной базе, должна отвечать следующим требованиям: 1. Полнота хранимой информации для выполнения всех функций управления и решения задач. 2. Целостность хранимой информации ( обеспечение непротиворечивости данных при вводе). 3. Своевременность и одновременность обновления данных во всех копиях. 4. Гибкость системы ( адаптируемость информационной базы к изменяющимся информационным потребностям). 5. Реализуемость системы, обеспечивающая требования к сложности структуры информационной базы. 6. Релевантность (способность системы осуществлять поиск и выдавать информацию, соответствующую запросам пользователей. 7. Разграничение прав доступа. Существуют следующие способы организации информационной базы: 1. Совокупность локальных файлов поддерживаемых функциональными пакетами прикладных программ. 2. Интегрированная база данных, которая управляется какой либо СУБД. Базы данных, которые представляют собой совокупность локальных файлов, называются документальными. Достоинства хранения информации в таком виде — это быстрое время обработки данных. Недостатки: 1. Большое дублирование информации. 2. Сложность поиска необходимой информации.

Интегрированные информационные базы данных ( фактографические БД) — это совокупность взаимосвязанных, хранящихся вместе данных, при такой минимальной избыточности, которая допускает их использование для множества приложений. Достоинства: минимальная избыточность данных. При обработки запросов к БД, мы получаем однозначный ответ. Недостатки: высокие требования к вводимым данным. Состав и структура данных очень трудно изменить.

Важным принципом формирования и введения фактографической базы данных, является её разделение на файлы, содержащие: 1. Условно-постоянную информацию. 2. Переменную информацию. Эта классификация количественно характеризуется коэффициентом стабильности информации: Кст=(U-Uкор)/U, U — объем файла, Uкор — объем корректуры файла в год. Если Кст>0,6, то файл считается условно постоянным. К условно-постоянной информации в основном относят нормативная и справочная информация. К переменной относится вся оперативная информация. Файлы оперативной информации формируется во время работы информационной системы. Проектирование информационной базы включает в себя распределение информации, хранящийся в базе, по автоматизированным рабочим местам. Варианты возникают в тех случаях, когда одна и та же информация требуется нескольким автоматизированным рабочим местам. Может быть дублирование, или однократное хранение. Дублирование затрудняет и удорожает корректировку информации, а однократное хранение требует передачи информации по сети, и соответствующих временных затрат. При проектировании внутримашинной информационной базы, требуется рациональное установление реквизитного состава, каждого файла базы данных.

Реквизитный состав файла

Наименование реквизита

Машинное имя

Тип реквизита

Ширина

Число дробных позиций

2.Процесс проектирования информационной базы, как совокупности локальных файлов, начинается с операций, определения информационной потребности, причем для каждой задачи. Информационную потребность составляют входные и результатные документы. Далее выполняется операция, определения периодичности решения задач. В результате выполнения этих двух операций, получают перечень документов, и список задач и периодичность их решения. Анализирую перечень документов и список задач, выявляется полный состав файлов, и проводится их классификация. В результате получается полный перечень имен файлов информационной базы. На основе полученного списка файлов, а так же форм входных и результатных документов, выполняется операция определения содержания файлов. Здесь формируется состав полей с записей файлов. При выполнении этой операции, необходимо руководствоваться следующими правилами: 1. Алгоритмическая направленность создания информационных фалов. 2. Должна обеспечиваться семантическая и синтаксическая однородность файлов. 3. Упорядоченность хранения фалов по ключу. 4. Должна достигаться универсализация файлов.

После определения состава и содержания полей каждого файла, производится определение характеристик файла, и получения таблицы характеристик файла. Таблица включает в себя: 1. наименование файла. 2. Длину логической записи файла. 3. Количество логических записей. 4. Объем файла в байтах. 5. Чистоту использования файла. 6. Порядок обработки файла ( последовательный, выборочный, смешанный). 7. Периодичность обновления файла. 8. Длительность хранения.

Далее осуществляется выбор логической организации файла. Затем, осуществляется выбор носителей для каждого файла из множества машинных носителей. Завершается проектированием, выполнением операции, выбор физической организации файла. В результате мы должны получить структуру, объем и состав документальной базы данных.

Проектирование фактографической базы данных.

Проектирование осуществляется в несколько этапов: 1. Предпроектная стадия. Включает следующие работы: 1. Выявление состава и характеристик хранимой информации. 2. Построение инфологической модели предметной области. 3. Оценка возможностей применения и выбор конкретной СУБД. В результате выполнения этого способа работ, проектировщики выполняют техническое задание, и технико-экономическое обоснование. Техническое задание, в части касающегося проектирования баз данных, отражают следующие вопросы: 1. Назначение базы данных. 2. Основные требования к базе данных. 3. Основные технические решения. 4. Технико-экономические показатель эффективность использования базы данных. 5. Состав, содержание, и организация проектных работ по созданию базы данных.

На этапе технического проектирования, и разработки базы данных, выполняются следующие работы: 1. Логическое проектирование( составление концептуальной схемы). 2. Физическое проектирование, под выбранную СУБД. 3. Проектирование программного обеспечения. На этапе рабочего проектирования: 1. Разработка оригинальных программных средств, и сервисных программ. 2. Настройка СУБД в соответствии с выбранными параметрами. 3. Разработка контрольного примера.

  • Электронная форма документа — это не изображение бумажного документа, а электронная, безбумажная технология работы с экранной формой, которая предполагает появление бумажной формы только в качестве твердой копии ( при выводе на печать). Электронная форма документа — это специальная страница, с пустыми полями, оставленными для заполнения пользователем. Создание форм электронных документов, требует использование специального программного обеспечения. Проектирование форм электронных документов. Включает в себя выполнение следующих операций: 1. Создание структуры экранной формы. Это подготовка внешнего вида, с помощью графических средств проектирования. 2. Определение содержания форм электронного документа. Это выбор способов, которыми будут заполняться поля. Поля могут заполняться в ручную ( набором с клавиатуры) или подбором значений из каких либо справочников, минимум или списков. 3. Определение перечня макетов экранных форм. По каждой задачи, проектировщики анализируют постановку, в которой приводится перечни используемых входных документов, с оперативной и постоянной информацией, и документов с результатной информацией. 4. Определение содержания макетов. Выполняется на основе анализа состава реквизитов первичных документов. Проектирование форм завершается программированием, разработкой макетов экранных форм и их тестирования.

Проектирование документальных баз данных.

Вопросы

  • Назначение. Основные понятия.

  • Общая функциональная структура документальных баз данных.

  • Проблема формального представления смыслового содержания текста.

  • Обработка входящей текстовой информации.

1. Классические модели и методы теории баз данных, организация хранения и обработки детально-структурированных данных. Чаще всего эти данные представляют собой числовые значения, описывающие те или иные характеристики информационных объектов. Однако, на практике выяснилось, что информация чаще всего представляется в виде простых и сложных элементов. В следствии этого, появились документальные базы данных. Традиционное СБУБД называется фактографическим. Основной функцией любой документальной базой данной является информационное обеспечение пользователей на основе имеющейся в базе информации. Основной операцией , которую должна выполнять документальная база данных, является информационный поиск. Информационный поиск — это процедура отыскания документов, содержащих ответ на заданный потребителем вопрос. Если в традиционном СУБД на запрос выдается единственный ответ, в виде конкретных сведений ( факторов), документальной базе данных в результате информационного поиска, потребителю предоставляется совокупность документов, смысловое содержание которых, соответствует его запросам.

Потребность человека в определенной информации , в процессе его практической деятельности, носит название информационная потребность. Под действием получаемой информации, информационная потребность постоянно изменяется. Однако, информационная потребность формулируется человеком на естественном языке, и представляет собой информационный запрос, с которым пользователь обращается к базе данных. Поэтому, реакцию базы данных необходимо рассматривать не только к информационной потребности, но и по отношению к информационному запросу. Для выражения данных отношений, в теории документальных баз данных, введены два понятия: пертинентность, релевантность. Под пертинентностью понимается соответствие смыслового содержания документа, информационной потребности пользователя. Такие документы называются пертинентами. Релевантность представляет собой соответствие содержания документа информационному запросу, в том виде, в каком он сформулирован. Документы называются релевантными. Автоматизация поиска документов потребовало формализации представления смыслового содержания информационного запроса и документа в виде поискового предписания и поисковых образов документов. Для записи поисковых предписаний и поисковых образов, применяют специальные языки, называемые информационно-поисковыми. В процессе проведения информационного поиска, в документальной базе данных осуществляется сравнение содержания документа и запроса пользователя, путем сопоставления поискового образа документа, с поисковым предписанием. На основании результатов сопоставления, принимается решение о выдаче документа потребителю ( он признается релевантным), или не выдаченным ( не релевантным). Решение о выдачи или не выдаче документ, принимается на основе некоторого набора правил , по которому в базе данных определяется степень смысловой близости между поисковым образом и поисковым предписанием. Такой набор правил получил название — критерий смыслового соответствия.

2. Общая функциональная структура показана на рисунке

В состав типичной документальной базе данных входят следующие подсистемы: 1. Подсистема ввода и регистрации. 2. Подсистема обработки. 3. Подсистема хранения. 4. Подсистема поиска.

На вход подсистемы входа и регистрации поступают документы. Документы могут поступать как в электроном так и в бумажном виде, поэтому, эта подсистема решает следующие основные задачи: 1. Создание электронных копий бумажных документов. 2. Обеспечение подключения каналов доставки электронных документов. 3. Распознавание, а при необходимости и преобразование формальных электронных документов. Присвоение электронным документов уникальных идентификаторов ( регистрация). Все поступившие документы, без внесения каких либо изменений, поступают в систему хранения, и последовательно хранятся в базе документов. База документов моет представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако, такой тип хранения имеет следующие недостатки: 1. Неэффективное использование дискового пространства. 2. Низкая скорость доступа при большом количестве файлов. Поэтому, для хранения документов применяют средства сжатия и быстрого поиска информации. Подсистема хранения хранит не только документы, но и уникальные идентификаторы в виде каталогов. При поступлении документа, документ о другой связи поступает в подсистему обработки. В задачах этой подсистеме является, формирование для каждого документа поискового образа. В него заносится информация, необходимая для последовательного поиска данных. Поисковый образ документа сохраняется в индексе. Логический индекс представляет собой таблицу, строки которой соответствуют документам.

Информационный признак 1

Информационный признак 2

Информационный признак 3

Документ 1

1

0

1

Документ 2

0

1

0

Документ 3

0

0

0

Таблица состоит из единиц и нулей. Применяют свертку таблицы по строкам или столбцам. Такую форму хранения называют прямой, или инверсной. Индекс представляет собой тоже базу данных, управляемую СУБД. При поступлении на вход документальной базы данных запроса пользователя, он преобразуется в поисковое предписание, и передается в подсистему поиска. Задачей подсистемы поиска является отыскание в индексе поискового образа документа, удовлетворяющего поисковому предписанию с точки зрения критерия смыслового соответствие ( КСС).Если принимается решение о выдачи документа, индексы релевантных документов поступают в подсистему хранения. Подсистема выдает пользователю сами релевантные документы.

3. Проблемы формального представления смыслового содержания текста.

3.1. Недостатки формального языка.

Для машинной обработки документов, естественный язык имеет недостатки: 1. Многообразие средств передачи смысла. Кроме слов ( лексики) в передачи смысла участвуют следующие элементы: 1. Контекст. 2. Смысловое отношение между словами. 3. Текстуальное отношение между словами. 4. Ссылки на слова ранее упоминавшееся в тексте сообщения.

2. Семантическая неоднозначность. Она возникает в результате синонимии и многозначности слов естественного языка. Многозначность характеризует возможность неоднозначного понимания смысла отдельных слов естественного языка. В многозначности выделяют следующие понятия — полисемия. Полисемия — это совпадения названия различных объектов, имеющие какие любо между собой общие свойства или признаки ( команда: воинское подразделение, команда: экипаж судна, команда: спортивная). Омонимия — это совпадение названий различных предметов, не имеющая ничего общего между собой ( коса).

3. Эллипсность. Эллипсы — это пропуски подразумеваемых слов. Информационно-поисковые изменения. Информационно-поисковым языком называется искусственный язык, предназначенный для описания основного смыслового содержания, поступающих в систему сообщений. Информационно-поисковые бывают двух типов: классификационные, дескрипторные. Принципиальная разница между этими типами языков заключена в процедуре построения фраз языка. В классификационных языках, для записи смыслового содержания, используется только отдельные элементы из набора фраз. Например, политика. Политика.Внутренняя Политика.Внутренняя. Региональная. Слова в этом языке называются лексическими единицами. Частным случаем классификационного информационно-поискового языка, является рубликатор, лексическими единицами, которого являются названия тематических рублик.

Дескрипторные информационно-поисковые языке отличаются от классификационных тем, что лексические единицы заранее не связаны ни какими отношениями. Синтаксические конструкции ( предложения или фразы) создаются в этих языках, путем объединения лексических единиц во время представления смыслового содержания документа. Существуют дескрипторные языки с грамматикой и без грамматики. Языки с грамматикой характеризуются наличием жестких правил формирования предложений или фраз. Без грамматики, такие правила отсутствуют. Например: Иванов владеет автомобилем. С грамматикой: Владеть Иванов автомобиль. Без грамматики фраза может строится как угодно.

4. На сегодняшний день наиболее широкое распространение получили дескрипторные языки без грамматики. В операции перевода документа с естественного языка на информационно-поисковый выделяют два этапа: 1. Анализ смыслового содержания текста, с целью выделения из него сведений об объектах, их свойствах и отношениях. 2. Выражение этих сведений на информационно-поисковом языке, и включение этих выражений в поисковый образ документа. Анализ смыслового содержания, как правило сводится к лингвистическому анализу текста. Лингвистический анализ выполняется с целью нормализации слов и словосочетаний. Под нормализацией понимается их приведение к канонической форме. Например, для существительных к именительному падежу, единственному числу. Нормализованные слова и словосочетания называют.. Лингвистический анализ проводится в два этапа: 1. Морфологический анализ. 2. Синтаксический анализ. Целью морфологического анализа является получение основ, со значением грамматической категории, для каждой из его форм. Основа — слово с отсеченным окончанием. Задачей синтаксического анализа является осуществление грамматического разбора предложений, на основе информации заложенной в словаре. Средство синтаксического анализа состоят из базы данных на синтаксическом языке, на стандартных операторах. Обрабатывающих текст на основе этих знаний. Для проведения анализа текста используются высококвалифицированные эксперты. Они же составляют словарь терминов ( тезаурус).

Лекция 2.

1. Процесс проектирования начинается с операции определения информационной потребности. В каждой задачи, которую составляют входные документы. В результате выполнения этой операции, получают перечень документов. Далее выполняется операция, определения периодичности решения задач, и получается список задач, и периодичность их решения. На основании перечня документов, и списка задач, определяется полный список файлов. Проводится их классификация, и получается полный перечень имен файлов, документальной базы данных. На основании полученного списка файлов, а так же постановки задач, и множества форм входных и результатных документов, выполняется операция определение содержания файлов. Здесь формируется состав полей записи файлов. При выполнении этой операции, учитывается ряд основных принципов создания файлов, входящих в множество результатных документов: 1. Алгоритмическая направленность создания информационных файлов. 2. Семантическая (смысловая) и синтаксическая однородность файла. 3. Упорядоченность хранения файлов по индексу. 4. Универсализация файлов.

После определения состава и содержания полей каждого файла, производится определения характеристик файла. В результате получается таблица характеристик файла, которая включает в себя следующие составные элементы: 1. Наименования файла. 2. Длинна логической записи файла. 3. Количество логических записей. 4. Объем файла в байтах. 5. Частота использования файла. 6. Порядок обработки файла( последовательный, выборочный, смешанный). 7. Периодичность обновления файла. 8. Длительность хранения.

Далее осуществляется выбор логической организации файлов, на основе множества способов логической организации и таблицы описания. Затем, выполняется операция — выбор носителей. Она осуществляется для каждого файла. Заканчивается проектирование операцией, которая называется, выбор физической организации файла. В результате получается таблица описания физической организации файла.

2. Автоматическое рубрицирование в настоящее время основывается на двух основных подходах: 1. Рубрицирование, основанное на знаниях. 2. Рубрицирование, основанное на обучении на примерах.

2.1. Методы автоматического рубрицирования, основанные на знаниях.

В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются: 1. Языковые выражения, соответствующие той или иной рублики. 2. Правила выбора между рубликами. Процесс создания подобных систем аналогичен разработке экспертных систем для классификации. Базы знаний строятся на двух основных моделях представления знаний: 1. Модель семантической сети. 2. Продукционная модель. При использовании модели семантической сети, знания о предметной области описываются в специального вида тезаурусе, который связывается с одним или более рубликаторами системой отношений. Тезаурус — это иерархическая сеть понятий и отношений между ними. Кроме тезауруса в комплекс знаний могут входить дополнительные базы данных ( географическая база данных, содержащая описание объектов, база данных организации, база данных персонала). Тезаурусы базы данных имеют одну и ту же структуру, и состоят из следующих частей: 1. Дескрипторов, которые соответствуют понятиям или конкретным объектам. Обычно дескриптором является существительное, или именная группа. 2. Каждый дескриптор имеет совокупность текстовых входов, или синонимов. Одно слово может быть синонимов нескольких дескрипторов. 3. Отношения между дескрипторами внутри каждой базы данных, например, более широкие термины, более узкие термины 4. Отношения между дескрипторами различных баз данных. Здесь добавляется отношение равенства терминов. В случае, когда разные базы данных содержат дескрипторы одному и тому же понятию, или объекту.

Суть процесса рублицирования, в рамках подхода основанного на знаниях, в частности семантической сети, состоит в выделении из текста опорных дескрипторов, и отношений между ними, с последующим сопоставлением их, с описанием рублик.

Достоинства: использование данной технологии позволяет классифицировать различные типы текстовой информации, быстро настраиваться на различные рубликаторы.

Недостаток: тезаурус требует больших трудозатрат для своей разработки ( от нескольких месяцев до нескольких лет). Кроме того, формирование тезауруса производится под определенную предметную область. Это делает невозможным использование одного тезауруса при классификации текстов из различных предметных областей.

Основа методов, проскальзывающих продукционную модель, составляет выделение из текста понятий, заранее описанных экспертом. Понятия описываются экспертом при помощи особой конструкции — определения понятия. Определение понятия — это словесное выражение, записанное на специальном языке, позволяющим объединять слова и фразы при помощи стандартных булевых функций. При использовании этого подхода, процесс рублицирования разбивается на два этапа: 1. Выделение понятий из текста. Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющее понятие, относительно данного текста.

Текст

I

II

Рублика

Правила рублицирования

Принятие решений

Словарь понятий

Определение понятий

Понятия

Продукционное правило — это правила вида, «если А, то В». Левая часть посылка — правое заключение. На втором этапе принимается решение об отнесении документа к конкретной рублике. На вход поступают понятия. По правилам, находящимся в базе правил, документ относится к той или иной рублики.

Разработка базы правил представляет собой очень трудоемкий процесс, требующий привлечение высококвалифицированных специалистов. База правил составляется на основании большого массива уже отрублицированных документов, где для каждой из рублик, выявляются статистические закономерности основанные на частоте встречаемости слов и фраз в тексте.

Достоинства: высокое качество рублицирования и высокое быстродействие.

Недостатки: высокая трудоемкость и значительные затраты на создание базы правил, жесткая привязка к конкретной предметной области. Большинство систем основанных на знаниях требуют значительных затрат — временных и финансовых. Поэтому требуются более дешевые системы.

2.2. Системы автоматического рублицирования основанного на примерах.

Здесь выделяются следующие два метода: 1. Статистические методы. 2. Нейросетевые методы. Идея статистического рублицирования состоит в определении степени соответствия терминологического образа документа и терминологического образа рублик на основе статистических характеристик их сравнения. Под терминологическим образом документа понимается совокупность наиболее важных терминов, содержащихся в тексте документа. В качестве показателя важности термина чаще всего используется частота его встречаемости в тексте. Под терминологическим образом рублики понимается набор наиболее характерной для этой рублики терминов, с их весами. Семантика рублики задается однозначно её терминологическим образом. Поэтому, терминологический образ можно рассматривать как частный случай тезауруса. Построение терминологического образа рублики осуществляется экспертом, с помощью обучающей выборки для каждой рублики.

Достоинства: простота определения семантики рублики. Универсальность подхода. Высокое быстродействие.

Недостатки: низкое качество рублицирования ( по сравнению с 2.1).

Основой нейросетевых методов является использование нейронной сети, в качестве обучаемого классификатора. Для этого необходимо иметь подводку примеров текстов, каждый из которых имеет оценку релевантности, или не релевантности определенной рублики. При обучении задача учителя состоит в том, как нейронная сеть определяет степень релевантности нового текста, рассматриваемой рублики.

Достоинства: высокое быстродействие.

Недостатки: непонято как работает нейросеть. Очень длительное время на обучение.

Лекция 3.

Вопросы:

  • Модели поиска текстовой информации.

  • Оценка качества документальных баз данных.

1. Модель поиска текстовой информации, характеризуется 4-мя параметрами: 1. Представление документов и запросов. 2. Критерием смыслового соответствия. 3. Методами ранжирования результатов запроса. 4. Механизмами обратной связи, обеспечивающими оценку релевантности пользователя. Рассмотрим наиболее распространенные модели поиска, с позиции первых трех параметров.

1. Булева модель. Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии терминов в документе, соответствующая переменная принимает значение «истина», присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как в произвольным булевом выражении, связывающие термины с помощью стандартных логических операций AND ,OR, NOT. Мерой соответствия запроса документа служит значение статуса выборки. В булевой модели, это значение может принимать величину 1 или 0. Все документы, со значением равным 1, считаются релевантными запросами.

Достоинства: модель проста в реализации, она позволяет пользователю вводить в свои запросы произвольные сложные выражения.

Недостатки: эффективность поиска не высокая. Ранжировать результаты поиска не возможно, т. к. все документы имеют значения статуса выборки, равное 1, поэтому результаты поиска сильно зашумлены.

2. Модель нечетких множеств. Эта модель основывается на теории нечетких множеств, допускающие, в отличии от обычной теории множеств, частичную принадлежность элемента к тому или иному множеству. В этой модели логические операции переопределены таким образом, что бы учесть возможность неполной принадлежности к множеству. Обработка запросов пользователя выполняется аналогично в булевой модели, т. е. используются значения статуса выборки. Использование данной модели в информационно-поисковых системах, показывает, что они так же не могут классифицировать полученные результаты, как и базирующейся на булевой модели. Вместе с тем булева модель, и модель нечетких множеств получили широкое распространение. Причиной тому является: 1. Они требуют меньшего объема вычислений, чем другие модели ( при индексировании и оценки соответствия документов запроса). 2. Они менее сложны алгоритмически, поэтому не предъявляют высоких требований к вычислительным ресурсам.

8

7

6

5

4

3

2

1

3. Пространственно-векторная модель. Данная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемым базисом из n-нормализованных векторов терминов.

Запрос пользователя так же представляется n-мерным вектором. Показатель значения статуса выборки, определяющий соответствие документов запросам, задается скалярным произведением векторов запроса и документа. Чем больше значения статуса выборки, тем больше релевантность документа запроса.

Достоинства: позволяет легко реализовать обратную связь, для обратного доступа пользователя.

Недостаток: требуется высокая спецификация запроса.

4. Вероятностная модель. В пространственно-векторной модели подразумевается, что векторы терминов ортогональны, и существующие взаимосвязи между терминами не должны приниматься во внимание. Вероятностная модель учитывает взаимозависимости и связи терминов, а так же определяет такие основные параметры как веса терминов запросов, и форма соответствия запрос—документ. Поэтому, данная модель базируется на двух главных параметрах: вероятности релевантности Р(r) и вероятности не релевантности Р(nr) документов запросу пользователя. Эти вероятности вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Подразумевается, что релевантность является бинарным свойством, поэтому Р(r)= 1 – P(nr). Кроме того, в этой модели применяется два весовых параметра ar и arn. ar характеризует потери включенные в результат не релевантного документа, arn - потери связанные с пропуском релевантного документа.

Достоинства: модель объясняет процесс поиска и имеет теоретическое обоснование определения весов терминов.

Недостатки: данная модель требует определения вероятности вхождения термина в релевантные и не релевантные документы, а оценить их довольно сложно.

Методы введения обратной связи с пользователем.

В отличии от фактографических баз данных, документально нет четкого представления документов и пользовательских запросов. Пользователи обычно начинают поиск с неточного и неполного запроса, постепенно уточняя его методом итерации. Следовательно, система должна поддерживать обратную связь с пользователем, позволяя тем самым оценивать релевантность документов, найденных по первоначальному запросу. Существуют два основных подхода к использованию обратной связи: 1. Модификация запроса. 2. Модификация представления документов. В данном случае, множество документов, считающиеся релевантными, формируют положительную обратную связь, а считающиеся не релевантными — отрицательную. Методы модифицирующие представление запроса влияют только на текущий сеанс, но не как не сказываются на обработке других запросов. Методы основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.

Модификация представления запросов.

Существует три способа повышения эффективности поиска, путем модификации представления запроса: 1. Модификация весов терминов. Этот способ предусматривает корректировку весов терминов в запросе, осуществляемых путем сложения вектора запроса, и векторов получивших положительную оценку, который представляет документ. Исследования показали, что положительная обратная связь более содержательна и эффективна. Поэтому, модификация на основе использования не релевантных документах, как правило, не используется. 2. Метод расширения запросов. Модифицируется исходный запрос, путем добавления к нему новых терминов. Как правило, в документальных базах данных накладывается ограничение на количество терминов в запросе. Наиболее часто, такое ограничение составляет не более 20 терминов. 3. Когда первые два метода не дают адекватных результатов, используют метод расцепления запроса. Если множество документов в базе данных кластеризуемо, то запрос разбивается на подзапросы, таким образом, что бы каждый подзапрос представлял один кластер.

Модификация представления документов.

Модификация, как правило, осуществляется подстройкой векторов документов на основе обратной связи, т. е. осуществляется коррекция весовых коэффициентов векторов, попавших в выборку, с тем, что бы приблизить их к вектору запросов. Ограничение смещения векторов допускается в очень ограниченных пределах, т. к. релевантность оценивается пользователем, а это неизбежно ведет к субъективности оценки.

2. В практически любой реальный реальной документальной БД присущи два основных вида ошибок: 1. Ошибки первого рода, или пропуск, когда в ответ на запрос пользователя база данных не выдает потребителю практически релевантной его запросу документы. 2. Ошибки второго рода ( шум). Выдача потребителю не релевантных документов, которые не отвечают поставленным запросам.

Наличие ошибок первого и второго рода разбивают весь массив документов базы данных по отношении к запросам на 4 подмассива.

Выданы

Не выданы

Релевантные

А

С

Не релевантные

В

D

A – количество выданных релевантных документов.

В — количество выданных не релевантных документов.

С — количество не выданных релевантных документов.

D – количество не выданных не релевантных запросов.

Используя эти массивы, определяют следующие показатели эффективности документальной базы данных. 1. Коэффициент полноты P= a/(a+c) . Он характеризует долю выданных релевантных документов во всем массиве релевантных документов. 2. Коэффициент точности n=a/(a+b). Характеризует долю выданных релевантных документов, во всем массиве выданных документов. 3. Коэффициент шума e=b/(a+b)=1-a. Коэффициент шума характеризует долю выданных не релевантных документов во всем массиве выданных документов. 4. Коэффициент осадка q=b/(b+d). Характеризует долю выданных не релевантных документов, во всем массиве не релевантных документов. 5. Коэффициент специфичности k=d/(b+d). Характеризует долю не выданных не релевантных документов во всем массиве не релевантных документов.

Часто для удобства, перечисленные показатели измеряют в процентах, т. е. в указанных формулах появляется сомножитель 100%. При оценки качества реальных документальных баз данных, при тестировании используют лишь коэффициенты полноты и точности. Вместе с тем, точность и полнота поиска зависит не только от базы данных, но и от правильности построения конкретного запроса, а так же от субъективно представления пользователя, какая информация ему нужна. Поэтому, можно получить только средние значения оценок полноты и точности, протестировав её на эталонной базе документов. Наилучшие системы имеют коэффициенты полноты и точности 80%. Попытки улучшить один из этих параметров приводят к ухудшению другого. Кроме указанных показателей существуют и другие: 1. Быстродействие — это интервал времени, между моментом формулировки запроса и получением ответа на него. 2. Пропускная способность. Оценивается количеством вводимых документов, и количеством ответов в единицу времени, при заданных значениях полноты и точности. 3. Надежность работы. Оценивается вероятностью, что система будет выполнять свои функции при заданных условиях, в течении требуемой времени. 4. Тип запросов, обслуживаемых системой.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]