- •Предисловие
- •Методические материалы
- •Рабочая программа по учебной дисциплине
- •Пояснительная записка
- •Содержание дисциплины
- •Рекомендации по самостоятельной работе обучающегося
- •Календарно-тематический план
- •Теоретические материалы
- •1.3. Информационные связи в корпоративных системах
- •1.4. Формирование управленческих решений с помощью информационных технологий
- •Резюме
- •2.1. Проектирование информационных технологий в управлении
- •2.4. Модели формирования управленческих решений
- •2.5. Организация создания ИС и ИТ
- •2.6. Роль пользователя в создании информационных технологий
- •2.7. Постановка управленческих задач
- •Резюме
- •3.1. Техническое обеспечение ИТ управления организацией
- •3.2. Программные средства ИС управления организацией
- •3.3. Программное обеспечение АРМ
- •Резюме
- •4.1. Понятие информационного обеспечения
- •4.2. Информационное обеспечение управления
- •4.3. Компьютерное информационное обеспечение
- •Резюме
- •5.1. Понятие автоматизированных поисковых систем и их особенности
- •5.2. Виды документальных информационных систем
- •5.3. Информационно-поисковые языки
- •5.4. Системы индексирования
- •5.5. Структура работы поисковых систем
- •Резюме
- •6.2. Классификация систем управления электронными документами
- •Резюме
- •7.1. Форматы текстовых документов
- •7.2. Классификация систем подготовки текстовых документов
- •7.3. Стили и шаблоны
- •7.5. Автоматизация рассылки документов: слияние
- •Резюме
- •8.1. Концепция электронных таблиц
- •8.2. Обработка списков в Microsoft Excel
- •Резюме
- •9.2. Режимы функционирования информационных технологий
- •9.3. Интегрированные информационные технологии
- •9.4. Автоматизированные технологии формирования управленческих решений
- •9.5. Последовательность действий менеджеров при принятии решения о внедрении автоматизированной информационной системы
- •Резюме
- •10.2 Гипертекстовые технологии
- •10.3. Основы языка гипертекстовой разметки HTML
- •Резюме
- •11.1. Введение в СУБД
- •11.2. Основные понятия баз данных
- •11.3. Система управления базами данных Microsoft Access
- •11.4. Таблицы MS Access
- •11.5. Запросы в MS Access
- •11.6. Формы в MS Access
- •11.7. Отчеты в MS Access
- •Резюме
- •Тема 12. Информационные технологии
- •12.2. Роль ИТ на различных этапах управления персоналом
- •12.3. Управление стоимостью рабочей силы и ИТ
- •Резюме
- •13.1 Информационные технологии в государственном управлении
- •13.2. Территориальная информационная система управления
- •13.3 Информационные технологии в муниципальном управлении
- •13.4. Государственные информационные ресурсы в Интернете
- •13.5. Экономическая эффективность территориальных ИС управления
- •Резюме
- •Заключение
- •Практикум
ние слов по написанию или звучанию и несовпадение по смыслу. Синонимия — это совпадение слов по значению и несовпадение по написанию.
Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнениясмысла документаили запроса,помимо ключевыхслов, ча - сто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.
По способу организации понятий различают следующие ИПЯ: предкоординируемые (классификационные) ИПЯ; посткоординируе - мые (дескрипторные) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Сло - варный состав задается в виде фиксированного списка слов, словосо - четаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов.
К классификационным языкам относят: информационно–поис- ковый язык иерархического типа; информационно–поисковый язык фасетного типа; алфавитно–предметную классификацию.
Основными показателями эффективности функционирования ДИС являются полнота и точность. Полнота информационного по- иска R определяется отношением числа найденных релевантных до- кументов к общему числу релевантных документов, имеющихся в системе. Точность информационного поиска определяется отноше- нием числа найденных релевантных документов к общему числу документов, выданных на запрос пользователя.
Наличие среди отобранных на запрос пользователя нерелевант- ных документов называется информационным шумом системы.
5.3. Информационно-поисковые языки
Информационно–поисковые каталоги, основанные на классифи- кации сведений по определенной предметной области, были первы- ми системами информационного поиска документов.
86
SaveStud.Su
Первоначальные подходы к классификации тематики докумен- тов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубри- ка получала определенный цифровой или буквенно–цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.
Особенностью систем перечислительной классификации являет- ся возможность индексирования документов любым количеством ру- брик, отражающих содержание документа. Для осуществления поис- ка необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранили- ща те документы, которые проиндексированы соответствующими ко- дами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечис- лительной классификации.
При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде переверну- того дерева. Вся предметная область разбивается на ряд взаимои- сключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы Предметной области, выражаемые в родови- довых отношениях основных категорий, понятий и классов.
Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерар- хической классификации позволяют более адекватно отражать со- держание документов и обеспечивают большую точность поиска.
Перечислительный и иерархический подходы к классификации используются в алфавитно–предметных каталогах библиотек. Недо- статком перечислительной и иерархической классификаций является принципиальная невозможность заранее перечислить все возможные темы документов. Фасетная классификация не связана подобными ограничениями — идея этой классификации состоит в том, что вся предметная область разбивается на ряд исходных рубрик (фасет) по семантическому принципу, отражающему специфику предметной
87
SaveStud.Su
области. Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочи- ваются по алфавитно–иерархическому принципу. Основное достоин- ство фасетной классификации заключается в возможности отразить большое количество специализированных рубрик и тем самым наи- более точно и полно проиндексировать содержание документов.
Воснове построения дескрипторных ИПЯ лежит принцип ко- ординатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые пол- нозначные слова — существительные, прилагательные, глаголы, на- речия, числительные, местоимения.
Вкачестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Дескриптор— по- нятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Разработка дескрипторного языка фактически сводится к разработке информационно–поискового те- зауруса (ИПТ) или словаря-справочника.
Обобщенная структура ИПТ включает как минимум три состав- ляющих: словарную часть, семантическую карту, руководство по ис- пользованию. Словарная часть — алфавитный список дескрипторов
сих словарными статьями. Семантическая карта — система тема- тических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, прави- ла лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.
Отличием информационно–поисковых тезаурусов от информа- ционно–поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификаци- онной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.
Главная идея информационно–поисковых тезаурусов заключает- ся в повышении эффективности индексирования документов в рам- ках дескриптивного подхода.
88
SaveStud.Su
Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие те- заурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами.
5.4. Системы индексирования
Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с за- данным набором словарей лексических единиц и с правилами при- менения.
По степени автоматизации процесса индексирования выделяют системы ручного индексирования, автоматического индексирования, автоматизированного индексирования. По степени контролируемо- сти различают системы без словаря, с жестким словарем, со свобод- ным словарем. По характеру алгоритма отбора слов текста выделяют следующие системы: с последовательным просмотром текста (отби- раются все полнозначные слова); с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре): со статистическими процедурами выбора слов (отбира- ются только информативные слова в соответствии с распределением частот их употребления). По характеру лексикографического контро- ля различают системы без лексикографического контроля, с полным
контролем, с промежуточным контролем. |
|
Лексикографическийконтроль предусматриваетустранение сино |
- |
нимии,полисемиии омонимиина основенормативныхсловарейлекси |
- |
ческих единиц с парадигматическимиотношениямимежду ними; нор |
- |
мализацию слов на основе морфологических нормативных словарей. |
|
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и приме- няется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представ- ляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс
89
SaveStud.Su
заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
Процесс компьютеризации деятельности привел к накоплению большого объема неструктурированной текстовой информации. Воз- никла потребность в программном обеспечении, реализующем эф- фективный поиск информации. Информационно–поисковые катало- ги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой автоматизации. Потребовались средства, которые бы максимально освобождали пользователя от необходимо- сти сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий. В результате на рынке про- граммных продуктов появились полнотекстовые ИС.
Информационно–технологическая структура полнотекстовых ИС включает: хранилище документов; глобальный словарь системы; ин- вертированный индекс документов; интерфейс ввода документов в систему; механизм индексирования; интерфейс запросов пользовате- ля; механизм поиска документов; механизм извлечения найденных документов.
Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специ- ального файла с текстами документов.
Глобальный словарь системы может быть статическим и дина- мическим. Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище. Динамические словари определяются набором словоформ, имеющихся в докумен- тах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.
Поступающие через интерфейс ввода–вывода документы под- вергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью -ав томатизирован и заключается в создании специального двоично- го вектора, компоненты которого показывают наличие или отсут- ствие в данном документе слова с соответствующим номером из глобального словаря.
Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм по-
90
SaveStud.Su
иска основывается на алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема па основе установ- ленных в хранилище указательных конструкций извлекает и достав- ляет соответствующие документы пользователю.
Основными параметрами, позволяющими определить качество содержания информационной базы, являются полнота информации,
еедостоверность, оперативность обновления информации. Параметры, характеризующие качество программной оболочки:
поисковые возможности системы, средства актуализации информа- ции, дополнительные сервисные функции.
Оценка полноты, достоверности и оперативности обновления ин- формации основывается на количественных показателях. Оценка же качества обработки поступающих в информационный банк докумен- тов достаточно субъективна.
Без обработки автоматизированная информационная система яв- ляется всего лишь электронным аналогом бумажных изданий.
Доступ пользователя к информации, хранящейся в автоматизи- рованной информационной системе, может осуществляться двумя способами: работа с удаленной базой, работа с локальной базой.
При работе с удаленной базой пользователю нет необходимо- сти хранить на своем компьютере данные системы, они хранятся на сервере разработчика и доступны через сеть. Большинство ин- формационных систем имеют версии, доступные через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным.
Однако для работы с удаленной базой пользователю необходим доступ к Интернету или к другой сети. Зачастую скорость пере- дачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступ- на в любой момент. Недостатком этого варианта по сравнению с предыдущим является более продолжительный период актуализа- ции информации.
91
SaveStud.Su
