- •Содержание
- •Тема 1. Общие сведения об информационных системах, теории систем 10
- •Тема 2. Модели как основа теории информационных систем 77
- •Тема 3. Описание динамики информационных систем 98
- •Тема 4. Реляционные основы проектирования информационных систем 136
- •Тема 5. Информационные модели принятия решений 191
- •Тема 6. Проблемы принятия решений в четких и нечетких информационных пространствах 246
- •Введение
- •Тема 1. Общие сведения об информационных системах, теории систем
- •1.1. Понятие системы
- •1.1.1. Основные свойства системы
- •Характеристика основных свойств системы
- •1.1.2. Дескриптивный и конструктивный подходы к определению системы
- •1.1.3. Основные категории системного подхода
- •Классификация категорий системного подхода
- •1.1.4. Основные задачи теории систем
- •Основные задачи и функции системного анализа
- •1.1.5. Логика и методология системного анализа
- •Принципы системного анализа и их характеристика
- •Характеристика основных подходов в системном анализе
- •Методы системного анализа
- •Системные теории, их авторы и характеристика
- •Контрольные вопросы
- •1.2. Понятие информации
- •1.2.1. Количественные методы оценки и характеристики информации
- •Качественные характеристики информации
- •Меры информации
- •1.2.2. Атрибутивный, логико-семантический и прагматический аспекты теории информации
- •1.2.3. Уровни представления информации
- •1.2.4. Стандарты, относящиеся к терминам и определениям понятий на уровнях представления информации
- •Контрольные вопросы
- •1.3. Понятие информационной системы
- •1.3.1. Взаимосвязь информационного процесса, информационной технологии, информационной системы
- •1.3.2. Структура информационной системы
- •1.3.3. Принципы построения информационных систем
- •1.3.4. Классификация информационных систем
- •Общая классификация систем
- •1.3.5. Уровни представления информации в информационных системах
- •Контрольные вопросы
- •Тема 2. Модели как основа теории информационных систем
- •2.1. Качественные и количественные методы описания информационных систем
- •Контрольные вопросы
- •2.2. Кибернетический подход к описанию функциональных преобразований в информационной системе
- •Контрольные вопросы
- •2.3. Метод имитационного моделирования систем
- •Контрольные вопросы
- •Тема 3. Описание динамики информационных систем
- •3.1. Информация как элемент управления
- •Этапы формирования информационного обеспечения
- •Контрольные вопросы
- •3.2. Информационные потоки
- •3.2.1. Используемые виды информационных потоков
- •3.2.2. Принципы построения информационных потоков
- •Контрольные вопросы
- •3.3. Агрегатное описание информационных систем
- •Операторы переходов агрегата
- •Частные случаи агрегата
- •Контрольные вопросы
- •3.4. Математическое и имитационное моделирование динамики сложной информационной системы
- •Преимущества моделирования динамики системы
- •Имитационное моделирование
- •Недостатки моделирования динамики системы
- •Контрольные вопросы
- •3.5. Элементы управления в информационной системе
- •Этапы разработки управления системой
- •Контрольные вопросы
- •Тема 4. Реляционные основы проектирования информационных систем
- •4.1. Концептуальное, инфологическое и физическое моделирование предметной области
- •Модели «сущность-связь» (er-модель)
- •Моделирование локальных представлений
- •Контрольные вопросы
- •4.2. Выделение информативных свойств объектов предметной области Выявление классов объектов и связей
- •Отличия между классом объектов и свойством
- •Связи между классами объектов
- •Правило чтения связи
- •Контрольные вопросы
- •4.3. Общность реляционного подхода при проектировании баз данных
- •4.3.1. Переход от er-модели к схеме реляционной базы данных
- •4.3.2. Нормализация отношений
- •4.3.3. Языки манипулирования реляционными данными
- •4.3.4. Независимость данных
- •4.3.5. Понятие логической и физической целостности данных
- •4.3.6. Способы организации данных
- •Контрольные вопросы
- •Тема 5. Информационные модели принятия решений
- •5.1. Интеллектуализация процесса анализа данных
- •5.1.1. Технология Data Mining
- •5.1.2. Olap – системы оперативной аналитической обработки данных
- •5.1.3. Системы поддержки принятия решений
- •Контрольные вопросы
- •5.2. Этапы проектирования интеллектуальных информационных систем
- •Контрольные вопросы
- •Этапы проектирования интеллектуальных информационных систем.
- •5.3. Общая постановка задачи оптимизации интеллектуальных информационных систем
- •Классификация задач оптимизации
- •Регламентированные и оптимизирующие проектные переменные системы
- •Реконфигурация структуры системы
- •Контрольные вопросы
- •Общая постановка задачи оптимизации интеллектуальных информационных систем.
- •5.4. Перспективы развития информационных систем и технологий для работы с данными в виртуальных корпоративных структурах
- •5.4.1. Основные виды виртуальных корпоративных структур
- •Виртуальный удаленный доступ
- •Виртуальное малое предприятие
- •Виртуальные команды
- •Виртуальные предприятия
- •Виртуальная корпорация
- •Виды виртуальных корпораций
- •Особенности информационного обеспечения виртуальных корпораций
- •5.4.2. Когнитивная графика, гипертекстовая технология, геоинформационные системы Когнитивная графика
- •Задачи когнитивной компьютерной графики
- •Гипертекстовая технология
- •Географические информационные системы
- •Контрольные вопросы
- •Тема 6. Проблемы принятия решений в четких и нечетких информационных пространствах
- •6.1. Основы теории принятия решений
- •Контрольные вопросы
- •6.2. Основные типы метрических пространств
- •6.2.1. Метризация информационных пространств при четкой постановке задачи. Локальные метрики
- •6.2.2. Дивизимные и агломеративные стратегии поиска альтернатив
- •6.2.3. Функции полезности. Минимаксные подходы
- •Контрольные вопросы
- •Функции полезности. Минимаксные подходы.
- •6.3. Решение задачи многоцелевой оптимизации при нечеткой постановке задачи
- •6.3.1. Нечеткие множества и отношения: основные свойства
- •Стандартные функции принадлежности
- •6.3.2. Операции над нечеткими множествами и отношениями
- •Операции над нечеткими множествами и отношениями
- •6.3.3. Формирование нечетких отношений с использованием экспертных знаний
- •6.3.4. Нечеткие и лингвистические переменные. Нечеткие системы Нечеткие и лингвистические переменные
- •Нечеткие системы
- •6.3.5. Формулировка измерительных задач как задач многоцелевой оптимизации в нечеткой среде
- •Контрольные вопросы
- •6.4. Модели представления знаний
- •Продукционные модели
- •Семантические сети
- •Формальные логические модели
- •Контрольные вопросы
- •Заключение
- •Список литературы Основная
- •Дополнительная
- •Терминологический словарь
6.2.2. Дивизимные и агломеративные стратегии поиска альтернатив
В общей (нестрогой) постановке проблема автоматической классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов разбить на сравнительно небольшое число (заранее известное или нет) однородных, в определенном смысле, групп или классов таким образом, чтобы объекты, принадлежащие одному классу, находились бы на сравнительно небольших расстояниях друг от друга в пространстве признаков, которыми описываются эти объекты. Предполагается, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность. Полученные в результате разбиения классы часто называют кластерами (таксонами, образами), а методы их нахождения соответственно кластерным анализом (распознаванием образов с самообучением).
Кластерный анализ – это многомерная статистическая процедура, упорядочивающая исходные данные (объекты) в сравнительно однородные группы. Особенностью кластерного анализа является то, что различия между единицами, входящими в выделенную группу, незначительны, а различия между группами существенны.
Наиболее трудным считается определение однородности объектов. Для этого вводится понятие расстояния d(Xi, Xj) между объектами Xi и Xj. Объекты будут считаться однородными в случае d(Xi, Xj) ≤ dпор, где dпор – заданное пороговое значение, определяемое в каждом конкретном случае по-своему.
Выбор метрики (меры близости) d является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения. В задачах кластерного анализа часто используют обычное евклидово расстояние. Существуют и другие способы определения расстояния в признаковом пространстве, например, хеммингово расстояние, которое используется как мера различия объектов, задаваемых дихотомическими признаками; квадрат евклидова расстояния; расстояние городских кварталов (манхэттенское расстояние); расстояние Чебышева; расстояние Махаланобиса; степенное расстояние; процент несогласия; пиковое расстояние. Выбор метрики-расстояния определяется структурой признакового пространства и целью классификации.
При использовании процедур кластерного анализа расчленение объектов совокупности на качественно однородные группы производится одновременно по большому числу признаков, но при соблюдении условия, что ни один признак не выделяется по своей значимости так, что группировка на его основе является главной.
Другой важной величиной в кластерном анализе является расстояние между целыми группами объектов. Используются такие подходы: расстояние, измеряемое по принципу «ближайшего соседа» (расстояние между ближайшими объектами кластеров); расстояние, измеряемое по принципу «дальнего соседа» (расстояние между самыми дальними объектами кластеров); расстояние, измеряемое по «центрам тяжести» кластеров (расстояние между средними арифметическими векторных наблюдений, входящих в кластеры).
Выбор той или иной меры расстояния между кластерами влияет, главным образом, на вид выделяемых алгоритмами кластерного анализа геометрических группировок объектов в пространстве признаков. Так, алгоритмы, основанные на расстоянии «ближайшего соседа», хорошо работают в случае группировок, имеющих сложную, в частности, цепочечную структуру. Расстояние «дальнего соседа» применяется, когда искомые группировки образуют в пространстве признаков шаровидные облака. И промежуточное место занимают алгоритмы, использующие расстояния «центров тяжести» и средней связи, которые лучше всего работают в случае группировок эллипсоидной формы.
Классификационные процедуры иерархического типа основаны на последовательном объединении кластеров (агломеративные процедуры) и на последовательном разбиении (дивизимные процедуры). Наибольшее распространение получили агломеративные процедуры. Эти алгоритмы отличаются друг от друга лишь способом вычисления расстояния между классами. Агломеративный алгоритм выполняется таким образом. На первом шаге все объекты считаются отдельными кластерами. Затем на каждом последующем шаге два ближайших кластера объединяются в один. Каждое объединение уменьшает число кластеров на один так, что в результате все объекты объединяются в один кластер. Момент остановки этого процесса может задаваться указанием либо требуемого числа кластеров, либо максимального расстояния, при котором допустимо объединение. Наиболее подходящее разбиение выбирает чаще всего сам исследователь, которому предоставляется дендрограмма, отображающая результаты группирования объектов на всех шагах алгоритма. Для большого числа объектов разбиения такая визуализация классификации является единственным способом получить представление об общей конфигурации объектов.
Иерархические процедуры позволяют проследить процесс выделения группировок и иллюстрируют соподчиненность кластеров, образующихся на разных шагах какого-либо агломеративного или дивизимного алгоритма.
Выполнение кластерного анализа позволяет сгруппировать объекты в отдельные группы, а затем дать экспертную оценку этим группам.
Анализ геометрической структуры данных является творческой задачей, не имеющей штампов. Осмысление выделенных группировок на различных шагах работы того или иного дивизимного или агломеративного алгоритма дает возможность получить ответы на вопросы, что общего и в чем различаются группировки объектов. Это в свою очередь способствует построению системы понятий, определению метапонятий и установлению между ними семантических отношений, то есть проведению концептуального анализа знаний.
Использование методов проецирования данных на плоскость или в трехмерные объемы латентных переменных, полученных методами многомерного шкалирования, позволяет увидеть закономерности структуры множества эмпирических фактов с оптимизированными описаниями.
С одной стороны, увиденные закономерности могут составить основу для минимизации базы знаний, представленных в экстенсиональной форме (например, для определения композиции диагностических прецедентов минимального объема). С другой – выявленные закономерности способствуют разработке тех или иных интенсиональных правил вывода на знаниях.
Имеется еще одна ценная возможность использования визуальных отображений полученных геометрических структур данных. Ее предоставляют средства современной интерактивной графики, которые позволяют обосновывать принятие решения о принадлежности неизвестного объекта какому-либо классу эквивалентности, получая ответы на вопросы типа: «Что общего у данного объекта с другим объектом или группой объектов (например, визуально ближайших или наоборот удаленных) с известной классификацией?», «Чем отличается данный объект от другого объекта или группы объектов с известной классификацией?» и т.п.
Ответы даются в виде пересечения описания неизвестного объекта с описаниями объектов, которые оптимизированы привязкой контекстно-зависимых локальных метрик. Совокупность таких ответов, индивидуальных для каждого нового случая, обладает полиморфностью, свойственной нашему языку при описании явлений со сложной системной организацией, и обеспечивает объяснение принятых решений посредством аргументации.
Здесь нет дерева логического вывода. Ответы воспринимаются параллельно. Они как бы бросаются на чашу весов, и их множество может расширяться до довольно больших величин (в зависимости от количества привлекаемых для аргументации объектов и сочетаний объектов).