Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
уч.пособие ИТ в проф.деятельности (2семестр).docx
Скачиваний:
3
Добавлен:
01.04.2025
Размер:
1.01 Mб
Скачать

2. Аналитическая обработка информации

2.1. Базы данных и хранилища данных

Часто в речи мы подменяет слово «информация» словом «данные». Между данными и информацией действительно существует тесная связь. Существование одного без другого невозможно.

Преобразование «информация – данные»

Слово «данные» происходит от слова data - факт, а «информация» от слова informatio - означает разъяснение, изложение, сведения.

Данные - это совокупность сведений, зафиксированных на каком-либо носителе в форме, пригодной для постоянного хранения, передачи и обработки. Данные являются основой информации, это «сырые данные» - слова, цифры, символы. Преобразование и обработка данных позволяет получить информацию.

Данные измерить нельзя, а информацию можно. Как только мы начинаем измерять данные, начинается процесс их обработки, т.е. данные становятся информацией. А когда возникает необходимость применить эту информацию для какого-то другого процесса, то эта информация в свою очередь  становится данными, из которых будет получена новая информация. Т.е. информация также может стать данными.

Информация - это результат преобразования и анализа данных. Отличие информации от данных состоит в том, что данные - это фиксированные сведения о событиях и явлениях, которые хранятся на определенных носителях, а информация появляется в результате обработки данных при решении конкретных задач. Например, в базах данных хранятся различные данные, а по определенному запросу система управления базой данных выдает требуемую информацию.

Существуют и другие определения информации. Информация – сведения, передаваемые одними людьми другим людям устным, письменным или другим способом, а также сам процесс передачи или получения таких сведений.

Конечной стадией преобразования информации, прошедшей многократную обработку  в течение некоторого периода времени, являются знания.

Знания – это зафиксированная и проверенная практикой обработанная информация, которая использовалась и может многократно использоваться для принятия решений. Знания – это вид информации, которая хранится в базе знаний и отображает знания специалиста в конкретной предметной области. Знания сотрудников организации – это интеллектуальный капитал целой организации.

Формальные знания могут быть в виде документов (стандартов, нормативов), регламентирующих принятие решений или  учебников, инструкций с описанием решения задач. Неформальные знания – это знания и опыт специалистов в определенной предметной области.

Знания = факты + убеждения + правила

Принятия решений осуществляются на основе полученной информации и имеющихся знаний. Принятие решений – это выбор наилучшего варианта решения из множества допустимых на основании имеющейся информации. Взаимосвязь данных, информации и знаний в процессе принятия решений представлена на рисунке 6.

Рис. 6 Взаимосвязь данных, информации и знаний

Для решения поставленной задачи фиксированные данные обрабатываются на основании имеющихся знаний, далее полученная информация анализируется с помощью имеющихся знаний. На основании анализа, предлагаются все допустимые решения, а в результате выбора принимается одно наилучшее в некотором смысле решение. Результаты решения пополняют знания.

База данных — совокупность логически связанных данных, хранимая особым образом и предназначенная для удовлетворения информационных потребностей организации. Локальные базы данных содержат огромное количество информации, абсолютно не нужной для анализа (адреса, почтовые индексы, идентификаторы записей и др.).

База Данных (БД) — структурированный организованный набор данных, описывающих характеристики каких-либо систем.

Системы Управления Базами Данных (СУБД) — программное обеспечение, предназначенное для организации и ведения базы данных. Для обращения к информации, содержащейся в БД используют системы управления БД (СУБД), которые с помощью специальных языков запросов (например, SQL) могут работать с информацией.

Началом любого анализа является получение исходной информации. Эксперт выдвигает гипотезы и отбирает факторы, влияющие на анализируемый процесс. Простейшая организация хранения информации в организации представлена на рисунке 7.

Рис. 7 Организация хранения данных в организации

Характерной чертой такой архитектуры является то, что анализ осуществляется с использованием данных из оперативных систем.

Преимущества:

  • Быстрое внедрение любых систем за счет отсутствия этапа перегрузки данных в промежуточные устройств и систем.

  • Минимальные затраты на внедрение систем.

Недостатки:

  • Источники данных разрознены, объединить их нельзя.

  • Затраты на хранение данных все время растут.

  • Оперативные системы характеризуются очень низким качеством данных с точки зрения их роли в поддержке принятия стратегических решений.

  • Большая нагрузка на оперативную систему. Сложные запросы могут привести к остановке работы системы.

На предприятиях в качестве источника информации все чаще стали использовать корпоративное специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию. Хранилище содержит исторические данные, или зависимый от времени набор данных.

В 1991г. Билл Инмон определил хранилища данных как "предметно-ориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений".

Хранилище данных (ХД)DATA WAREHOUSES – это совокупность информационно-технологических и программно-технических средств и методов, обеспечивающих единую среду хранения корпоративных данных, оптимизированных для выполнения аналитических операций. Информационные хранилища предназначены для обработки больших объемов данных в режиме реального времени. Хранилища используют для принятия тактических и стратегических решений. К информационному хранилищу присоединяют программные продукты, основанные на интеллектуальной основе.

Принципы организации и особенности хранилищ данных:

  1. Хранилища данных содержат информацию, собранную из нескольких оперативных баз данных. Данные, описывающие определенные области, объединяют в категории. Т.е. информационные хранилища имеют предметную ориентацию и строятся с учетом предметной ориентации данных.

  2. В Хранилищах данные разделяются еще и по предназначению: отдельно данные, используемые для обработки, отдельно данные, используемые для анализа.

  3. Данные в Хранилище данных поступают из нескольких источников. При хранении они не изменяются, не удаляются, только накапливаются.

  4. Хранилища по размеру значительно больше оперативных баз данных (размер хранилища обычно имеет объем от сотен гигабайт до нескольких терабайт).

  5. Хранилища данных создаются специально для приложений поддержки принятия решений и предоставляют накопленные за определенное время, сводные и консолидированные данные, которые более приемлемы для анализа, чем детальные индивидуальные записи.

  6. Хранилища данных жестко зависят от времени. Они четко привязываются к определенному промежутку времени. Иначе данные не будут достоверными.

  7. Интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем обработки документов, разрозненных баз данных, данные из внешних источников) в едином хранилище данных.

  8. Информационные хранилища представляет собой базу данных с иерархической файловой системой хранения и миграцией данных. Информационные хранилища размещаются на серверах и библиотеках – автоматах.

Двухуровневое хранилище данных (см. рис.8) строится централизованно для предоставления информации в рамках компании. Для поддержки такой архитектуры необходима выделенная команда профессионалов в области хранилищ данных.

Рис. 8 Организация двухуровневого хранилища данных

Такая организация хранения данных требует от компании полного согласования всех процессов обработки и преобразования данных.

Преимущества:

  • Данные хранятся в единственном экземпляре, поэтому отсутствуют проблемы, связанные с синхронизацией нескольких копий данных.

  • Затраты на хранение данных сокращаются.

  • Данные объединяются (консолидируются) на уровне предприятия, что позволяет иметь единую картину бизнеса.

Недостатки:

  • Данные не структурируются для поддержки потребностей отдельных пользователей или групп пользователей.

  • Возможны проблемы с производительностью системы.

  • Возможны трудности с разграничением прав пользователей на доступ к данным.

Расхождения в требованиях к хранению данных в БД и ХД.

В базе данных хранятся только последние значения какой-либо информации (например, текущее значение счета клиента, текущее значение имени и параметров клиента). В хранилище данных будет содержаться не только текущая информация, но и вся историческая, ретроспективная информация с предысторией и уточнениями и обязательно с указанием периода или момента времени, когда те или иные данные были актуальны.

Несмотря на обилие данных, возможностей их сбора и хранения, организации до сих пор испытывают серьезный недостаток в информации, необходимой для принятия решений.

Существующие системы сбора и обработки корпоративных данных в принципе не пригодны для использования в ППР. Данные разнотипны и распределены как внутри организации, так и за ее пределами. Лицам, принимающим решения (ЛПР) и аналитикам приходится принимать решения не только в условиях неполной, но и зачастую недостоверной и противоречивой информации. К тому же не всегда удается получить требуемую информацию во время и в наглядном виде. В результате - неудачные решения.

Почему нельзя использовать традиционные БД в процессе принятия решений?

  • невозможность преобразования в базах данных разнородных данных, так как они часто не имеют меток времени.

  • данные в базах данных подвержены частым изменениям.

  • данные годятся для оперативной обработки, но не для аналитической обработки.

  • трудно понять, где находятся данные, необходимые для анализа и принятия решения;

  • большинство БД ориентировано только на стандартные запросы, для выполнения нестандартных запросов нужно привлекать программистов.

  • низкая производительность при нестандартных запросах.