Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекция 1_вводная.doc
Скачиваний:
29
Добавлен:
11.06.2015
Размер:
372.22 Кб
Скачать

HandyDrive – внешний винчестер - комплект для быстрого копирования и переноса больших объёмов информации.

CD-R диски имеют высокую емкость и относительно высокую надёжность по сравнению с дискетами.

Иерархия устройств и систем хранения данных. Для решения проблем хранения данных необходимо [10]:

  • организовать недорогой и при этом надежный массив хранения с кросс-платформенным доступом и возможностью масштабируемости по мере роста объема данных;

  • организовать эффективное резервирование данных;

  • обеспечить территориальную распределенность массива хранения и его копий;

  • организовать глобальный, защищенный доступ к БД;

  • синхронизировать существующие БД.

Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это - жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения.

Данные появляются и попадают в систему хранения на транзакционных дисках. Затем они переходят на промежуточные архивные диски, чтобы потом перекочевать на ленты. Это — трехуровневая система хранения. Однако между лентами и дисками может располагаться еще один уровень — уровень виртуальных ленточных библиотек, и тогда система будет четырехуровневой.

Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа.

Файлы с высокопроизводительных дисков автоматически переносятся на другой, более дешевый носитель в соответствии с заранее определенными критериями (правилами), к которым относятся, например, возраст файла, дата создания, размер или тип файла. После успешной миграции остается лишь один метафайл, содержащий ссылку на новое месторасположение данных. В большинстве случаев речь идет о магнитных лентах или жестких дисках.

В системах массового хранения данных используют носители на несколько порядков более медленные, чем на вторичном, но зато гораздо более емкие. Это накопители типа стоек с компакт-дисками или магнитными лентами, где для установки нужной кассеты или ленты используется механическая рука. В сущности, доступ к этой памяти осуществляется путем буферизации выбранных элементов данных на вторичных носителях, подобно тому, как доступ к вторичной памяти осуществляется путем буферизации дисковых блоков в оперативной памяти. Здесь приходится учитывать не только то, что скорость считывания данных с ленты (секунды) на три порядка ниже, чем с диска (миллисекунды), но и то, что нахождение нужных данных в середине кассеты может увеличить время доступа еще на 1-2 порядка.

Восстановление данных после крупной катастрофы должно происходить быстро и автоматически. Хотя у части компаний есть системы восстановления данных, время от времени они их тестируют, очень часто случается, что в нужную минуту эти системы оказываются неспособны действовать в соответствии с намеченным планом. Процедура восстановления данных в большинстве случаев сложна. Известно, что предприятия, на долгое время выведенные из строя в результате краха инфраструктуры ИТ, шансы на выживание невысоки, так что ответственность здесь очень велика. Предприятия, чьи ИТ-инфраструктуры оказываются выведенными из строя на десять и более дней в результате катастрофы, ожидает банкротство не позже, чем через год после бедствия.

В большинстве организаций резервные копии данных создаются, но нет аналогичной защиты для приложений, сетевых ресурсов, облачных сервисов и всего прочего, что связано с резервируемыми данными. Надо иметь полноценный, настоящий план восстановления данных. Восстановление данных требуется в следующих случаях:

  • длительное отключение электроснабжения (приходится восстанавливать репликацию данных, пополнение ресурсов, др.);

  • отказ отдельного сервера (или даже целой серверной стойки);

  • сбои в различных приложениях;

  • человеческие ошибки, связанные либо с обеспечением электропитания, либо собственно с объектами ИТ.

Основные принципы восстановления данных:

  • создавайте регулярные копии дисковых данных;

  • проводите репликацию данных на основе удаленного хранилища;

  • создайте запасной удаленный центр, имеющий зеркальное отображение основных серверов;

  • регулярно проводите тестирование средств восстановления данных.

ИКТ-инфраструктура платежной системы ЦБ РФ имеет восьмикратное резервирование всех компонентов. На самом верхнем уровне оно обеспечивается двумя Коллективными центрами обработки информации, расположенными в Санкт-Петербурге и Нижнем Новгороде, которые способны обеспечить восстановление работоспособности системы после крупномасштабных катастроф. Наряду с выполнением в каждом центре операций платежной системы между ними раз в сутки осуществляется полная взаимная репликация данных. Кроме того, оба центра помимо основной площадки имеют в своем составе удаленный на десятки километров резервный дата-центр, полностью идентичный по набору оборудования и программного обеспечения с основным. Штат резервного дата-центра составляет примерно 10% от численности сотрудников основного: предполагается, что при переключении нагрузки на резервный центр нужные специалисты будут перемещены туда с основной площадки. На самом нижнем уровне резервирование обеспечивается дублированием всего оборудования.

Для повышения скорости обработки крупных БД необходимо применять кластерные системы повышенной надежности. Основная задача системы повышенной надежности - обеспечение бесперебойной и надежной работы вычислительного комплекса и всех решаемых им задач. Общие характеристики системы надежности:

  • единая система, действующая, как одно целое;

  • обеспечение высокой надежности;

  • централизованное управление всеми ресурсами;

  • общая файловая система;

  • обеспечение гибкости конфигурации;

  • обеспечение легкости в наращивании ресурсов.

Основные функции систем хранения данных:

  • организация системы резервирования с использованием специализированного программного обеспечения

  • автоматическое управление библиотекой

  • возможность классификации на группы по типам данных и критичности данных

  • возможность применения плана резервирования для поддержки уровня надежности и релевантности данных

  • возможность вручную осуществить восстановление или резервирование данных

Общий уровень управления обеспечивает также снижение расходов за счет устранения излишнего копирования данных, более эффективного использования устройств и решения проблем поддержки оборудования разных производителей. Автоматизированная миграция редко используемых данных на более дешевые носители повышает эффективность загрузки корпоративных ресурсов хранения и устраняет необходимость приобретения дополнительного оборудования.

Таблица 2 – Характеристики средств копирования данных

Метод

Носитель

Процент использования

Использование сжатия данных

Преимущества

Полное резервное копирование

Магнитная лента

100

Да

Простота

Выборочное резервное копирование

Магнитная лента

Меньше 100

Да

Экономия времени

Зеркалирование

Диск

100

Нет

Простота и скорость

Мгновенные снимки

Диск

Часть данных

Нет

Очень высокая скорость

Постоянное копирование

Диск

Часть данных

Нет

Экономное использование носителя

Технологии ввода данных начинались с непосредственного ввода в ЭВМ, затем были созданы отдельные устройства перфорации, занесения с экрана в персональном варианте (с использованием и без СУБД), через web, с приборов с микропроцнссорами, сканирование бумажных документов - распознавание документов, с голоса. Самые большие изменения в пользовательском интерфейсе связаны с появлением планшетного персонального компьютера, позволяющего рисовать, писать что-то ручкой, словно чернилами, и даже преобразовывать этот рукописный текст в обычный текстовый вид. Имеются также средства преобразования в текст произнесенной речи.

Развитие концепции БД

Формами организации информации являются файлы данных, персональные БД, интегрированные БД, базы пространственных данных для использования в ГИС, распределенные БД.

Эволюцию развития БД - от файлов данных до многомерных БД можно представить в виде следующих этапов:

60-е годы – первые массивы данных на перфокартах;

70-е годы – массивы данных на магнитных лентах;

80-е годы – банки данных, иерархические и сетевые БД;

90-е годы – реляционные БД (сети ЭВМ);

21 век – доступ к БД через web-интерфейс, многомерные БД.

Файловые системы. Недостатком их является недостаточные возможности управления данными, большие затраты труда программистов, дублирование разработок.

БД это множество взаимосвязанных единиц данных, которые могут обрабатываться одной или несколькими прикладными системами. Преимуществами БД являются:

  • наличие метаданных,

  • поддержка целостности БД (все изменения в различных таблицах производятся в соответствии с установленными правилами);

  • одновременный доступ к данным нескольких пользователей;

  • ориентированные на пользователя запросы и отчеты;

  • представление сложных структур информации, когда объектом хранения являются не только данные, но описания структур данных;

  • сокращение дублирования информации;

  • независимость прикладных программ от изменений описаний данных и наоборот;

  • сокращение затрат на обслуживание БД;

  • возможности создания интегрированных баз данных;

  • множество пользователей и прикладных программных приложений;

  • индексация по основным ключам путем автоматической рубрикации;

  • возможности поиска данных по любому логическому выражению (для нескольких атрибутов), полнотекстовый поиск (с учетом близости слов), комбинированный (по словам и атрибутам);

  • экспорт – импорт данных в другие СУБД, ASCII и XML файлы, HTML, PDF, rtf-документы.

Основные компоненты информационной системы (банка данных) включают БД, СУБД, оборудование, организационно - методическое обеспечение. СУБД включает язык описания данных (ЯОД), язык манипулирования данными (ЯМД), одним из наиболее распространенных и стандартизированных вариантов которого является структурированный язык запросов - SQL, резидентный модуль СУБД.

БД по структуре их хранения можно разделить на две части:

  • классические БД в виде таблиц;

  • документальные системы, представляющие метаданные во входных или выходных формах системы в виде "ключевое слово: значение". На этом подходе построен язык JSON.

Базы знаний это системы искусственного интеллекта основанные на правилах. На рис.4 дано отличие в представлении данных (фактов) и знаний.

В простейшем случае информационная система, использующая СУБД, состоит из двух основных компонентов: сервера БД, управляющего данными и выполняющего запросы, самих клиентских приложений, обеспечивающих интерфейс пользователя и посылающих запросы к серверу. Именно сервер БД манипулирует файлами, в которых хранятся данные, выполняет пользовательские запросы, поддерживает ссылочную целостность данных, обеспечивает доступ к ним, осуществляет резервное копирование данных и протоколирует операции, связанные с их изменением.

Результатом работ многих направлений развития вычислительной техники, информатизации, программирования является создание безбумажной технологии использования информации за счет широкого использования Web, e-mail, электронной подписи и различных внешних устройств.

Рисунок 4 - Сравнение представления данных и знаний в ЭВМ

Современные информационные технологии

Главными и наиболее интересными и перспективными подходами при создании и использовании БД являются следующие направления:

  • децентрализация системы создания, хранения, поиска, обработки и распространения данных с широким применением Web-технологий в Интернет, Интранет инфраструктуре,

  • создание баз метаданных,

  • широкое использование методов управления данными,

  • интеграция данных,

  • развитие ГИС, создание СППР, электронных справочных пособий.

Управление данными (на организационном и физическом уровнях). Для эффективного сбора и обработки данных необходимо организовать управление данными на уровнях выполнения научной программы (эксперимента), проекта, центра, а также на физическом уровне в хранилище данных и БД. Информационной основой управления данными являются базы метаданных. Список объектов метаданных включает сведения об организациях, массивах фактографических и пространственных данных, исследовательских проектах, экспертах, информационных ресурсах, имеющиеся в Интернет, источниках информации, методах обработки, форматах данных, кодификаторы. При этом предлагается три уровня организации поиска данных и метаданных (поиск общих сведений о данных на сайтах со статической организацией информации, поиск на сайте с использованием СУБД для динамического представления данных и информации, и поиск с помощью СУБД на корпоративном уровне).

Интеграция данных. Крупные информационные системы подразумевают взаимодействие информационных ресурсов, в основе которых лежат самые разные форматы и модели представления данных. При интеграции данных в качестве центрального звена создается модель интегрированной БД. Каждый источник данных описан и имеются возможности транслирования данных между частным представлением и глобальным представлением. Необходимо обеспечить интеграцию различных видов данных (географических, экономических, технических и др.), типов физического представления данных (фактографических, текстовых, пространственных, графических) в рамках одной СУБД за счет нормализации данных, типизации ключей и создания многомерных БД.

Case технологии. Огромный объем данных, участие больших коллективов разработчиков из различных организаций, требуют применения современных средств проектирования информационных систем.

ГИС типа ArcInfo, MapInfo, RADS и др. используются для представления картографической основы, тематических объектов (демографических, макроэкономических и др. показателей). ГИС используются для представления значений данных на карте. Электронные справочные пособия предназначены для улучшения поиска и доступа к статистическим данным. Целью создания таких справочников является объединение всех статистических характеристик в рамках одной программной среды. Бумажными аналогами таких пособий являются статистические отчеты. Данные в справочниках представляются в виде карт, текста, графиков, таблиц, могут сопровождаться звуком, анимацией и др. Средствами создания таких справочников являются ГИС, СУБД, модели, приложения по вычислению новых характеристик и представлению данных. Информационная база справочника включает средние характеристики за последний год, по месяцам, в сравнении с предыдущим годом, временные ряды, картографические данные. Часть данных справочника может пополняться и при этом в справочнике должны автоматически отобразиться эти изменения.

Системы поддержки принятия решений (СППР) предназначены для улучшения использования информации, уменьшения убытков. Основная идея создания СППР заключается в следующем. Зная ситуацию на экономическом объекте, можно заранее определить перечень возможных последствий на объекте экономики. Зная перечень последствий, можно составить перечень рекомендаций по уменьшению или предотвращению этого воздействия. Средствами реализации системы являются экспертные системы и базы знаний. Информационной базой системы являются матрицы влияния, рекомендации, базы знаний в виде правил.

Для обеспечения эффективного принятия решений полной, оперативной и удобной для использования информацией первоочередной задачей является создание и поддержка единого информационного пространства организации, интегрирующего по возможности, всю корпоративную информацию, и позволяющего представлять ее в удобном для использования виде. К этому же классу задач относится уменьшение зависимости компании от конкретных персоналий, что требует максимально возможного отчуждения существенной информации и знаний. А это возможно только при создании БД.