Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Dyumin_Questions1.docx
Скачиваний:
11
Добавлен:
18.11.2019
Размер:
868.21 Кб
Скачать

Нет ответов:

Васильев 1. Ценность информации для бизнеса. Данные и информация. Типы данных.

Васильев 2. Структура ЦОД. Характеристика основных компонент.

Евсегнеева 4. Задачи СХД и основные компоненты СХД.

Евсегнеева 5. Классификация подходов к построению СХД.

Ковез 6 .DAS подход к построению СХД.

Кушнирова 7. Сети хранения данных (SAN).

Монина 9. Ленточные библиотеки.

Монина 10. Сетевые хранилища данных (NAS).

Носовский 11. CAS-системы.

Полякова 12. "Облачные" технологии. "Облака" как хранилища данных.

Павелкина 15. RAID-массивы. Уровень 6. Васильев 16. RAID-массивы. Кластерные уровни. Глашкина 17. RAID-массивы. Расширенные/улучшенные уровни.

Мамыраимов 19. RAID-массивы. Надежность дисковых массивов. Проблема скрытых/отложенных ошибок. Мясоутов 20. RAID-массивы. Надежность дисковых массивов. Подход к оценке надежности на базе последовательного моделирования методом Монте-Карло.

Никитин 26. Непрерывность бизнеса. Технологии обеспечения на уровне СХД. Репликация данных.

Прохоров 31. Защита данных на уровне ФС. Аудит. Примеры. Сычугов 32. Защита данных на уровне ФС. Шифрование данных. Примеры. 

Васильев 1. Ценность информации для бизнеса. Данные и информация. Типы данных.

Васильев 2. Структура ЦОД. Характеристика основных компонент.

Глушаков 3. Требование к современным СХД.

●Требования к надежности хранения данных:

(Проблема: Данные не должны теряться ни при каких условиях Реальность: Данные теряются из-за отказа оборудования, ошибок в приложениях, человеческого фактора, катастроф Решение: Дублирование данных, создание резервных копий).

●Требования к надежности доступа к данным:

(Проблема: Данные должны быть доступны постоянно. Реальность: Обеспечение постоянной доступности данных трудно осуществимо (причины: см. надежность хранения + …) Решение: Дублирование оборудования и

путей доступа к данным)

Пример:

                               Процент доступности:                    Время простоя в течении года:

                                99,0%                                                    примерно 3,7 дня

                                99,9%                                                    примерно 9 часов

                                99,99%                                                  примерно 53 минуты

                                99,999%                                                примерно 5 минут

●Требования к объему хранимых данных:

(Проблема: В ряде случаев требуется хранение и доступ к данным объемом порядка 10-100 петабайт (1 петабайт = 1024 терабайт) и экзобайт (1 экзобайт = 1024 петабайт) Реальность: Невозможно осуществить «классическим» способом - DAS Решение: SAN, Data GRID, COS).

●Требования к скорости доступа к данным:

(Проблема: Необходимо обеспечить доступ к данным с минимальными задержками Реальность: Среднее время доступа к данным на HDD >2 мс, на магнитной ленте несколько секунд (десятков секунд) Решение: Кэширование, многоуровневые хранилища).

●Требования к защищенности доступа к данным:

(Проблема: Необходимо защитить данные от доступа «злоумышленников» и «нерадивых» пользователей Реальность: Нет абсолютной гарантии защищенности данных Решение: Физическая защита ЦОД, защита данных на уровне файловых систем, защита доступа к данным по сети, защита на уровне устройств хранения.

●Требования к сложности управления и конфигурирования:

(Проблема: Необходимо обеспечить максимально простое управление хранилищами данных Реальность: экспоненциальный рост объема хранимых данных, сложность и проприетарность технологий, отсутствие стандартов на реализацию некоторых технологий. Решение: SRM, SSM, ILM,.. виртуализация).

Евсегнеева 4. Задачи СХД и основные компоненты СХД.

Евсегнеева 5. Классификация подходов к построению СХД.

Ковез 6 .DAS подход к построению СХД.

Кушнирова 7. Сети хранения данных (SAN).

Лукашев 8. Архитектура интеллектуальных хранилищ данных. Подходы к реализации. Примеры.

Хранилище данных (англ. Data Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений

В отличие от оперативных баз данных, где рабочие нагрузки оптимизированы для частых, но небольших транзакций, хранилища предназначены для долговременного хранения данных и относительно редких, но больших аналитических запросов. В хранилищах данные располагаются послойно в зависимости от уровня агрегации и грануляции данных.

Хранилище данных – это информационная фабрика, процесс обработки данных:

Принципы организации хранилища:

  1. - Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

  2. - Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

  3. - Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.

- Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Преимущества использования хранилища:

- объединение данных из разнородных источников;

- универсальный доступ к данным;

- очистка данных и контроль ошибок;

- ускорение получения аналитических отчетов;

- возможность углубленного анализа данных.

ХД представляет собой автономный банк данных, в котором база данных разделена на два компонента: оперативная БД хранит текущую информацию, квазипостоянная БД содержит исторические данные, например, в оперативной БД могут содержаться данные о продажах за текущий год, а в квазипостоянной БД хранятся систематизированные годовые отчеты и балансы за все время существования предприятия. Подсистема оперативного анализа данных позволяет эффективно и быстро анализировать текущую информацию. Подсистема принятия решений пользуется обобщенной и исторической информацией, применяет методы логического вывода. Для общения с пользователем служит универсальный интерфейс.

Пять наиболее распространенных архитектур:

  1. - независимые витрины данных (independent data marts);

  2. - шина взаимосвязанных витрин данных(data-mart bus architecture with linked dimensional data marts);

  3. - архитектура «звезда» (hub-and-spoke);

  4. - централизованное хранилище данных (centralized data warehouse);

  5. - федеративная архитектура (federated architecture)

Операции с данными:

  1. 1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.

  2. 2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.

  3. 3. Загрузка – помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.

  4. 4. Анализ – OLAP, Data Mining, сводные отчёты.

5. Представление результатов анализа.

Пример: EMC Symmetrix V-Max – первая система на основе архитектуры EMC Virtual Matrix Architecture. Эта система — крупнейший в мире массив хранения данных высшего класса, в котором для экономии электроэнергии и повышения удельной производительности в расчете на доллар стоимости используются многоядерные процессоры.

Система Symmetrix V-Max представляет собой масштабируемый массив хранения данных, который состоит из системного отсека, включающего от 1го до 8ми узлов, и отдельных дополнительных дисковых отсеков. Систему можно масштабировать от конфигурации с одним узлом и одним дисковым отсеком до конфигурации с однофазным или трехфазным питанием.

Ключевые характеристики EMC Symmetrix V-Max:

● Virtual Matrix Architecture (RapidIO)

● До 1 Тбайт ОП

● До 2 Пбайт хранимой информации (2400 дисков)

● Пропускная способность до 192 Гбайт/с

● До 32 4х-ядерных процессора Intel Xeon 2,33 ГГц

Монина 9. Ленточные библиотеки.

Монина 10. Сетевые хранилища данных (NAS).

Носовский 11. CAS-системы.

Полякова 12. "Облачные" технологии. "Облака" как хранилища данных.

Дзисяк 13. RAID-массивы. Уровни 0-2.

RAID (англ. redundant array of independent disks — избыточный массив независимых жёстких дисков) — массив из нескольких дисков, управляемых контроллером, взаимосвязанных скоростными каналами и воспринимаемых внешней системой как единое целое. В зависимости от типа используемого массива может обеспечивать различные степени отказоустойчивости и быстродействия. Служит для повышения надёжности хранения данных и/или для повышения скорости чтения/записи информации (RAID 0).

Аббревиатура RAID изначально расшифровывалась как «redundant array of inexpensive disks» («избыточный (резервный) массив недорогих дисков», так как они были гораздо дешевле RAM). Именно так был представлен RAID его создателями Петтерсоном (David A. Patterson), Гибсоном (Garth A. Gibson) и Катцом (Randy H. Katz) в 1987 году. Со временем RAID стали расшифровывать как «redundant array of independent disks» («избыточный (резервный) массив независимых дисков»), потому что для массивов приходилось использовать и дорогое оборудование (под недорогими дисками подразумевались диски для ПЭВМ).

Аппаратный RAID контроллер может поддерживать несколько разных RAID массивов одновременно, суммарное количество жёстких дисков которых не превышает количество разъёмов для них. При этом контроллер, встроенный в материнскую плату, в настройках BIOS имеет всего 2 состояния (включён или отключён), поэтому новый жёсткий диск, подключённый при активном RAID режиме в незадействованный разъём контроллера может игнорироваться системой, пока не будет ассоциирован как ещё один RAID массив типа JBOD (spanned), состоящий из одного диска.

RAID 0 (striping — «чередование») — дисковый массив из двух или более жёстких дисков с отсутствием резервирования. Информация разбивается на блоки данных () фиксированной длины и записывается на оба/несколько дисков одновременно.

(+): За счёт этого существенно повышается производительность (от количества дисков зависит кратность увеличения производительности).

(-): Надёжность RAID 0 заведомо ниже надёжности любого из дисков в отдельности и падает с увеличением количества входящих в RAID 0 дисков, т. к. отказ любого из дисков приводит к неработоспособности всего массива.

RAID 1 (mirroring — «зеркалирование») — массив из двух дисков, являющихся полными копиями друг друга. Не следует путать с массивами RAID 1+0, RAID 0+1 и RAID 10, в которых используется более двух дисков и более сложные механизмы зеркалирования.

(+): Обеспечивает приемлемую скорость записи и выигрыш по скорости чтения при распараллеливании запросов.[1]

(+): Имеет высокую надёжность — работает до тех пор, пока функционирует хотя бы один диск в массиве. Вероятность выхода из строя сразу двух дисков равна произведению вероятностей отказа каждого диска. На практике при выходе из строя одного из дисков следует срочно принимать меры — вновь восстанавливать избыточность. Для этого с любым уровнем RAID (кроме нулевого) рекомендуют использовать диски горячего резерва. Достоинство такого подхода — поддержание постоянной доступности.

(-): Недостаток заключается в том, что приходится выплачивать стоимость двух жёстких дисков, получая полезный объём лишь одного жёсткого диска.

RAID 2

В массивах такого типа диски делятся на две группы — для данных и для кодов коррекции ошибок, причем если данные хранятся на 2^n-n-1 дисках, то для хранения кодов коррекции необходимо n дисков. Данные записываются на соответствующие диски так же, как и в RAID 0, они разбиваются на небольшие блоки по числу дисков, предназначенных для хранения информации. Оставшиеся диски хранят коды коррекции ошибок, по которым в случае выхода какого-либо жёсткого диска из строя возможно восстановление информации. Метод Хемминга давно применяется в памяти типа ECC и позволяет на лету исправлять однократные и обнаруживать двукратные ошибки.

Недостаток массива RAID 2 в том, что для его функционирования нужна структура из почти двойного количества дисков, поэтому такой вид массива не получил распространения.

Отказоустойчивый дисковый массив с использованием кода Хемминга (Hamming Code ECC)

Схема резервирования данных с использованием кода Хэмминга (Hamming code) для коррекции ошибок. Поток данных разбивается на слова — причем размер слова соответствует количеству дисков для записи данных. Для каждого слова вычисляется код коррекции ошибок, который записывается на диски, выделенные для хранения контрольной информации. Их число равно количеству бит в слове контрольной суммы.

Если слово состоит из четырех бит, то под контрольную информацию отводится три диска. RAID 2 — один из немногих уровней, позволяющих обнаруживать двойные ошибки и исправлять "на лету" одиночные. При этом он является самым избыточным среди всех уровней с контролем четности. Эта схема хранения данных не получила коммерческого применения, поскольку плохо справляется с большим количеством запросов.

Преимущества:

  • достаточно простая реализация;

  • коррекция ошибок "на лету";

  • очень высокая скорость передачи данных;

  • при увеличении количества дисков накладные расходы уменьшаются.

Недостатки:

  • низкая скорость обработки запросов;

  • высокая стоимость;

  • большая избыточность.

Дзисяк 14. RAID-массивы. Уровни 3-5.

В массиве RAID 3 из дисков данные разбиваются на куски размером меньше сектора (разбиваются на байты) или блоки и распределяются по дискам. Ещё один диск используется для хранения блоков чётности. В RAID 2 для этой цели применялся диск, но большая часть информации на контрольных дисках использовалась для коррекции ошибок на лету, в то время как большинство пользователей удовлетворяет простое восстановление информации в случае поломки диска, для чего хватает информации, умещающейся на одном выделенном жёстком диске.

Отличия RAID 3 от RAID 2: невозможность коррекции ошибок на лету и меньшая избыточность.

Достоинства:

  • высокая скорость чтения и записи данных;

  • минимальное количество дисков для создания массива равно трём.

Недостатки:

  • массив этого типа хорош только для однозадачной работы с большими файлами, так как время доступа к отдельному сектору, разбитому по дискам, равно максимальному из интервалов доступа к секторам каждого из дисков. Для блоков малого размера время доступа намного больше времени чтения.

  • большая нагрузка на контрольный диск, и, как следствие, его надёжность сильно падает по сравнению с дисками, хранящими данные.

RAID 3 - данные хранятся по принципу striping на уровне байтов с контрольной суммой (КС) на одном из дисков. Массив не имеет проблему некоторой избыточности как в RAID 2-го уровня. Диски с контрольной суммой используемые в RAID 2, необходимы для определения ошибочного заряда. Однако большинство современных контроллеров способны определить, когда диск отказал при помощи спец сигналов или дополнительного кодирования информации, записанной на диск и используемой для исправления случайных сбоев.

Преимущества:

- · очень высокая скорость передачи данных;

- · отказ диска мало влияет на скорость работы массива;

- · малые накладные расходы для реализации избыточности.

Недостатки:

- · непростая реализация;

- · низкая производительность при большой интенсивности запросов данных небольшого объема.

RAID 4 похож на RAID 3, но отличается от него тем, что данные разбиваются на блоки, а не на байты. Таким образом, удалось отчасти «победить» проблему низкой скорости передачи данных небольшого объёма. Запись же производится медленно из-за того, что чётность для блока генерируется при записи и записывается на единственный диск. Из систем хранения широкого распространения RAID-4 применяется на устройствах хранения компании NetApp (NetApp FAS), где его недостатки успешно устранены за счет работы дисков в специальном режиме групповой записи, определяемом используемой на устройствах внутренней файловой системой WAFL.

RAID 4 исправляет некоторые недостатки технологии RAID 3 за счет использования больших сегментов информации, распределяемых по всем дискам, за исключением диска с информацией четности. При этом для небольших объемов информации используется только диск, на котором находится нужная информация. Это означает, что возможно одновременное исполнение нескольких запросов на чтение. Однако запросы на запись порождают блокировки при записи информации четности. RAID 4 используется крайне редко.

RAID 5

Основным недостатком уровней RAID от 2-го до 4-го является невозможность производить параллельные операции записи, так как для хранения информации о чётности используется отдельный контрольный диск. RAID 5 не имеет этого недостатка. Блоки данных и контрольные суммы циклически записываются на все диски массива, нет асимметричности конфигурации дисков. Под контрольными суммами подразумевается результат операции XOR (исключающее или). Xor обладает особенностью, которая применяется в RAID 5, которая даёт возможность заменить любой операнд результатом, и, применив алгоритм xor, получить в результате недостающий операнд. Например: a xor b = c (где a, b, c — три диска рейд-массива), в случае если a откажет, мы можем получить его, поставив на его место c и проведя xor между c и b: c xor b = a. Это применимо вне зависимости от количества операндов: a xor b xor c xor d = e. Если отказывает c тогда e встаёт на его место и проведя xor в результате получаем c: a xor b xor e xor d = c. Этот метод по сути обеспечивает отказоустойчивость 5 версии. Для хранения результата xor требуется всего 1 диск, размер которого равен размеру любого другого диска в raid.

(+): RAID5 получил широкое распространение, в первую очередь, благодаря своей экономичности. Объём дискового массива RAID5 рассчитывается по формуле (n-1)*hddsize, где n — число дисков в массиве, а hddsize — размер наименьшего диска. Например, для массива из 4-х дисков по 80 гигабайт общий объём будет (4 — 1) * 80 = 240 гигабайт. На запись информации на том RAID 5 тратятся дополнительные ресурсы и падает производительность, так как требуются дополнительные вычисления и операции записи, зато при чтении (по сравнению с отдельным винчестером) имеется выигрыш, потому что потоки данных с нескольких дисков массива могут обрабатываться параллельно.

(-): Производительность RAID 5 заметно ниже, в особенности на операциях типа Random Write (записи в произвольном порядке), при которых производительность падает на 10-25% от производительности RAID 1 (или RAID 10), так как требует большего количества операций с дисками (каждая операция записи сервера заменяется на контроллере RAID на три - одну операцию чтения и две операции записи). Недостатки RAID 5 проявляются при выходе из строя одного из дисков — весь том переходит в критический режим (degrade), все операции записи и чтения сопровождаются дополнительными манипуляциями, резко падает производительность. При этом уровень надежности снижается до надежности RAID-0 с соответствующим количеством дисков (то есть в n раз ниже надежности одиночного диска). Если до полного восстановления массива произойдет выход из строя, или возникнет невосстановимая ошибка чтения хотя бы на еще одном диске, то массив разрушается, и данные на нем восстановлению обычными методами не подлежат. Следует также принять во внимание, что процесс RAID Reconstruction (восстановления данных RAID за счет избыточности) после выхода из строя диска вызывает интенсивную нагрузку чтения с дисков на протяжении многих часов непрерывно, что может спровоцировать выход какого-либо из оставшихся дисков из строя в этот наименее защищенный период работы RAID, а также выявить ранее необнаруженные сбои чтения в массивах cold data (данных, к которым не обращаются при обычной работе массива, архивные и малоактивные данные), что повышает риск сбоя при восстановлении данных. Минимальное количество используемых дисков равно трём.

21. Raid-массивы. Оценка производительности.

На каждом из уровней RAID, поддерживаемых дисковыми массивами, применяется свой способ записи данных, и, следовательно, каждый из уровней имеет собственные преимущества.

Raid 0 - Производительность

RAID уровня 0 также называется RAID с чередованием данных. Этот уровень удобен для программ, требующих быстрой загрузки больших таблиц, или, в общем случае, для приложений, требующих быстрого доступа к данным только для чтения или для быстрой записи. RAID 0 разработан исключительно для повышения производительности и не обеспечивает резервирования данных, поэтому в случае сбоя диска требуется восстановление информации из резервной копии. Уровень RAID 0 следует выбирать при использовании приложений, чувствительных к повышению быстродействия дисковой подсистемы. Никогда не используйте этот уровень при работе с приложениями, требующими высокой надежности.

Raid 1 - Надежность и быстрое выполнение операций чтения

RAID уровня 1 также называется RAID с зеркальной защитой дисков. Этот уровень разработан для приложений, требующих высокого коэффициент доступности данных и небольшого времени отклика при чтении, когда стоимость оборудования рассматривается как вторичный фактор. Время отклика при записи может быть несколько больше, чем при использовании отдельного диска, в зависимости от стратегии записи; запись может выполняться параллельно (для ускорения операции) или последовательно (для повышения надежности). RAID 1 следует применять при работе с приложениями, которые часто считывают, но редко записывают данные, если стоимость не играет первостепенной роли.

Raid 2 - Редко применяется

RAID 2 применяется редко. Этот уровень использует ту же технологию, что и RAID 3, но может хранить данные контроля четности на нескольких дисках, в то время как в RAID 3 эти данные хранятся только на одном диске.

Raid 3 - cad/cam, последовательный доступ к большим файлам

В RAID 3 и RAID 2 реализован механизм параллельной обработки, когда все диски массива работают одновременно. Аналогично технологии чередования данных, записываемая на диск информация разбивается на сегменты фиксированного размера, после чего эти сегменты параллельно записываются в одну и ту же физическую область разных дисков. В наиболее современных массивах RAID 2 и 3 вращение дисков синхронизировано, поэтому операции записи и чтения действительно выполняются одновременно, позволяя тем самым избежать дополнительных задержек. Такой подход требует сохранения информации о четности для каждого сегмента данных; разница между RAID 2 и RAID 3 заключается в том, что RAID 2 может хранить эту информацию на нескольких дисках, в то время как в RAID 3 для этой цели используется только один диск. LVM не поддерживает RAID 3, поэтому этот массив дисков можно использовать только как устройство с линейным доступом.

При работе с большими объемами данных производительность такого массива достаточно велика, однако небольшие запросы обрабатываются сравнительно медленно, поскольку все диски используются одновременно и выполнение параллельных операций невозможно. Такие массивы оптимальны при работе с большими объектами, например с файлами систем CAD/CAM или с изображениями, а также при работе с приложениями, требующими последовательного доступа к большим файлам данных. Уровень RAID 3 следует использовать при работе с большими блоками данных. RAID 3 обеспечивает хранение избыточных данных, не требуя таких затрат ресурсов, как уровень RAID 1.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]