
- •Для чего нужны сетевые хранилища современным компьютерам?
- •Производители nas
- •Советы по выбору сетевого хранилища данных
- •Выбор аппаратного обеспечения
- •Достоинства и недостатки nas
- •Место nas в сети
- •1. Хранилища данных
- •2. Принципы построения
- •2.1 Основные компоненты хранилища данных
- •3. Технологии управления информацией
- •Network Attached Storage (nas)
Советы по выбору сетевого хранилища данных
Для комфортного использования NAS должен обладать хорошей вычислительной способностью, чтобы обеспечить скорость передачи данных по сети не менее 25 Мб/с.
Модель должна обладать гигабитным сетевым выходом, иначе пользоваться им будет не удобно (долго будете ждать свои файлы при копировании).
Для организации резервирования данных обязательна поддержка RAID1 (иногда возможно поддержка режимов JBOD и RAID 0, но они не поддерживают функции резервирования).
Если купили модель без жестких дисков, то подбирайте жесткие диски со скоростью вращения шпинделя 5400 об/мин., которые будут меньше нагреваться. Такие дольше прослужат и более экономичные по потреблению энергии.
Убедитесь, что в выбранной модели присутствуют все функции, которые могут быть вам полезны.
отличительная особенность—независимость системы хранения информации от внешнего сервера-контроллера. Существует очень много разновидностей NAS-систем, способных решать задачи как конечных пользователей, так и предприятий малого или среднего бизнеса. При необходимости обеспечения сохранности информации требуется создавать масштабные распределенные сети SAN (Storage Area Networks), специально разработанные и внедряемые для передачи больших массивов данных. Такие решения широко востребованы в распределенных правительственных и крупных корпоративных системах данных и зачастую включают не просто набор коммутирующих дисковых и ленточных NAS, но и сложную и дорогостоящую систему контроля. В данной статье мы остановимся на N AS-peшениях, созданных для нужд SMB. За последние несколько лет заметно выделились несколько обособленные классов NAS-продуктов, в каждом из которых существуют модели, присутствующие в продуктовой линейке нескольких вендоров. Первый—самый дешевый ценовой сегмент составляют устройства SOHO NAS, представляющие из себя, как правило, шасси, вмещающее не более двухжес-тких дисков и опционально USB-интерфейсы для подключения дополнительных, наращиваемых мощностей. Типичным примером такого рода NAS являются Netgear SC101 и Linksys NAS200.
Требования к этим устройствам предъявляются минимальные —хорошее устройство должно предоставлять максимально удобный пользовательский интерфейс для доступа к файлам, хорошую скорость передачи/приема и поддерживать различные защищенные групповые политики доступа к файлам. Скорость доступа к файлам зависит от двух параметров: скорости интерфейса подключения жестких дисков устройствах ранения и пропускной способности сетевого интерфейса. Имеется несколько типов интерфейсов для подключения жестких дисков: РАТА (Parallel Advanced Technology Attachment)—интерфейс для подключения так называемых IDE-устройств (жестких дисков, CD-приводов); SATA (Serial Advanced Technology Attachment)—интерфейс с последовательным подключением устройств, обладающий более высокими скоростями. Распространены две разновидности SATA: SATA1 обладает возможностью пропускать данные на скорости 150 Мбит/с; SATA2 работает вдвое быстрее SATA 1, однако стоит понимать, что на данный момент в силу технических ограничений серийные жесткие диски не могут обеспечить передачу данных даже на скорости в 150 Мбит/с.
USB (Serial Bus)—некоторые SOHO-хранилища оснащены USB-интерфейсом для основного или резервного способа подключения flash-или HDD-устройств. Исторически существуют два вида интерфейса—USB1.1, обладающий пропускной способностью 12 Мбит/с, а усовершенствованная версия USB 2.0 может обеспечить передачу данных со скоростью до 480 Мбит/с. Если речь идет об удаленном сетевом хранилище, доступ к которому осуществляется через Интернет, то использование USB-дисков вполне приемлемо. Однако чаще всего SOHO NAS применяется преимущественно локально—в пределах одной квартиры или одной комнаты, что, как следствие делает хранилища USB 1.1 неэффективными с точки зрения скорости. Бесспорное преимущество USB NAS наблюдается в тех случаях, когда необходим сравнительно небольшой объем сетевого хранилища за скромные деньги. Только в этом случае в качестве носителя информации следует использовать постоянно дешевеющую flash-память. Что касается сетевых интерфейсов, то для данного сегмента NAS существуют четыре основных способа подключения пользователей. Самый распространенный—Ethernet, причем все чаще в продуктовых линейках вендоров наряду с Fast Ethernet-интерфейсом, обеспечивающим скорость до 100 Мбит/с, все чаще появляются устройства, ориентированные в основном на малый бизнес, снабженные интерфейсом Gigabit Ethernet, работающим на скорости 1000 Мбит/с. Для того чтобы использование быстрого Ethernet было оправдано, необходимо наличие соответствующей сетевой инфраструктуры, обладающей возможностью передавать гигабитный трафик. Для удобства локальных пользователей производители добавляют помимо проводных сетевых интерфейсов беспроводные Wi-Fi-интерфейсы, работающие на скоростях вплоть до 300 Мбит/с (черновая версия стандарта IEEE 802.11N). Надо сказать, что зачастую заявленные скорости передачи данных отличаются от реальных скоростей перекачки информации в несколько раз. Вызвано это прежде всего тем, что помимо передачи пользовательских данных присутствует и вспомогательный трафик, необходимый для работы протоколов передачи. Так, для еще не принятого организацией IEEE стандарта 802.11N (на данный момент утвержден документ 802.11 draft 2.0, а большинство вендоров выпускает оборудование на основе версии draft 1.0) реальная скорость передачи данных колеблется возле отметки в 100 Мбит/с.
Главное преимущество домашних NAS—низкая стоимость при удовлетворительном функционале. Что касается негативных факторов, то это прежде всего очень низкая масштабируемость: даже если вместимость хранилища не более двух дисков, в настоящее время уже разработаны довольно емкие HDD, что позволило бы использовать SOHO NAS в средних организациях. Однако часто такие устройства обладают довольно слабым процессором, что препятствует обслуживанию большого числа одновременных соединений.
SMB NAS
Выбирая корпоративное сетевое хранилище, компания предъявляет ряд требований, которые фактически реализованы в продуктах основных вендоров, производящих NAS для SMB: Buffalo, Dell, Linksys и др. Прежде всего, эти устройства отличает большая емкость: в них имеется возможность подключать не менее четырех дисков посредством SATA. Более того, в качестве средств хранения информации помимо обычных методов размещения информации, таких как применение CIFS (Common Internet File System) для Windows- и Mac-пользователей и NFS (Network File System) для приверженцев Unix и Linux, должна присутствовать возможность размещения FTP-архивов. Если в домашних N AS зачастую защита информации осуществляется путем непосредственной аутентификации, то в арсенал устройств для корпораций обычно входят защищенные виды транзакций, такие как FTPS-регламент, использование протоколом FTP защиты на основе протоколов SSLATLS. Главное требование, предъявляемое к сетевым хранилищам бизнес-серии,—надежность, под этим подразумевается, что при отказе одного из дисков корпоративная информация ни в коем случае не должна быть утеряна. Это обеспечивается за счет использования технологий RAID (redundant array of independent/ inexpensive disks). Существует несколько разновидностей райд, которые служат не только средством логического объединения дисков и повышения надежности системы, но и средством повышения скорости работы (чтениязаписи) с сетевым массивом.
RAID 0
Технология RAID 0, по сути, является способом логического объединения дисков в один массив. Информация разбивается на равные блоки и записывается поочередно на каждый из носителей. Для развертывания RAID 0 требуется как минимум два диска.
Главным преимуществом использования RAID О является увеличение скорости передачи информации за счет распараллеливания процессов копирования. Также при анализе RAID важным параметром является DT (DiskTax)— процентное содержание дискового пространства, используемого для хранения пользовательских данных, от общего объема массива. DT для RAID 0 является максимальным, т. е. равняется 100%, что не может не сказаться на надежности всего массива. Отсутствие резервирования делает RAID 0 в отличие от остальных версий наиболее ненадежным. В случае отказа одного из дисков потеря данных неминуема, а значит, вероятность отказа массива есть произведение вероятностей отказа жестких дисков. Следовательно получается, что надежность уровня RAID 0—наименьшая.
RAID 1
Уровень RAID 1 (он же Mirroring) обеспечивает защиту от возможной потери данных при выходе из строя одного или нескольких дисков массива. Достигается благодаря полной синхронизации информации всех дисков массива (зеркалирования). Как и в случае с RAID 0, минимально требуется всего два диска для развертывания массива. Фактически жесткие диски работают в парах и при отказе одного из дисков резервный позволяет осуществлять услугу доступа пользователей к данным. Попарное хранение данных довольно накладно сточки зрения затрат на жесткие диски—DT=50%. При использовании системы многопоточного обращения к парам дисков мы получаем значительный выигрыш в скорости чтения/записи. Стоит отметить, что хотя в надежности мы существенно выигрываем (вероятность отказа массива намного меньше вероятности отказа каждого из винчестеров), зачастую в системах с большой нагрузкой после отказа одного из носителей нагрузка на второй резко возрастает и, как следствие, работоспособность всей системы уменьшается. Для выхода из данного положения предложен RAID 1+Spare, требующий как минимум три диска.
Преимуществом такого расположения бесспорно является увеличение скорости доступа и очень высокая надежность (теоретически RAID 1+0 может работать и при падении двух дисков). Однако DT этого метода крайне низкий —33%, да и стандартные шасси обычно включают в себя четыре слота для винчестеров, что делает этот метод зачастую нерациональным.
RAID 5
Самый популярный из уровней RAID требует для своей работы не менее трех HDD, что позволяет полноценно воспользоваться всеми возможностями многодискового устройства. Информация записывается на четыре винчестера, причем на каждом из дисков есть специальные контрольные блоки. Большую популярность пятый уровень получил главным образом из-за своей экономичности: DT-75. В силу повышенной математической нагрузки при добавлении информации в массив скорость записи немного страдает, скорость чтения же остается довольно высокой. В случае падения одного из дисков RAID-контроллер с помощью математических вычислений и контрольных блоков вычисляет потерянную информацию. Тут кроется главная проблема RAID 5. При сбое диска математическая обработка, выполняемая для восстановления, может существенно снизить скорость доступа к ресурсам, что вкупе с нагрузкой, добавляемой пользовательскими запросами, способно вызвать выход из строя всего массива. Чтобы предусмотреть такие случаи, рекомендуется использовать Spare-диск.
RAID5+Spare
Этот вариант обладает куда большей надежностью, сохраняя все скоростные характеристики, наследуемые из RAID 5. Суть метода проста —в дополнение к данным, сохраняемым по уже известному методу на трех дисках, четвертый служит резервным. Для развертывания RAID 5+Spare понадобится не менее четырех дисков, а коэффициент DT приблизительно равен 57%.
RAID 10 (1+0)
На основе RAID О, RAID 1 и RAID 5 возможны некоторые вариации, объединяющие качества каждого из методов. Наверное, самым известным из «скрещиваний» является RAID 10. Для функционирования ему необходимо как минимум четыре диска. Суть заключается в дублировании информации на дисках и расслоении на два блока, аналогично нулевому методу.
Не стоит забывать, что, покупая SMB NAS, всегда надо думать о масштабируемости. На данный момент на рынке предлагается довольно много решений, позволяющих добавлять к уже имеющимся мощностям новые NAS-устройства, объединяя их в большие массивы.
Также немаловажным фактором при покупке NAS-системы является безопасность информации. Кража одного из дисков не позволит злоумышленникам раскрыть корпоративные тайны при использовании шифрования информации на диске.
Лидером на рынке N AS является американская компания Buffalo (Terastetion), преуспевшая в создании, быть может, не столь функциональных, но зато сравнительно дешевых по цене хранилищ. Что касается дисковых накопителей среднего класса, то тут имеются интересные продукты у Dell (PowerVault), Linksys (NSS) и еще нескольких производителей, поставляющих шасси с журналируемой файловой системой. Enterprise-сегмент в основном использует продукцию таких компаний, как EMC, HP, Dell, IBM.
Хранилища данных: основные архитектуры и принципы построения в реляционных СУБД
В статье описаны основные архитектуры хранилищ данных, рассмотрены некоторые общие принципы их построения. Подробно описаны способы представления иерархий в реляционной структуре данных. Введение В начале восьмидесятых годов прошлого века, в период бурного развития регистрирующих информационных систем, возникло понимание ограниченности возможности их применения для целей анализа данных и построения на их основе систем поддержки и принятия решений. Регистрирующие системы создавались для автоматизации рутинных операций по ведению бизнеса – выписка счетов, оформление договоров, проверка состояния склада и т.д., и основными пользователями таких систем был линейный персонал. Основными требованиями к таким системам были обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения. Именно эти требования определили выбор реляционных СУБД и модели представления данных "сущность-связь" в качестве основных используемых технических решений при построении регистрирующих систем. Для менеджеров и аналитиков в свою очередь требовались системы, которые бы позволяли:
Очевидно, что регистрирующие системы не удовлетворяли ни одному из вышеуказанных требований. В регистрирующей системе информация актуальна только на момент обращения к базе данных, в следующий момент времени по тому же запросу Вы можете получить совершенно другой результат. Интерфейс регистрирующих систем рассчитан на проведение жестко определенных операций и возможности получения результатов на нерегламентированный (ad-hoc) запрос сильно ограничены. Возможность обработки больших массивов данных также мала из-за настройки СУБД на выполнение коротких транзакций и неизбежного замедления работы остальных пользователей. Ответом на возникшую потребность стало появление новой технологии организации баз данных – технологии хранилищ данных. Определение и типовые архитектуры ХД В основе концепции хранилища данных лежат две основные идеи - интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище и разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа. Определение понятия "хранилище данных" первым дал Уильям Г. Инмон в своей монографии [1]. В ней он определил хранилище данных как "предметно-ориентированную, интегрированную, содержащую исторические данные, не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений". Концептуально модель хранилища данных можно представить в виде схемы [2], показанной на рисунке 1. Данные из различных источников помещаются в ХД, а описания этих данных в репозиторий метаданных. Конечный пользователь, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория, анализирует данные в хранилище. Результатом его деятельности является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на его структуру и функции его поддержания в актуальном состоянии.
Физическая реализация приведенной концептуальной схемы может быть самой разнообразной. Ниже приводятся наиболее часто встречающиеся подходы. Виртуальное хранилище данных – это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд представлений (view) в базе данных, либо применив специальные средства доступа, например продукты класса Desktop OLAP, к которым относится, например, BusinessObjects, Brio Enterprise и другие [14]. Главными достоинствами такого подхода являются:
Однако недостатков у него гораздо больше, чем достоинств. Создавая виртуальное хранилище данных, Вы создаете не хранилище как таковое, а иллюзию его существования. Структура хранения данных и само хранение данных не претерпевает изменений, и остаются проблемы:
Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из небольшого количества регистрирующих систем и ограничена конкретной предметной областью. При построении витрин данных используются основные принципы построения хранилищ данных, о которых пойдет речь ниже, поэтому их можно считать хранилищами данных в миниатюре. Плюсами витрин данных являются:
Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре (следует отметить, что здесь под трехуровневой архитектурой понимается не структура "БД – Сервер приложений – клиент"). На первом уровне расположены разнообразные источники данных – внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище данных, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных (ОСД). Оперативный склад не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и осуществление определенных проверок. Наличие ОСД просто необходимо при различном регламенте поступления информации из источников. Третий уровень в описываемой архитектуре представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей. Проектирование структуры реляционного хранилища данных ХД строятся на основе многомерной модели данных. Многомерная модель данных подразумевает выделение отдельных измерений (время, география, клиент, счет) и фактов (объем продаж, доход, количество товара), которые анализируются по выбранным измерениям. Многомерная модель данных физически может быть реализована как в многомерных СУБД, так и в реляционных. В последнем случае она выполняется по схеме "звезда" или "снежинка". Данные схемы предполагают выделение таблиц фактов и таблиц измерений. Каждая таблица фактов содержит детальные данные и внешние ключи на таблицы измерений. Теория построения многомерной модели данных и ее воплощение в реляционной структуре широко освещена как в зарубежной [12,13], так и в отечественной литературе [3]. К числу мало освещенных тем можно отнести проблему представления иерархий. В качестве примера измерения, широко применяющегося при анализе деятельности предприятия и имеющего иерархическую структуру, можно привести справочник статей затрат. Рассмотрим модель мест возникновения затрат (МВЗ), представленную на рис 2.
Классическая компьютерная наука решает проблему представления иерархий с помощью рекурсивной связи. Это простое решение позволяет помещать в одной таблице дерево любой глубины и размерности. В нашем случае рассматриваемые данные будут представлены в следующем виде:
Однако в простоте этого решения скрывается и основной его недостаток. К сожалению, стандартный SQL не поддерживает рекурсивные указатели, поэтому для представления деревьев в ХД используют другие методы. Метод, предложенный Джо Селко (Joe Celko) [4], основан на теории множеств. В этом методе все узлы дерева проходятся в прямом порядке обхода [5] и для каждого узла заполняются два значения - левая и правая границы, причем для каждого узла ветви дерева сначала заполняется левая граница и лишь затем правая - при движении обратно от потомков к родителям. Так в нашем примере нумерация узлов будет следующая:
При такой нумерации узлов каждый родитель содержит потомков, левая и правая граница которых лежит в интервале между левой и правой границей родителя. Аналогично все родители потомка имеют левую границу, которая меньше левой границы потомка и правую, большую правой границы потомка. Следовательно, сумму затрат для конкретного МВЗ и всех его составляющих можно получить одним запросом. Например, для получения затрат по инфраструктуре можно выполнить следующий SQL-запрос: select sum(fact_table.cost) from fact_table, dimension_table D1, dimension_table D2 where fact_table.dimension_id = D2.id and D2.left >= D1.left and D2.right <= D1.right and D1.name = "Инфраструктура" Для простоты работы с таким справочником кроме полей left, right стоит добавить еще два поля: "Level" – уровень узла в дереве, "Is_leaf" – флаг, показывающий является ли узел листом в дереве или нет. Таким образом, мы получаем таблицу "dimension_table" (см. таблицу 2), которая позволяет хранить дерево любой глубины вложенности и размерности и позволяет выбирать потомков и родителей с помощью одного запроса.
Другой способ, описанный Ральфом Кимбаллом [6], основан на введении вспомогательной таблицы ("helper-table"), через которую осуществляется связь таблицы фактов с таблицей измерения. Эта вспомогательная таблица отражает иерархическую структуру измерения и подчиняется следующему закону: вспомогательная таблица содержит весь набор пар "родитель-потомок", причем потомок может не быть непосредственным потомком родителя. Структура такой таблицы и ее содержимое показано в таблице 3.
Теперь связывая таблицу фактов (см. рис. 4) с идентификатором ребенка во вспомогательной таблице, а таблицу измерений с идентификатором родителя, мы можем вычислять сумму затрат для каждого МВЗ и всех его составляющих одним запросом, как и в предыдущем случае. При этом, добавляя ограничения на поля "Distance" и "Is Leaf", мы можем легко считать затраты для любого уровня в иерархии.
Например, для того, чтобы посчитать сумму затрат, возникающих в местах, находящихся по иерархии на один уровень ниже МВЗ "Инфраструктура" необходимо выполнить следующий SQL-запрос: select sum(fact_table.cost) from fact_table, dimension_table, helper_table where fact_table.dimension_id = helper_table.child_id and dimension_table.dimension_id = helper_table.parent_id and dimension_table.name = "Инфраструктура" and helper_table.distance = 1 Проблема проектирования иерархических справочников еще более усложняется, когда измерение может иметь несколько альтернативных иерархий и становится совсем трудноразрешимой при необходимости поддерживать историю изменения таблицы измерения. Вообще, проблема медленно меняющихся измерений интересна сама по себе, без усложнения ее иерархичностью классификаторов. В литературе она в большинстве случаев рассматривается в контексте "факт – медленно меняющееся измерение" [7]. Такая задача, действительно, решается относительно просто добавлением в таблицу измерения даты начала и даты окончания действия записи. Изменение записи в справочнике приводит к "закрытию" старой записи и добавлению новой. Теперь, возвращаясь к примеру справочника статей затрат, пользователь, желающий получить информацию по актуальной статье затрат на какую-либо конкретную дату, должен включить ее в условие SQL запроса. Предположим, что справочник статей затрат связан со справочником счетов бухгалтерского учета. Один или несколько бухгалтерских счетов представляют собой статью затрат. Как должно отразиться на справочнике счетов бухгалтерского учета изменение какого-либо атрибута статьи затрат? С одной стороны, с точки зрения плана счетов, изменение атрибута не приводит к изменению сущности статьи затрат и бухгалтерские проводки через план счетов должны относится на ту же статью затрат. С другой стороны, в справочнике статей затрат появилась новая запись, которая должна быть каким-то образом связана со справочником счетов. Данная проблема может быть решена с помощью разделения таблицы измерений на две - содержащую актуальную информацию и содержащую историю изменения сущности. Этот подход также позволяет решить проблему иерархического измерения с необходимостью поддержания истории изменения записей в нем. Рассмотрим его более подробно (см. рис. 5). Таблица "dimension_actual" представляет собой таблицу измерений с первичным ключом dimension_id, содержащей корректные атрибуты измерения на сегодняшний день. С ней связана через внешний ключ dimension_id историческая таблица "dimension_history", в которой находится история изменения записей, определяемая датами начала/окончания действия записи (поля date_start, date_end). Актуальная на сегодняшний день запись также присутствует в ней с открытой датой окончания действия. Таблица фактов "fact_table" связана с таблицей измерений через вспомогательную таблицу "helper_table", которая отражает иерархическую структуру измерения.
Описанный подход позволяет: во-первых, хранить и работать с измерением как с несбалансированным деревом; во-вторых, быстро выполнять запросы, для которых не важна история изменения измерения (не участвует таблица, содержащая историю); в-третьих, позволяет отслеживать историю изменения измерения и, наконец, разделяет отражение истории и иерархии, что значительно упрощает сопровождение измерения. Третий важный момент, с которым часто приходится сталкиваться разработчику хранилища, связан с агрегатными значениями. Этот класс задач условно можно разделить на два подкласса. Первый рассматривает задачи создания и поддержания агрегатов по имеющимся детальным данным и довольно широко освещен в литературе [12,13]. Второй связан с тем, что источники данных для хранилища предоставляют не детальные значения, а уже некоторый набор агрегированных данных. Такая ситуация типична при создании хранилищ данных для управляющих компаний и государственных контролирующих органов, которые собирают множество отчетных форм. Крайним случаем такого подхода является модель, которую условно можно назвать "показатель-значение". Суть ее состоит в том, что собирается большой набор показателей, характеризующих финансово-хозяйственную деятельность предприятия. Эти показатели могут быть как связанными между собой функционально, так и нет, могут отражать одни и те же величины, но с разной степенью детализации и т.д. При попытке представить такие данные в виде многомерной модели разработчик сталкивается со значительными проблемами и очень часто идет по пути создания не хранилища данных, а хранилища форм. Типичное хранилище форм строится на основе трех измерений – экономические показатели, время, отчетные формы; таблицы фактов – значения экономических показателей и вспомогательных таблиц, описывающих, как показатели и их значения расположены в отчетных формах. При анализе таких данных аналитик будет испытывать значительные трудности, связанные главным образом с тем, что показатели различных форм нельзя сравнивать между собой. Единственное, что ему остается – это отслеживание изменений показателей одной формы во времени. Заключение При реализации проектов по построению хранилищ данных возникает ряд общих задач, независящих от предметной области обрабатываемой информации. К числу таких задач можно отнести:
В данной статье были рассмотрены возможные решения этих задач. В частности были приведены способы реализации иерархических измерений с помощью введения дополнительных атрибутов (левая и правая граница), а также с помощью введения дополнительной таблицы – "helper-table". Однако во всех рассмотренных задачах существуют нерешенные вопросы, требующие дальнейших исследований. В частности сложным для реализации является случай иерархических измерений с необходимостью поддержания истории изменений, которые имеют связи с какими-либо другими справочниками. В данную статью не вошли вопросы, касающиеся методов очистки данных и алгоритмов загрузки данных в хранилище. Эти темы требуют отдельного рассмотрения. |