Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Экзамен / Ответы 60-79.docx
Скачиваний:
34
Добавлен:
11.06.2015
Размер:
192.97 Кб
Скачать

Пользователя редко интересуют все потенциально возможные комбинации значений измерений. Для этого используются срезы, отображения страниц, вращение, нарезка на кубики, агрегация, детализация.

Срез – это созданное пользователем подмножество гиперкуба, получившееся в результате фиксации значения одного или более измерений не входящих в это подмножество. Текущее представление среза многомерной информации называется отображением страницы. Измерения, расположенные по горизонтали (поперек дисплея), определяют измерения в столбцах таблицы. Строки таблиц измерений определяются измерениями, расположенными по вертикали (вдоль дисплея). Выбор элемента измерения страницы позволяет определить, какая именно страница отображается в данный момент. Страница во многом напоминает обычную электронную таблицу и может быть интегрирована практически с любой программой электронных таблиц, где пользователь может в дальнейшем вносить изменения в каждую ячейку.

Slice and Dice (нарезка на кубики и ломтики) - это термин, использующийся для описания функции сложного анализа данных, обеспечиваемой средствами OLAP выборка данных (продольные и поперечные, плоскостные и объемные срезы) из многомерного куба с заданными значениями и заданным взаимным расположением измерений, при котором пользователь обычно использует операции вращения концептуального куба данных и детализации/агрегирования данных.

Изменение порядка представления измерений, применяемое при двухмерном представлении данных, называется вращением (Rotate, Pivot, пивотинг). Эта операция обеспечивает возможность визуализации данных в форме, наиболее комфортной для их восприятия. Операция вращения может заключаться в перестановке местами строк и столбцов таблицы или перемещении интересующих измерений в столбцы или строки создаваемого отчета, что позволяет придавать ему желаемый вид. Кроме того, вращением куба данных является перемещение вне табличных измерений на место измерений, представленных на отображаемой странице, и, наоборот (при этом вне табличное измерение становится новым измерением строки или измерением столбца). Вращением можно изменить отчета с расположенным по горизонтали измерением "Время" и измерением "Компьютеры", расположенным по вертикали, в отчет, у которого по горизонтали представлено измерение "Время", а по вертикали - измерение "География".

Отношения. Между их значениями обычно существуют множество различных отношений (Relation) типа "один ко многим". Следует отметить, что для измерений, имеющих тип Время (таких как День, Месяц, Квартал, Год), все отношения устанавливаются автоматически, и их не требуется описывать.

В процессе анализа пользователь не только работает с различными срезами данных и выполняет их вращение. Одним из часто встречающихся способов манипулирования данными является операция агрегации (Drill Up) -переход от детализированных к агрегированным данным. С точки зрения пользователя, Подразделение, Фирма, Регион, Страна являются точно такими же измерениями, как и Время. Но каждое из них соответствует новому, более высокому уровню агрегации значений показателя Объем продаж.

Переход от агрегированных к детализированным данным называется операцией детализации (Drill Down). Например, начав анализ на уровне Региона, пользователь может захотеть получить более точную информацию о работе конкретной фирмы или подразделения.

Достоинствами многомерной модели данных является возможность сведения близких сущностей в одну таблицу, например, сведения о комплектующих компьютера, БД классификаторов и др. Примеры многомерных структур для хранения кодификаторов даны в табл.16 (исходные таблицы – табл.14-15), табл.16 – многомерная структура, временных рядов – табл.17-18, сеточных данных – табл.19-21.

Таблица 13 - Страны Таблица 14 - Ведомства Таблица 15 - Организации

Код

Значение

Код

Значение

Код

Значение

RU

Россия

1

МИД

НЦУКС

Нац. центр управл.

BU

Болгария

2

МЧС

ВНИИГОЧС

Ин-т ГО и ЧС

….

….

….

….

….

……………

Таблица 16 - Многомерная структура хранения классификаторов

Идентификатор классификатора

Код

Значение

1

RU

Россия

1

BU

Болгария

2

1

МИД

2

2

МЧС

3

НЦУКС

Национальный центр управления в кризисных ситуациях

3

ВНИИГОЧС

Ин-т ГО и ЧС

Таблица 17 - Сведения о временном ряде

ID_временного ряда

Широта

Долгота

Дата начала ряда

Дата окончания ряда

Модель

Параметр

Автор

Таблица 18 - Временной ряд (матрица)

ID_временного ряда

Дата

Значение

Таблица 19 - Сведения о сетке

ID_сетки

Широта

Долгота

Широта

Долгота

Дата начала

Дата окончания

Автор

Модель

Таблица 20 - Сведения о поле

ID_сетки

ID_поля

Дата

Время

Параметр

Таблица 21 - Поле

ID_сетки

ID_поля

Широта

Долгота

Значение

На основе многомерной модели данных можно создать универсальную модель данных (УМД). Эта модель рассмотрена в разделе «Оптимизация». Основная идея создания УМД заключается в том, что все таблицы БД имеют одинаковую структуру данных (трипл) – идентификатор записи, имя атрибута и значение. То есть атомарной единицей хранения данных здесь является значение отдельного атрибута. Для упрощения структуры данных каждый выделенный объект БД представляется в виде метаданных – сведений об объекте и сведений о его жизненном цикле.\

67 Как можно эффективно организовать хранение множества кодификаторов?

В БД используется множество классификаторов, стран, организаций, ведомств, судов, др.Сейчас каждый классификатор, как правило, состоит из  двух атрибутов (код, значение).Добавив еще один атрибут - идентификатор классификатора, можно все классификаторы хранить в одной таблице.

68 Как организовать БД по временным рядам?

Как организовать БД по временным рядам? (есть временной ряд 1, другой временной ряд, за 10 лет, за сутки, и тд. Частота измерений разная!!! Это всё входные данные. Предлагается 2 таблицы сделать: метаданные (айди вр. ряда, начало, окончание, частота измерений (год, месяц...), автор, географический район и тд), айди вр. ряда, данные и значения - это вторая таблица - это уже бд)

69 Как создать БД для случайных измерений в пространстве и во времени?

(свести в бд в одну структуру, здесь уже одной таблицей не обойтись - нужно 3. 1 - сетка (айди, пространственный масштаб, временной масштаб, автор, модель...), 2 - (айди для связи, данные, атрибут...), 3 - сама таблица (айди сетки, широта, долгота, значение)

70 Как создать структуру сеточных данных?

по сути всё, как и в предыдущем, только убирается вторая таблица) напр, пространственные данные - это сеточные.

71 Какие бывают этапы обработки данных?

1 этап - от источников информации, появляются накопительные массивы данных, необходимо создать дисцилинарные массивы, которые из разных накопительных собираются однотипные структуры, 2 - статистическая - выбираем конкретную единицу из дисц. и собираем всю информацию о ней, 3 - рассчётный массив - агригированная информация (как статистика, полная информация))

Первый этап: первоначальный сбор из внешних источников (чаще всего это просто Интернет).  Второй этап: отчистка, первичная обработка и приведение к унифицированному виду. Что это означает? Из-за того, что в источники поступления информации - это самые различные сайты, имеющие собственные форматы отображения, приходится приводить ее к единому виду. Это упрошает ее последующую обработку.  Третий этап: систематизация и организация хранения накопленных данных, для последующего использования, а также осуществлению внутреннего поиска и быстро извлечения нужных документов.  Четвертый этап: глубокий анализ информации, систематизация и получение знаний.  Пятый, завершающий этап: формирование отчета по конкретной тематике.

72 Назовите характеристики БД

Характеристиками БД и потоков данных являются:

объем данных в логических и физических единицах;

объем потока данных в единицу времени;

доступность данных 24*7*365;

оперативность поступления данных;

полнота БД в % — относительное число объектов или документов, имеющихся в БД, к общему числу объектов по данной тематике или по отношению к числу объектов в аналогичных БД;

актуальность - устаревание во времени — относительное число устаревших данных об объектах в БД к общему числу накопленных и обрабатываемых данных, определяется скоростью ввода в БД;

оперативность доведения - время в течение которого данные становятся доступны пользователям.

качество (достоверность) данных - вероятность ошибки (управление 10-4 10-5; планирование - 10-5 , статистика -10-5 , бухучет - 10-6 -10-7). Обеспечение вероятности ошибок выше, чем 10-4 требует увеличения капитальных и эксплуатационных затрат до 50%, времени программирования до 50%, времени работы программ, персонала;

идентичность — относительное число описаний объектов, не содержащих дефекты и ошибки, к общему числу документов об объектах в БД;

ценность полученной информации определяется потребностью человека в этой информации и его подготовленностью к ее восприятию и использованию;

точность определения атрибутов;

формы представления (таблицы, графики, карты, тексты, мультимедиа).

Влияние характеристик БД на затраты, связанные с получением и ценностью данных, табл.3.

Характеристика БД

Влияние на затраты по получению информации

Влияние на ценность информации

Доступность

Затраты на поиск

Увеличение доступности увеличивает полезность данных

Объем данных

Увеличиваются затраты на ведение БД

Рост объемов увеличивает потенциальную полезность

Актуальность

Требует затрат на разработку соответствующих технологи и их эксплуатацию

Чем быстрее данные будут доступны, тем быстрее пользователь может их увидеть

Оперативность доведения

Требует затрат на разработку и эксплуатацию соответствующей технологии

Чем быстрее данные будут доступны, тем лучше будет решение

Полнота БД

Достижение 100% полноты сопряжено с трудностями реализации и связано со значительными затратами

Очень важна

Качество данных

Требует затрат на разработку

Чрезвычайно важна

Точность определения атрибутов

Обходится все дороже и дороже

Не столь полезна, как об этом принято думать, т.к. случайные наблюдения в океане в пространстве и во времени дают большую ошибку при вычислении климатических характеристик

Форма представления

Требует затрат на разработку соответствующих приложений

Очень важна

Таблица 3 - Влияние характеристик БД на затраты, связанные с ее получением и ценностью данных

Соседние файлы в папке Экзамен