Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Иформационные технологии анализа данных в MS Office.doc
Скачиваний:
268
Добавлен:
16.12.2013
Размер:
2.7 Mб
Скачать

Агрегирование данных в microsoft office

Агрегирование данных обеспечивает формирование итоговых показателей, на основе которых устанавливаются закономерности развития явлений, формируются новые итоговые показатели. Основные приемы агрегирования основаны на анализе структуры экономического показателя, состоящего из реквизитов–признаков и реквизита–основания. Схема данных показателя:

П=(Р1, Р2, Р3, … О),

Где Р – реквизит–признак, О – реквизит–основание.

 Показатель должен иметь единственный реквизит–основание.

Например, показатель «Производство продукции в цехе за день» имеет схему данных: Код Цеха, Код Продукции, Дата, Единица Измерения, Объем Выпуска.

Реквизиты–признаки: Код Цеха, Код Продукции, Дата, Единица Измерения; реквизит–основание – Объем Выпуска.

Способы агрегирования значений показателя:

  1. Суммарный объем выпуска по цеху (в стоимостном выражении) по всем видам продукции за сутки. Схема данных агрегированного показателя:

Код Цеха, Дата, Сумма (Объем Выпуска*Цена Продукции)

  1. Суммарный объем выпуска по цеху (в стоимостном выражении) по всем видам продукции за период. Схема данных агрегированного показателя:

Код Цеха, Интервал (Дата1 – Дата2), Сумма (Объем Выпуска*Цена Продукции)

  1. Суммарный объем выпуска по всем цехам (в стоимостном выражении) по всем видам продукции за сутки. Схема данных агрегированного показателя:

Интервал (Код Цеха1 – Код Цеха2), Дата, Сумма (Объем Выпуска*Цена Продукции)

  1. Суммарный объем выпуска по всем цехам (в стоимостном выражении) по всем видам продукции за период. Схема данных агрегированного показателя:

Интервал (Код Цеха1 – Код Цеха2), Интервал (Дата1 – Дата2), Сумма (Объем Выпуска*Цена Продукции)

  1. Суммарный объем выпуска по всем цехам (в стоимостном выражении) определенного вида продукции за сутки. Схема данных агрегированного показателя:

Интервал (Код Цеха1 – Код Цеха2), Код Продукции, Дата, Сумма (Объем Выпуска*Цена Продукции)

  1. Суммарный объем выпуска по всем цехам (в стоимостном выражении) определенного вида продукции за период. Схема данных агрегированного показателя:

Интервал (Код цеха1 – Код цеха2), Код продукции, Интервал (Дата1 – Дата2), Сумма (Объем выпуска*Цена продукции)

 Кроме функции Сумма применяются другие статистические функции обработки (вычисление максимума, минимума, количества и т.д.).

Схемы данных различных анализируемых показателей могут иметь совпадающие значения реквизитов–признаков. Условием объединения нескольких показателей в один массив является одинаковый состав реквизитов–признаков, имеющих совпадающие значения для различных показателей. Массив должен соответствовать требованиям третьей нормальной формы реляционной модели данных.

М=(Р1, Р2, Р3, … О1, О2, …)

Легко осуществить и обратное преобразование – разбиение массива на самостоятельные показатели.

Для хранения в машинном представлении используются:

  • Таблицы реляционной БД под управлением СУБД Access;

  • Списки (базы данных) Microsoft Excel;

  • Таблицы текстового документа Microsoft Word.

В СУБД Access агрегирование данных выполняется в запросах с помощью групповых операций. Выходная таблица содержит поля, по которым выполняется группировка, а также вычисляемые поля итогов различных функций: Sum, Avg, Count, Min, Max и др. Порядок следования полей группировки определяет схему данных итогового показателя.

В Microsoft Excel на рабочем листе подготавливается список – прямоугольная таблица, у которой:

  • Первая строка содержит имена столбцов (полей);

  • Все ячейки одного столбца имеют одинаковый формат данных;

  • От прочей информации рабочего листа список отделяется, по крайней мере, одной пустой строкой или пустым столбцом;

  • Максимальное число строк в списке – 65535, максимальное число столбцов списке – 256.

Подобная структура данных соответствует структуре реляционной таблицы базы данных, поэтому называется базой данных Excel. Существуют развитые технологии обработки данных списков. В первую очередь, это сортировка записей по указанным полям (1–3 ключа). Отсортированная таблица остается на том же месте. Для сортировки списка Microsoft Excel следует:

  • Установить курсор в ячейку списка или выделить весь список.

  • Выполнить команду меню ДанныеСортировка.

  • Указать порядок старшинства ключей сортировки, направление сортировки по каждому ключу в отдельности.

По отсортированному списку можно получить экспресс итоги, которые рассчитываются при каждой смене значений указанного поля. Итоги могут быть вложенными. Для одного и того же поля можно последовательно вычислить различные итоговые операции и наоборот, одну и ту же итоговую операцию выполнить для различных полей. Все указанные действия выполняются с помощью команды меню ДанныеИтоги.

Для извлечения части данных списка по заданным условиям отбора применяется команда меню ДанныеФильтрация: Автофильтрация/Расширенный фильтр. Выбор варианта команды зависит от условий отбора. Простые аддитивные условия в виде значения или диапазона значений отдельных полей могут быть реализованы с помощью автофильтра. Более сложные альтернативные условия требуют подготовки расширенного фильтра, использования языкаQBE(QueryByExample). При анализе данных в Microsoft Excel широко применяются сводные и консолидированные таблицы.

Текстовые документы Microsoft Word могут содержать табличные данные для анализа. Таблицы заполняются вручную либо формируются из внешних источников (баз данных, запросов) с помощью программы Microsoft Query. Как правило, в текстовом документе выполняется весьма ограниченная обработка табличных данных. В ячейки таблицы Word можно ввести формулы, использующие:

  • Встроенные функции, в том числе такие как: SUM, COUNT, AVERAGE, MAX, MIN и др.

  • Ссылки на ячейки таблицы, закладки в тексте документа.

  • Константы.

  • Знаки операции.