Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции КТ.docx
Скачиваний:
44
Добавлен:
30.03.2015
Размер:
133.01 Кб
Скачать

Государственное образовательное учреждение высшего профессионального образования

«ОМСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Конспект лекций

по дисциплине «Компьютерные технологии»

направление подготовки магистров

230100.68 Информатика и вычислительная техника

по профилю подготовки

«Компьютерный анализ и интерпретация данных»

Омск 2011 г.

Лекция 1.

Введение в анализ данных

Анализ данных — широкое понятие. Сегодня существуют десятки его определений. В самом общем смысле анализ данных — это исследования, связанные с обсчетом многомерной

системы данных, имеющей множество параметров. В процессе анализа данных исследователь

производит совокупность действий с целью формирования определенных представлений о

характере явления, описываемого этими данными. Как правило, для анализа данных

используются различные математические методы.

Анализ данных нельзя рассматривать только как обработку информации после ее сбора.

Анализ данных — это прежде всего средство проверки гипотез и решения задач

исследователя.

Известное противоречие между ограниченными познавательными способностями человека и бесконечностью Вселенной заставляет нас использовать модели и моделирование, тем самым упрощая изучение интересующих объектов, явлений и систем.

Слово «модель» (лат. modelium) означает «меру», «способ», «сходство с какой-то вещью». Построение моделей — универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать_)Y__, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.

Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств

Моделирование — универсальный метод получения, описания и использования

знаний. Применяется в любой профессиональной деятельности.

По виду моделирования модели делят:

§ на эмпирические — полученные на основе эмпирических фактов, зависимостей;

§ теоретические — полученные на основе математических описаний, законов;

§ смешанные, полуэмпирические — полученные на основе эмпирических зависимостей и математических описаний.

Нередко теоретические модели появляются из эмпирических, например, многие законы физики первоначально были получены из эмпирических данных.

Таким образом, анализ данных тесно связан с моделированием.

Отметим важные свойства любой модели.

§ Упрощенность. Модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения.

§ Конечность. Модель отображает оригинал лишь в конечном числе его отношений, и, кроме того, ресурсы моделирования конечны.

§ Приближенность. Действительность отображается моделью грубо или приближенно.

§ Адекватность. Модель должна успешно описывать моделируемую систему.

§ Целостность. Модель реализует некоторую систему (то есть целое).

§ Замкнутость. Модель учитывает и отображает замкнутую систему необходимых основных гипотез, связей и отношений.

§ Управляемость. Модель должна иметь хотя бы один параметр, изменениями которого можно имитировать поведение моделируемой системы в различных условиях.

Принципы анализа данных

Процесс анализа

В информационном подходе к анализу данных помимо модели присутствуют еще три важные

составляющие: эксперт, гипотеза и аналитик.

Эксперт — специалист в предметной области, профессионал, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к конкретной предметной области.

Эксперт — ключевая фигура в процессе анализа. По-настоящему эффективные аналитические решения можно получить не на основе одних лишь компьютерных программ, а в результате сочетания лучшего из того, что может человек и компьютер. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те или иные модели.

Аналитик — специалист в области анализа и моделирования. Аналитик на достаточном уровне владеет какими-либо инструментальными и программными средствами анализа данных, например методами Data Mining. Кроме того, в обязанности аналитика входят функции систематизации данных, опроса мнений экспертов, координации действий всех участников проекта по анализу данных.

Аналитик играет роль «мостика» между экспертами, то есть является связующим звеном между специалистами разных уровней и областей. Он собирает у экспертов различные гипотезы, выдвигает требования к данным, проверяет гипотезы и вместе с экспертами анализирует полученные результаты. Аналитик должен обладать системными знаниями, так как помимо задач анализа на его плечи часто ложатся технические вопросы, связанные с базами данных, интеграцией с источниками данных и производительностью.

Поэтому в дальнейшем главным лицом в анализе данных мы будем считать аналитика,

предполагая, что он тесно сотрудничает с экспертами предметных областей.

Несмотря на то что существует множество аналитических задач, методы их решения можно разделить на две основные группы методов их решения (рисунок 1):

§ извлечение и визуализация данных;

§ построение и использование моделей.

Извлечение и визуализация данных

Чтобы получить новые знания об исследуемом объекте или явлении, не обязательно строить сложные модели. Часто достаточно «посмотреть» на данные в нужном виде, чтобы сделать определенные выводы или выдвинуть предположение о характере зависимостей в системе, получить ответ на интересующий вопрос. Это помогает сделать визуализация.

В случае визуализации аналитик некоторым образом формулирует запрос к информационной системе, извлекает нужную информацию из различных источников и просматривает полученные результаты. На их основе он делает выводы, которые и являются результатом анализа. Существует множество способов визуализации данных:

§ OLAP (кросс-таблицы и кросс-диаграммы);

§ таблицы;

§ диаграммы, гистограммы;

§ карты, проекции, срезы и т. п.

Лекция 2