Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции ОТИ - копия.doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
8.91 Mб
Скачать

Занятие №6

Сбор и подготовка информации к автоматизированной обработке. Качественный и количественный анализ данных.

Общая характеристика современного состояния анализа данных.

На сегодняшний день данные, ЭВМ и пользователь составляют ту триаду, которая лежит в основе анализа данных. Анализ данных – это совокупность методов и средств получения определённым образом организованных данных информации для принятия решений. Оптимальные принципы анализа данных берутся из математической статистики (главным образом, теории статистических решений, теории оценок и теории игр.

Применение формальных методов анализа данных не даёт надлежащего результата, если не разобраться с тем, как и какие данные можно и нужно вводить в обработку, для чего нужен результат что с ним можно, а чего нельзя делать.

Роль ЭВМ в процессе анализа данных характеризуется двумя аспектами: она служит инструментом для быстрого расчёта и аккумулятором знаний, потому что машинные программы дают возможность использовать знания и умения других людей. Поэтому использование ЭВМ – это фактически использование опыта специалистов по анализу данных, умноженного на скорость выполнения рутинной работы.

Последней составляющей названной триады являются пользователи, под которыми подразумевают всех тех, кто использует ЭВМ для решения своих прикладных задач. Класс пользователей неоднородный. Большинство составляют пользователи, которые не имеют навыков программирования, но, как правило, являются профессионалами в своей предметной области и имеют глубокие знания о природе тех данных, которые они обрабатывают.

В связи с ростом количества непрофессиональных пользователей знание ими методов и приёмов анализа данных является очень важным.

В настоящее время существует не так много отличающихся один от одного и стойко работающих на реальных данных математических методов (базовые методы). Существуют также методы, аналогичные базовым, которые дают приблизительно такие же результаты в большинстве практических ситуаций и отличаются от них в деталях, и методы для «утончённых» и «идеальных» данных, которые, конечно же, не могут применяться на практике из-за отсутствия необходимых условий, но позволяют специалисту по анализу данных оценивать путём сопоставления структуры выходных данных. Две последних группы преобладают над двумя первыми.

Если глубже вникнуть в причины возникновения этой ситуации, то легко убедиться, что она вызвана неодинаковым подходом к процессу обработки данных. Математика работает с абстрактными моделями, но любая модель построена на системе чётких и однозначных понятий, принципов, аксиом, но только в рамках этой формальной системы.

Но как только дело касается реальных данных, то возникает масса вопросов о соответствии принятой модели реальной ситуации. Множество существующих формальных методов, хотя и основываются на проверенных моделях, но имеют ограниченное применение из-за того, что реальные данные, отвечающие этим моделям, встречаются не очень часто.

Очевидно, сегодня можно говорить о новом этапе развития прикладных статических методов, направленных на исследование природы обрабатываемых данных с позиций определения их реальности и системности. Реальность предусматривает использование предпосылок и сравнение результатов, всегда ориентируясь на единый критерий истинности. Системность допускает всестороннее (и, как правило, многократное) рассмотрение не только самих данных, но и неформальных знаний специалиста предметной области и специалиста по анализу данных, учёт внешних параметров и связей объекта исследований и т.д.

Основные технологические этапы анализа данных

Конечной целью анализа данных является получение информации, на основании которой могут приниматься правильные решения.

Основные этапы технологии анализа данных показаны на рис. 6.1.

Этап 1. Постановка задачи.

    1. Определение цели исследования.

    2. Определение состава и форм представления данных

Этап 2.Качественный анализ данных.

2.1. Группировка данных.

2.2. Визуализация данных.

2.3. Информационное описание и снижение размерности данных.

2.4. Описание целевого признака.

2.5. Классификация данных и распознавание образов.

2.6. Анализ данных на однородность.

2.7.Интерпретация результатов анализа данных.

Этап 3. Количественный (численный) анализ данных.

3.1. Определениеобъёмов выборок.

3.2. Построение гистограммы и аппроксимация эмпирических функций распределения.

3.3. Вычисление числовых характеристик распределения.

3.4. Определение характеристик стохастической взаимосвязи.

Рис. 6.1. Технология анализа данных.

Дадим краткую характеристику каждого из этапов анализа данных.

Начинается он со стадии формулирования цели всего исследования, ради которой и начинается сбор и обработка данных. Например, целью исследования может быть определена себестоимость продукции, выделение причин заболеваемости определённым заболеванием и т.д. Исходя из цели, определяется форма представления данных, которые необходимо проанализировать.

Одна из типичных ошибок исследователей состоит в том, что сначала собираются данные, а потом начинают формулировать задание относительно их обработки.

В этом случае цель исследования подменяется этой или другой узкой целью обработки уже собранных конкретных данных. Основное отличие состоит в том, что заранее собранные данные могут отражать совсем иные характеристики явления, чем те, которые важны для заданной цели.

Типичной формой представления данных является таблица «объект-признак», в которую вносятся значения признаков (свойств), которые характеризуют каждый исследуемый объект. Примерами признаков могут быть «масса», «длина», «цвет», «профессия», «цена», «люди», «изделия» и др. Таблицей такого вида принято называть таблицей или матрицей экспериментальных данных (ТЭД). Это название необходимо трактовать шире, говоря не об экспериментальных данных, а о данных научного исследования. Состав данных – это, прежде всего, состав признаков, характеризующих объекты. Каждый реальный объект имеет бесконечное число разнообразных свойств, отражающих его разные стороны. Естествеенно, что в каждом конкретном исследовании существенными являются не все свойства, а только ограниченный их набор, определяющий важнейшие признаки. Выделить их – задание специалиста предметной области; никто другой, включая специалиста по анализу данных, этого сделать не может. Необходимо также решить, как представлять в таблице значения количественных признаков и др.

Следующим этапом анализа данных является этап, на котором поставленная задача решается на качественном уровне. Это, прежде всего, означает процедуру подачи данных в визуальной форме, чтобы увидеть их способность для проверки визуальных гипотез или выбранных моделей. Именно увидеть, поскольку зрительный анализатор человека – канал, по которому мозг получает наибольший объём внешней информации. Самое главное то, что эта информация может быть не формализованной и в то же время, почти одинаково, восприниматься людьми с разным уровнем подготовки, и которые работают в разных областях знаний. На этапе качественного анализа данных основные гипотезы касаются структуры данных – именно их необходимо исследовать. Поэтому задача состоит в построении проекции данных на разные пары признаков (на какие именно – нужно определить, исходя из выдвинутой гипотезы); исследовании отдельных признаков; поиске дублирующих друг друга или избыточных признаков и т.д.

Гипотез, объясняющих явление, может быть множество, поэтому, должен быть аппарат, помогающий совершать их проверку. В анализе данных таким аппаратом является вычислительный эксперимент с данными, то есть применение к данным определённого метода машинной обработки. Вычислительный эксперимент является одним из общих методолгий использования вычислительной техники в разнообразаных областях – методологией проверки гипотез, выдвинутых исследователями, с помощью машинных методов или моделей.

Если вычислительный эксперимент можно назвать стратегией анализа данных, то тактикой его правомерно считать сопоставление результатов применения разноообразных алгоритмов обработки. На единичный результат работы какой-то программы редко можно положиться. Слишком много параметров может повлиять на него (причем часто независимых от самих данных или математических методов).

Результаты работы нескольких программ, как правило, свидетельствуют про большее, но при этом необходимо внимательно подходить к выбору этих методов, которые применяются для обработки.

Этих же принципов следует придерживаться и на других этапах анализа, прежде всего, на этапе численного анализа данных. Если при качественном анализе объектом исследования была структура данных, а результатом, как правило, - информация о классе моделей, которыми можно описать явление, то на этапе количественного описания обычно ведётся поиск параметров этих моделей.

Вычислительный эксперимент даёт возможность испытать разнообразные варианты моделей, например, искать разообразные средства информационного описания данных, а сравнительный анализ помогает выбрать лучшие варианты, которые имеют право на существование не только как формальные результаты экспериментирования, но и как содержательно значимая информация о предметной области.

Отметим, что в процессе количественного описания данных (например, при построении правила распознавания) очень часто возникает необходимость возврата к более ранним этапам обработки и повторения всего цикла исследования. Это может быть вызвано и найденными ошибками в данных, и осознанием необходимости сбора и обработки дополнительного материала.

Последний этап решения задачи анализа данных – интерпретация результатов и принятия решений.

Все полученные на ЭВМ результаты специалист по анализу данных может интерпретировать, не выходя за рамки понятий анализа данных, в терминах информативных признаков, группировок объектов и т.д. Пользователь же каждый раз сравнивает полученный результат (или интерпретацию специалиста по анализу данных), выданный ему в цифровой или грфической форме, со своими собственными представлениями об исследуемом явлении.

Таким образом, происходит двоякое осмысление результатов – сначала в рамках анализа данных, а потом в рамках предметной области, причём второе невозможно без первого. Процедура интерпретации результатов обработки данных осуществляется более легко, если более удобной является форма выдачи результатов на экране монитора или на печати.

Принятие решения в рамках каждой предметной области индивидуально и не может быть типизированным.

Достаточно распространённой здесь ошибкой есть иллюзия, что вроде бы как полученный результат уже и является принятым решением.

Каждый алгоритм обработки даёт один из возможных результатов (ВР). При анализе совокупности ВР, полученных с помощью ряда алгоритмов, возможны три ситуации:

  1. Все ВР сходятся (это бывает очень редко в практических задачах). В этом случае решение задачи можно считать достигнутым в силу получения единого результата;

  2. ВР частично сходятся. В этом случае можно выделить общую часть, как возможный достоверный результат (ВДР), и анализировать его с о следующей интерпретацией в терминах соответствующей предметной области;

  3. ВР противоречаи друг другу. Этот случай означает, что задача былы сформулирована некорректно и необходима её корректировка с возможными изменениями, как в экспериментальном материале (вплоть до сбора новых данных), так и в совокупности алгоритмов, которые при этом используются.