Скачиваний:
43
Добавлен:
08.04.2015
Размер:
255.49 Кб
Скачать

Глава 1. Анализ данных в управлении: определения и инструментарий

1.1. Современное понятие анализа данных

Термин «анализ данных» – ключевое понятие в методологии науки. Понимание сущности анализа данных изменялся с развитием статистических методов обработки данных, и в настоящее время чаще всего говорят об «интеллектуальном анализе данных», как не вполне удачном переводе англоязычного термина «data mining».

«Родоначальником» этого термина являлся Дж. Тьюки, известный специалист в области математической статистики [1, 135, 137, 223, 290]. Развернутое определение термина «анализ данных» дано В.В. Пржиялковским: «... на стыке математики и информатики (исследование операций, математические методы оптимизации, распознавание образов, искусственный интеллект) уже давно существует много разных течений и направлений, ориентированных как раз на анализ данных. К ним относятся все виды визуализации данных, методы предварительной обработки данных (слияние, редактирование, преобразование, фильтрация, получение выборок), проектирование данных, средства и методы исследования данных, машинное обучение, нейронные сети, нечеткая логика, статистические и другие методы распознавания образов, фильтрация знаний и многое другое. В совокупности эти методы и алгоритмы можно назвать средствами сложного анализа, или обработки, данных. Общий принцип такого анализа иногда формулируют как «получение знаний (информации) из данных» [168].

В приведенном определении, как и в названии статьи В.В. Пржиялковского, фигирурует словосочетание «сложный анализ данных», что близко к термину «интеллектуальный анализ данных». В обоих случаях речь идет о новых возможностях ввода и обработки информации, предоставляемых современными компьютерными технологиями. Если раньше стремились к «свертыванию» значительных объемов информации не только для удобства анализа, но и для сокращения объема «вторичных» данных, поступающих на дальнейшую «высокую» статистическую обработку, то с появлением и широким распространением мощных ПЭВМ, равных по своим возможностям переработки информации бывшим «суперкомпьютерам», стало возможным непосредственно работать с огромными объемами информации, что позволяет сохранить исходный массив данных, не свести их к сравнительно небольшому числу итоговых средних, при подсчете которых исследователь всегда исходит из своей концепции группировки, необходимой ему в данный момент, для решения данной конкретной задачи.

В последние годы все чаще в русскоязычной научной литературе вместо термина «интеллектуальный анализ данных» используется термин «data mining». Как отмечалось выше, этот термин не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации), и в большинстве случаев используется в оригинале.

Важно, что инструменты data mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями. Это важно и в сфере исследования рынка труда и образовательных услуг, где из-за недостаточно уверенного владения математическим аппаратом статистического анализа предметные специалисты при обработке результатов эмпирических исследований ограничиваются обсуждением одномерных зависимостей, тогда как использование инструментов data mining позволяет проводить более «глубокую» их обработку и в прямом смысле «извлекать знания из данных».

Это особенно печально, поскольку на отечественном рынке программного обеспечения в настоящее время появились инструменты data mining, адаптированные к применению русскоязычными пользователями. Законодателем в данной сфере является фирма СПСС «Русь», которая разместилась в здании института социологии РАН.

Так что же предлагает специалистам эта фирма? Обратимся к рекламе фирмы СПСС «Русь», ориентированной на представителей бизнеса, поскольку программные продукты, поддерживающие технологии data mining, весьма дорогие и не всегда доступны менее обеспеченным специалистам-аналитикам. Ниже приводятся выдержки из этой рекламы.

1. Что такое data mining? Data mining (добыча знаний) – это процесс выявления скрытых фактов и взаимосвязей в больших массивах данных. Data mining разрешает распространенный парадокс: чем больше накапливается данных о клиентах, тем сложнее и дольше эффективно анализировать эти данные и получать значимые выводы. То, что, по идее, должно быть золотоносной жилой, обычно остается неисследованным из-за отсутствия подходящего персонала, недостатка времени и навыков. Data mining задействует четкое понимание бизнеса и мощные аналитические технологии для быстрого и тщательного изучения больших массивов данных с целью извлечения ценной информации – бизнес-аналитики (business intelligence), необходимой для принятия эффективных решений.

2. Для чего нужна технология data mining? Data mining дает возможность управлять будущим Вашего бизнеса и изменять его, путем понимания прошлого и настоящего и точного прогнозирования. Ваши решения основаны на глубокой бизнес-аналитике, а не на инстинктах или чувствах. И эти решения позволяют достигать устойчивых результатов, оставляя позади Ваших конкурентов.

3. Какие бизнес-проблемы решает data mining? Data mining можно использовать для решения любых бизнес-проблем, в которых фигурируют данные, начиная от понимания желаний и потребностей, а также мониторинга эффективности бизнеса, и заканчивая увеличением прибыльности подразделения или целого предприятия.

4. Как data mining помогает другим клиентам SPSS решать бизнес проблемы? Продукты и услуги для data mining компании SPSS позволили сотням компаний достичь замечательных результатов во многих сферах бизнеса. Вот один из примеров того, какое влияние data mining оказывает на успешное ведение бизнеса: HSBC Bank USA увеличил продажи почти на 50% и снизил основные маркетинговые издержки на 30%.

5. Какие продукты SPSS используются для data mining? Укажем три из них:

- Clementine – инструмент, позволяющий задействовать бизнес-экспертизу на каждом этапе процесса data mining, и, таким образом, создавать мощные прогностические модели, предназначенные для решения конкретных бизнес-задач;

- SPSS – позволяет использовать мощные статистические методы для усовершенствования процесса принятия решений;

- SPSS Classification Trees – позволяет выполнять сегментацию при помощи масштабируемых деревьев решений.

Согласно рекламе фирмы СПСС «Русь», в течение последних двух лет пользователи называют Clementine наиболее часто используемым инструментом в опросе, проводимом KDnuggets, ведущим Веб-сайтом по тематике data mining и web mining, а SPSS для Windows и SPSS Classification Trees занимали в этих опросах вторые места.

Мы полагаем, что нет необходимости в использовании столь дорогих программ, как Clementine; наш опыт показывает, что для глубокого анализа самых разнообразных данных можно успешно использовать два программных продукта семейства data mining: базовый модуль пакета анализа данных общественных наук SPSS Base для Windows и нейросетевой пакет Neural Connection 2.1.

В 1998-1999 гг. цена программных продуктов SPSS Base 8.0 для Windows и Neural Connection 2.1 составляла 980 долл. США (на одного пользователя), а в настоящее время цены на продукты семейства SPSS существенно выросли. Так, цена на одного пользователя пакета SPSS Base 13.0 составляет: при количестве пользователей 1-5 – 44 тыс. руб.; при количестве пользователей 6-15 – 37 тыс. руб.; при количестве пользователей более 15 – 31 тыс. руб. Дорогими являются и услуги специалистов российского офиса компании SPSS по обучению приемам работы в программной среде инструментов data mining – табл. 1.1.

Таблица 1.1

Стоимость обучения, тыс. руб. (курсы продолжительностью 2 дня)

Курс

Для зарегистрированных пользователей

Для незарегистрированных пользователей

SPSS Base 13.0

Clementine 8.0

SPSS Base 13.0

Clementine 8.0

Регулярный

15

30

30

60

Индивидуальный / корпоративный

26

52

52

104

Из табл. 1.1 видно, что стоимость обучения приемам работы в программной среде инструментов data mining сравнима с их стоимостью.

Сравнительная характеристика базового модуля пакета анализа данных общественных наук SPSS Base для Windows, нейросетевого пакета Neural Connection 2.1, а также инструмента Clementine приведена в табл. 1.2.

Таблица 1.2

Сравнительная характеристика некоторых программных продуктов data mining

Clementine 8.0

Neural Connection 2.1

SPSS Base 8.0 …16.0

Clementine – лидирующий инструмент для data mining.

В отличие от других инструментов data mining, которые не обеспечивают поддержку всего бизнес-процесса data mining от начала до конца, а фокусируются только на построении моделей и увеличении производительности – Clementine поддерживает весь процесс data mining, что позволяет сократить время получения оптимального решения.

В пакете реализованы новейшие нейросетевые методы анализа временных рядов, прогноза и классификации.

Система особенно эффективна для нахождения взаимосвязей и нелинейных зависимостей в данных.

Широко применяется для анализа и прогноза финансовых временных рядов, в нелинейных задачах классификации.

Включает нейросетевые методы: многослойный персептрон, Бейесову сеть, радиальную базисную функцию, сеть Кохонена, а также ряд классических методов статистики: множественную линейную регрессию, классификацию по ближайшим соседям, анализ главных компонент.

Наиболее распространенный, мощный и удобный инструмент статистического анализа.

Предоставляет широкие возможности по представлению результатов статистической обработки в текстовой, табличной и графической формах (диаграммы, гистограммы и т.п.).

Интерфейс программы интуитивно понятен пользователю любого уровня и позволяет применить различные варианты статистического анализа к имеющимся данным. Простые меню и диалоги делают возможным выполнение сложных видов статистического анализа без использования командной строки синтаксиса.

Итак, использовать инструменты data mining «по максимуму» – недешевое удовольствие. Однако наш практический опыт показывает, что совсем не обязательно прибегать к столь дорогим услугам специалистов российского офиса компании SPSS, приобретать право пользования дорогостоящих инструментов типа Clementine. Вполне достаточно располагать одной-двумя инсталляциями сравнительно недорогого базового модуля SPSS Base, начиная с версии 8.0, чтобы получить возможность выполнять практически все необходимые для исследователей работы по интеллектуальному анализу данных. «Секрет» в том, что инструменты data mining типа Clementine рассчитаны на совсем уж неподготовленного пользователя, тогда как при соответствующей организации исследовательской работы в вузе или институте можно добиться надлежащих результатов.

Соседние файлы в папке моно_2012_Шуметов_Крюкова