- •Лекции по курсу «Системы обработки экономической информации»
 - •Тема 1. Общее представление о Data Mining
 - •1. Что такое Data Mining
 - •2. Области использования Data Mining
 - •3. Типы закономерностей
 - •Классы систем Data Mining
 - •Тема «Документальные (полнотекстовые) системы данных и знаний»
 - •1. Назначение и основные понятия
 - •Общая функциональная структура дипс
 - •3. Формальное представление смыслового содержания текста
 - •Тема «Обработка и поиск текстовой информации»
 - •Обработка входящей текстовой информации
 - •Поиск текстовой информации
 - •Эффективность дипс
 - •1. Обработка входящей текстовой информации
 - •2. Поиск текстовой информации
 - •Оценка качества дипс
 - •Тема «знания и их представление»
 - •Понятие о знании
 - •Логические модели
 - •3. Продукционные модели
 - •4. Фреймовая модель представления знаний
 - •5.Семантические сети
 - •Тема «Особенности обработки информации у человека»
 - •1. Основные понятия
 - •2. Конструкт как единица мыслительной деятельности
 - •3. Понятие как единица мыслительной деятельности
 - •4. Мысленные модели
 - •5. Когнитивные модели.
 - •6. Объектно-схемные или качественные модели.
 - •7. Синтез моделей с различными уровнями семантики и формализации
 - •Тема «Нейросети»
 - •Назначение и основные понятия
 - •Одиночный нейрон
 - •Простые нейросети
 - •Назначение и основные понятия
 - •2. Структура нейросетей
 - •Тема «Нейросети»
 - •1. Методы обучения нейронных сетей
 - •2. Модель нейронной сети с обратным распространением ошибки
 - •1. Методы обучения нейронных сетей
 - •Применение нейросетей
 - •1) Общая характеристика нейросетевых технологий
 - •2 Классы решаемых задач
 - •3) Области использования нейросетей
 - •Общая характеристика нейросетевых технологий
 - •2. Классы решаемых задач
 - •3. Области использования нейросетей
 - •Тема «Генетические алгоритмы»
 - •Классы задач оптимизации
 - •Методы решения оптимизационных задач
 - •Эволюционные вычисления
 - •Основы теории генетических алгоритмов
 - •Решение задач с помощью генетических алгоритмов
 - •Генетические алгоритмы и нейросети
 - •Тема «Метод группового учета аргументов»
 - •Особенности моделирования экономических систем
 - •Идеология и использование мгуа
 - •Общее описание метода мгуа
 - •Особенности моделирования экономических систем
 - •Идеология и использование мгуа
 - •Общее описание метода мгуа
 - •Вопросы к 1 модулю «Системы обработки экономической информации»
 - •1. Что такое Data Mining
 - •Области использования Data Mining
 - •Классы систем Data Mining
 
	
Лекции по курсу «Системы обработки экономической информации»
Тема 1. Общее представление о Data Mining
Вопросы:
Что такое Data Mining
Области использования Data Mining
Типы закономерностей
Классы систем Data Mining
1. Что такое Data Mining
С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.
Главная причина – недостаточность концепции усреднения по выборке для поиска неизвестных закономерностей. Методы статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для грубого разведочного анализа, составляющего основу оперативной аналитической обработки данных (OLAP).
В основу современной технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений (как это делается в статистике) о структуре распределения и виде распределения значений анализируемых показателей.
Примеры характерных различий между традиционной статистикой (OLAP) и Data Mining приведены в таблице 1.
OLAP (статистика)  | 
		Data Mining  | 
	
Каковы средние показатели травматизма для курящих и некурящих? 
 Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?  | 
		Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму? Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?  | 
	
Важная особенность Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. Сырые данные (raw knowledge) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.
Сущность Data Mining можно определить следующими положениями:
Data Mining – это процесс обнаружения в сырых данных:
ранее неизвестных;
нетривиальных;
практически полезных;
доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
2. Области использования Data Mining
Методы Data Mining могут использоваться практически во всех областях человеческой деятельности. Однако наибольшее распространение они получили:
В торговле:
анализ покупательской корзины с целью выяснения товаров, которые покупатели стремятся приобрести вместе;
исследование временных шаблонов и создание прогнозирующих моделей с целью оптимизации запасов.
В банковском деле:
для выявления мошенничества с кредитными карточками;
сегментации клиентов;
прогнозирования изменений клиентуры.
Специальные приложения:
медицина – для создания экспертных систем по постановке медицинских диагнозов;
молекулярная генетика и генная инженерия: для расшифровки генома человека и наследственных заболеваний;
прикладная химия – для анализа высокомолекулярных соединений и создания соединений с требуемыми свойствами: лекарства, парфюмерия и т.д.
