Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2117

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
1.18 Mб
Скачать

p(xi ) F(xi ) /

F(x j ) , j 1,..., n .

j

 

Другим генетическим

оператором, оказывающим

большой влияние на алгоритм в целом, является оператор скрещивания (кроссовер). Пусть для скрещивания выбираются родительские хромосомы x p1 и x p2 , имеющие набор генов

{p11,..., p1s} и {p12 ,..., ps2}, соответственно, s – количество генов в хромосоме; в результате применения оператора кроссовера образуются дочерние хромосомы x ch1 и x ch2 .

Выделяют следующие методы скрещивания хромосом:

– одноточечное – обе родительские хромосомы делятся на две части, потомки получаются путем простого копирования первой части одного родителя и второй части другого, т. е.

xch1

{p11,..., p1g 1, pg2 ,..., ps2},

xch2

{p12 ,..., pg2

1, p1g ,..., p1s },

где g – выбранная точка деления хромосомы;

двухточечное – родительские хромосомы делятся на три части, потомки копируют первую и третью часть у одного родителя, а вторую у другого.

равномерное – потомки наследуют каждый ген с заданной вероятностью от одного или другого родителя.

арифметическое – каждый ген потомков является линейной комбинацией соответствующих генов родительских хромосом, при этом пропорции комбинации определяются заданным коэффициентом.

После скрещивания хромосом и получения нового поколения популяции применяется оператор мутации хромосом, целью которого является поддержание генетического разнообразия или, в терминах задач оптимизации, предотвращение преждевременной стагнации алгоритма в область локального оптимума. Как правило, вероятность мутации хромосом составляет не более 0.01.

81

Пример. Продемонстрируем процедуру формирования одного поколения популяции. Необходимо найти максимум

функции f (x) x 2 на интервале [0; 15] .

Пусть первое поколение популяции состоит из четырех случайным образом сгенерированных хромосом (табл. 11).

 

 

 

 

Таблица 11

 

 

 

 

 

 

Номер

Двоичный

Десятичный

Значение

Вероятность

 

код

код

целевой

выбора

 

хромосомы

 

хромосомы

хромосомы

функции

хромосомы

 

 

 

1

0010

2

4

0.02

 

2

1001

9

81

0.32

 

3

0101

5

25

0.10

 

4

1100

12

144

0.57

 

Согласно методу рулетки для скрещивания с большей вероятностью будут выбраны хромосомы с номерами 2 и 4. Выполним одноточечное скрещивание этих хромосом, где в качестве точки деления выбирается ген номер 3. Получим хромосомы 1000 (8) и 1101 (13), которым соответствуют значения целевой функции 64 и 169.

Второе поколение популяции формируется из хромосом с наилучшими значениями целевой функции (табл. 12).

 

 

 

Таблица 12

 

 

 

 

 

Номер

Двоичный

Десятичный

Значение

 

код

код

целевой

 

хромосомы

 

хромосомы

хромосомы

функции

 

 

 

 

 

 

 

 

1

1000

8

64

 

2

1001

9

81

 

 

 

 

 

 

3

1101

13

169

 

 

 

 

 

 

4

1100

12

144

 

 

 

 

 

 

С целью поддержания разнообразия популяции выполняется мутация хромосом, при этом вероятность мутации каждой хромосомы составляет 0.01. Допустим, мутации

82

подверглась хромосома номер 2 и изменился ее третий ген. Тогда второе поколение популяции будет включать хромосомы с кодами {0010, 1011, 0101, 1100}.

4.5. Text Mining и Web Mining

Как правило, методы Data Mining применяются для анализа структурированной информации, содержащейся в таблицах БД. Однако текстовые данные достаточно сложно структурировать без потери полезной информации. Для анализа такой неструктурированной информации применяются методы Text Mining.

Text Mining (обнаружение знаний в тексте) – процесс обнаружения новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Под неструктурированными текстовыми данными

поднимается набор документов, представляющих собой логически объединенный текст без каких–либо ограничений на его структуру. Примерами таких документов являются web– страницы, электронная почта, нормативные документы и т.д. В общем случае такие документы могут быть сложными и большими и включать в себя не только текстовую, но и графическую информацию.

К задачам, решаемым с помощью методов Text Mining, относятся:

классификация – определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится;

кластеризация – автоматическое выявление групп семантически схожих документов;

автоматическое аннотирование – позволяет сократить текст, сохраняя его смысл; результат включает в себя наиболее значимые предложения в тексте;

извлечение ключевых понятий – идентификация фактов и отношений в тексте; в большинстве случаев такими

83

понятиями являются имена существительные и нарицательные

имена и фамилии людей, названия организаций и т.д.;

навигация по тексту – позволяет пользователю перемещаться по документам относительно тем и значимых терминов; это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними;

анализ трендов – идентификация трендов в документах за какой–либо период времени, например, для обнаружения тенденций изменение интересов производителей от одного сегмента рынка на другой;

поиск ассоциаций – идентификация ассоциативных отношений между ключевыми понятиями.

Процесс анализа текстовых документов включает в себя следующие этапы:

1. Поиск информации – на первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступность. Набор анализируемых документов может быть задан как пользователем вручную, так и сформирован в автоматизированном режиме по заданным критериям.

2.Предварительная обработка документов

выполняются необходимые преобразования документов для приведения их к виду, удобному для работы методов Text Mining (удаление вспомогательных и малозначимых слов, преобразование слов к нормальной форме и т.д.).

3.Извлечение информации – выделение в документах ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

4.Применение методов Text Mining – из документов извлекаются имеющиеся шаблоны и отношения.

5.Интерпретация результатов – представление результатов анализа на естественном языке или их визуализация в графическом виде.

В отличие от простой текстовой информации, данные, хранящиеся в сети Интернет, могут иметь самую разнообразную форму – текстовые файлы, изображения, звук,

84

видео, гиперссылки и т.д. Для анализа такой разнородной информации разработана специальная технология Web Mining.

Web Mining – это технология использования методов интеллектуального анализа данных для исследования

иизвлечения информации из веб–страниц. Выделяют различные категории Web Mining:

извлечение веб–контента – процесс извлечения знаний из самих документов или их описания, доступных в Интернете; данное направление основано на сочетании возможностей информационного поиска, машинного обучения

иинтеллектуального анализа данных;

извлечение веб–структур – процесс обнаружения информации, имеющей схожую структуру; данное направление

рассматривает взаимосвязи между веб–страницами с целью категоризации и поиска схожих веб–ресурсов, а также для распознавания авторских сайтов;

анализ использования веб–ресурсов – это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретенными в результате взаимодействия с одним или несколькими веб–сайтами; данное направление основано на извлечении данных из журналов посещений веб– серверов; целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.

Контрольные вопросы

1.Какие задачи решаются с помощью систем поддержки принятия решений? Какие подсистемы входят в состав СППР? Какие требования предъявляются к подсистеме ввода данных и подсистеме анализа?

2.Что такое хранилище данных? Какие виды хранилищ выделяют в зависимости от способа организации? Что такое витрина данных?

85

3.Какое представление данных называется многомерным? Что такое OLAP–технология? Какие компоненты включает OLAP–система? Какие способы реализации модели данных используются в OLAP–системах?

4.Что такое интеллектуальный анализ данных? Какие задачи решаются с помощью Data Mining?

5.Какие методы используются для решения задач Data

Mining?

6.Для чего предназначены процедуры Text Mining и Web Mining?

86

ЗАКЛЮЧЕНИЕ

Задачи обработки накопленной информации, требующие применения специальных методов анализа, встречаются во многих сферах человеческой деятельности. Для эффективного решения таких задач необходимо в равной степени обладать как теоретическими знаниями, так и практическими навыками работы в современных пакетах автоматизации статистической обработки информации.

Пособие содержит весь необходимый материал для получения теоретических знаний об основных методах статистического и интеллектуального анализа больших объемов информации.

Знания, полученные в результате изучения глав пособия, могут стать хорошей базой для успешного освоения разнообразных программных средств, предназначенных для анализа данных и самостоятельного изучения не охваченных в пособии методов обработки данных.

87

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1.Воскобойников Ю. Е. Теория вероятностей и математическая статистика (с примерами в Excel): учеб. пособие / Ю. Е. Воскобойников, Т. Т. Баланчук. Новосибирск: НГАСУ (Сибстрин). 2013. 200 с.

2.Никитина Н.Ш. Математическая статистика для экономистов / Н.Ш. Никитина. М.: Инфра–М; Новосибирск:

Изд–во НГТУ. 2001. 170 с.

3.Статистика: учеб. для вузов / под ред. И.И. Елисеевой.

СПб.: Питер. 2010. 368 с.

4.Близоруков М.Г. Статистические методы анализа рынка: учеб. пособие / М.Г. Близоруков. Екатеринбург: Ин–т управления и предпринимательства УГУ. 2008. 75 с.

5.Шмойлова Р.А. Теория статистики: учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова, Е.Б. Шувалова. М.: Финансы и статистика. 2004. 656 с.

6.Барсегян А.А. Анализ данных и процессов / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. СПб.: БХВ–Петербург. 2009. 512 с.

7.Паклин Н.Б. Бизнес–анализ: от данных к знаниям / Н.Б. Паклин, В.И. Орешков. СПб.: Питер. 2013. 704 с.

8.Боровиков В.А. Искусство анализа данных на компьютере: для профессионалов / В.А. Боровиков. СПб.:

Питер. 2003. 688 с.

9. Барковский С.С. Многомерный анализ данных методами прикладной статистики: учеб.пособие / С.С. Барковский, В.М. Захаров, А.М. Лукашов, А.Р. Нурутдинова, С.В. Шалагин. Казань: Изд–во КГТУ. 2010. 126 с.

10. Калинина В.Н. Введение в многомерный статистический анализ: учеб. пособие / В.Н. Калинина, В.И. Соловьев. М.: Изд–во ГУУ. 2003. 66 с.

11. Chakraborty R.C. Genetic Algorithms & Modeling:: Soft Computing Course Lecture 37 – 40 [Электронный ресурс].

URL:http://www.myreaders.info/html/soft_computing.html (дата обращения: 01.11.2015).

88

ОГЛАВЛЕНИЕ

 

Введение

3

1. Обработка данных с помощью методов описательной

 

статистики

4

1.1. Основные понятия и задачи

 

математической статистики

4

1.2. Методы предварительной обработки результатов

 

наблюдений

6

1.3. Графическое изображение статистических данных

9

1.4. Характеристики случайной выборки

11

1.4.1. Классификация численных характеристик

 

выборки. Показатели центра распределения

11

1.4.2. Показатели степени вариации

14

1.4.3. Показатели формы распределения

15

1.4.4. Функция распределения и плотность

 

распределения

18

1.5. Проверка статистических гипотез

20

Контрольные вопросы

21

2. Методы анализа статистических связей в результатах

 

наблюдений

23

2.1. Классификация признаков исследуемых объектов и

 

связей между ними

23

2.2. Корреляционный анализ экспериментальных данных

24

2.3. Регрессионный анализ

30

89

2.4. Дисперсионный анализ

38

Контрольные вопросы

41

3. Методы классификации и редукции данных

42

3.1. Кластерный анализ

42

3.2. Дискриминантный анализ

48

3.3. Факторный анализ

50

Контрольные вопросы

55

4. Технологии многомерного анализа данных

56

4.1. Основы организации обработки больших

 

объемов данных

56

4.2. OLAP–технология комплексного анализа

 

многомерных данных

61

4.3. Интеллектуальный анализ данных (Data Mining)

69

4.4. Методы Data Mining

72

4.4.1. Классификация методов Data Mining

72

4.4.2. Поиск ассоциативных правил

73

4.4.3. Деревья решений

75

4.4.4. Искусственные нейронные сети

76

4.4.5. Нечеткая логика

78

4.4.6. Генетический алгоритм

80

4.5. Text Mining и Web Mining

83

Контрольные вопросы

85

Заключение

87

Библиографический список

88

90

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]