- •Задание
- •5. Литература, пособия
- •6. Дата выдачи задания __________________________________________________________
- •7. Срок сдачи студентом законченного проекта
- •Введение
- •1. Общие сведения о кластеризации
- •Результаты кластеризации должны быть представлены в удобном для обработки виде, чтобы осуществить оценку качества кластеризации. Обычно используется один из следующих способов:
- •Алгоритмы кластеризации
- •2. Сеть кохонена
- •2.2 Обучение сети Кохонена
- •Заключение
- •Библиографический список.
Библиографический список.
1. Руденко О.Г., Бодянский Е.В. Искусственные нейронные сети – Харьков, 2005.
2. Котов А., Красильников Н. Кластеризация данных. 2006.
3. Jain A.K., Murty M.N., Flynn P.J. Data Clustering: A Review "(http://www/csee/umbc/edu/nicolas/clustering/p264-jain.pdf)
4. Kogan J., Nicholas C., Teboulle M. Clustering Large and High Dimensional Data (http://www/csee/umbc/edu/nicolas/clustering/tutorial.pdf)
5. Медведев В.С., Потемкин В.Г. Нейронные сети. MATLAB 6 – М.: ДИАЛОГ-МИФИ, 2002.
6. Круглов В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика – М.: Горячая линия - Телеком, 2001.
7. Каллан Р. Основные концепции нейронных сетей – «Вильямс», 2001.
8. Воронцов К.В. Алгоритмы кластеризации и многомерного шкалирования. Курс лекций. МГУ, 2007.
9. Чубукова И.А. Курс лекций «Data Mining», Интернет-университет информационных технологий —www.intuit.ru/department/database/datamining
10. Прикладная статистика: классификация и снижение размерности. / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин — М.: Финансы и статистика, 2006.
Приложение 1
Предположим, что транзакции хранятся в таблице базы данных. Лучшее решение ищется в течение последовательного итеративного перебора записей базы данных. Поскольку критерий оптимизации имеет глобальный характер, основанный только на расчете H и W, производительность и скорость алгоритма будет значительно выше, чем при попарном сравнении транзакций.
Реализация алгоритма требует первого прохода по таблице транзакций для построения начального разбиения, определяемого функцией Profit(C,r). После этого требуется незначительное (1-3) количество дополнительных сканирований таблицы для повышения качества кластеризации и оптимизации функции стоимости. Если в текущем проходе по таблице изменений не произошло, то алгоритм прекращает свою работу. Псевдокод алгоритма имеет следующий вид.
// Фаза 1 – инициализация
Пока не конец
прочитать из таблицы следующую транзакцию [t, -];
положить t в существующий либо в новый кластер Ci, который дает максимум Profit(C,r);
записать [t,i] в таблицу (номер кластера);
// Фаза 2 – Итерация
Повторять
перейти в начало таблицы;
moved := false;
пока не конец таблицы
читать [t,i];
положить t в существующий либо в новый кластер Cj, который максимизирует Profit(C,r);
если Ci<>Cj тогда
записать [t,i];
moved := true;
пока (not moved).
удалить все пустые кластеры;
Как видно, алгоритм CLOPE является масштабируемым, поскольку способен работать в ограниченном объеме оперативной памяти компьютера. Во время работы в RAM хранится только текущая транзакция и небольшое количество информации по каждому кластеру, которая состоит из: количества транзакций N, числа уникальных объектов (или ширины кластера) W, простой хэш-таблицы для расчета Occ(i,C) и значения S площади кластера. Они называются кластерными характеристиками (CF – cluster features). Для простоты обозначим их как свойства кластера C, например, C.Occ[i] означает число вхождений объекта i в кластер C и т.д. Можно посчитать, что для хранения частоты вхождений 10 тыс. объектов в 1 тыс. кластерах необходимо около 40 Мб оперативной памяти.
Для завершения реализации алгоритма нам нужны еще две функции, рассчитывающие прирост Profit(C,r) при добавлении и удалении транзакции из кластера. Это легко сделать, зная величины S,W и N каждого кластера:
function DeltaAdd(C,t,r): double;
begin
S_new := C.S + t.ItemCount;
W_new := C.W;
for i:=0 to t.ItemCount–1 do
if (C.Occ[t.items[i]]=0) then W_new := W_new + 1;
result := S_new*(C.N+1)/(W_new)r–C.S*C.N/(C.W)r
end;