Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
дарыс кешены.docx
Скачиваний:
32
Добавлен:
17.02.2016
Размер:
520.3 Кб
Скачать

Салмақталған евклидтік кеңістік

(2)

кез келген хl компонентінің Х бақылау векторы болған жағдайда wl қосымша салмақты жазу керек, ол дәл осы жағдайда қолданылады. Әдетте оны 0<═wl , l=1,2,…,k болған кезде қолданылады.

Салмақты анықтау, ереже бойынша, қосымша зерттеулермен байланысты. Мысалға: ұйым сарапшыларын ұйымдастыру мен және олардың ойын өңдеумен салмақты анықтау. wl таңдауының берілгені бойынша қате қорытындыларға алып келуі мүмкін.

Хемминг арақашықтығы

Дихотомитикалық қасиеттермен тапсырылған объектілерді бөліп қарастыру өлшемі ретінде қолданылады. Бұл төмендегі формуламен анықталады:

(3)

Және қарастырылып жатқан i және j объектілерінің сәйкес мәндерінің сәйкессіздік мәніне тең болады.

Объектілерді кейбір топтастыру тапсырмаларында объектілер жақындығы бойынша кейбір функционалдық мәнді параметрлерді қолдануға болады, сол немесе басқа да объектілер арасындағы байланысты сипаттайды.

Мысалға: топтастыру тапсырмасын халық шаруашылық салаларында агрегаттық мақсатымен сала аралық баланс матрицасының негізінде шығарады. Берілген тапсырмада топтастыру объектісі болып халық шаруашылық саласы табылады.Салааралық баланс матрицасы sij элементінің жылдық қойылым сомасын сипаттайтын і-нші саланың j-салаға ақшалай мәндері болады.

Жақындық өлшем бірлігі ретінде (dij) cимметриялық нормаланған салааралық баланс матрицасы болып табылады. Нормаландыру мақсатында і саланың j салаға қойылуының ақшалай мәні бұл қойылымның і-нші саласына қатысты үлесін ауыстырады.

Нормаланған матрицаның нормасын салааралық баланстың dij=dji болған жайдайындағы і-нші саланың j-салаға орташа мәнін келтіруге болады.

Ереже бойынша, көпфакторлы берілгендердің топтастырылуының шешімі әдістерді жүзеге асырудың алдын ала зерттелуі ретінде болады да зерттелінетін х1,х2……..xk векторларының салыстырмалы үлкен емес санын ақпараттық яғни зерттелетін кеңістіктің көлемін кішірейтуге бағытталады. Топтастыру процедурасының қатарын (процедура-кластері) объектілер топтары арасындағы түсінік ретінде қолданылады және объектінің екі тобының жақындық шарты бойынша анықтайды.

Si -i-нші топ байланысын (класс, кластер) ni ші объектіден тұратын;

xi -орта арифметикалық мәндер векторы Si үшін яғни i-нші топтың орташа салмақталған әдісі;

d(sl,sm) -si және sm топтары арасындағы арақашықтық.

Объектілерді топтастыру кластарының арақашықтықтарының арасында ең көп қолданылатындары болып төмендегілер табылады:

  • «Жақын көршілес» қағидасы бойынша өлшенетін ара қашықтық;

(4)

  • «Алыс көршілес» қағидасы бойынша өлшенетін арақашықтық;

(5)

  • «Орташа салмақталған» өлшем бойынша өлшенетін арақашықтық;

(6)

  • «Орташа байланыс» әдісі бойынша өлшенетін арақашықтық барлық жұп арақашықтықтардың барлығын біріктіру арқылы анықталады:

(7)

Академик А.Н.Колмогоров кластар арасындағы жеке жағдай ретінде жоғарыда айтылған әдістердің «жалпыланған арақашық» қағидасын ұсынған.

Элементтер топтарының арақашықтығы алгомеративтік иерархиялық кластер процедураларында алгоритмдардың жұмыс қағидасы біріктіруші элементтерден, сосын тұтас топтардан, алдымен ең жақын кейін алыстайтын топтар үшін маңызды.

Осымен sl және s mq кластарды біріктірушілер болатын, s m және s q топтарын келесі формуламен анықтаймыз:

(8)

Мұнда, d lm = d (sl , s m); d lq = d (sl , s q);және d mq= (s m ,s q ) - кластар арасындағы қашықтық sl , s m және s q ға тең. α,β,δ,γ ─ процедураның спецификасы мен алгоритмін анықтайтын сандық көрсеткіштер.

Мысалға, α═β=─δ═1/2 және γ═0 болса, жақын көршілес қағидасына келеміз. Егер α═β=δ═1/2 және γ═0 болса, алыс көршілес қағидасына келеміз.

Және сонымен,

(8) қатынасы кластар арасында dорт арақашықтығына әкеледі, арақашықтықтардың ішінен барлық жұптық элементтер арасынан орташасын табу, солардың бірі бір кластан, екіншісі басқасынан.

К-means әдісі (К-орташа) – бұл кластерлеудің итерациялық әдісі. Бұл әдіс көптеген объектілерді аналитиктің қойған кластерлер(К) санына бөледі. Объектілерді бір кластерге біріктіру ұқсас белгілерін анықтау арқылы жүргізіледі. Бірінші кластерді анықтағаннан кейін, ұқсас белгілері қайта анықталады және объектілерді бір кластерден екінші кластерге көшіру жүргізіледі. Итерациялық әдіс объектілерді кластерге бөлудегі ең жақсы бөлу пайда болғанша немесе итерацияның максималды саны пайда болғанша жалғасады.