Деректерді аналитикалық өңдеудің əдістері, технологиялары жəне платформалары

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Казахский национальный университет им. аль-Фараби

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

kazntu.kz_031215_ND_MukazhanovNK.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

2.61 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 206 7 8 9 10 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Деректерді аналитикалық өңдеудің əдістері, технологиялары жəне платформалары

Деректерді аналитикалық өңдеуге бағытталған ақпараттық жүйелерге қойылатын басты талап сарапшы маманның шешім шығаруына қажетті мезеттегі барлық ақпараттармен қамтамасыз етуі. Қажетті ақпараттар көлемі артқан сайын, оларды іздеу, аналитикалық деректерін өңдеуде талап етілетін құрылымға келтіру, сақтау, өңдеу, сонымен қатар аналитикке қажетті қалыпта ұсыну басты мəселелерге айналады. Аталған мəселелерді шешу мақстанда көптеген əдістер мен құралдар əзірленген. Деректерді аналитикалық өңдеу əдістері деректер құрылымына жəне типтеріне, өнімділіктеріне, беретін нəтижені ұсыну моделдері мен сапасына жəне қолданылуы бойынша бір бірінен ерекшеленді. Деректерді аналитикалық өңдеу тапсырмаларын шешу мақсатында əзірленген əдістер, технологиялар жəне программалық өнімдер көптеп саналады. Толыққанды аналитикалық жүйе құру, пайда болып жатқан жаңа құрылымдардағы деректерді аналитикалық өңдеу əдістері мен алгоритмдерін əзірлеу осыған дейін əзірленген əдістерді, технологияларды жəне құралдарды мұқият зерделеуді жəне ары қарай дамытуды қажететеді.

Деректерді аналитикалық өңдеудің негізгі əдістері жəне технологиялары

Реляциялық үлгі бойынша, кестелік жəне т.б. түрде құрылымдандырылған деректерді аналитикалық өңдеу мақсатында OLTP, OLAP жəне DataMinig технологиялары, сонымен қатар SQL аналитикалық функциялары əзірленген болатын. OLAP жəне Data Mining технологиялары деректер қоймасына жинақталған үлкен көлемді деректерден шешім қабылдауға қажетті аналитикалық деректерді беруге бағытталған, ал OLTP нақты уақытта транзакцияларды өңдеу технологиясы. Бұл технологиялар деректерді талдау мен білім алудың көптеген тапсырмаларына байланысты деректерді ұсыну моделдерін, əдістер мен алгоритмдер қатарынұсынады.

Аналитикалық деректерді ұсыну моделері: көп өлшемді текше, агрегациялық көрсеткіштер, ассоциативтік ережелер түрінде, шешімдердің ағаш түріндегі берілуі, кластерлер, математикалық функциядар жəнет.б.

Əдіс– бұл теориялық, практикалық, танымдық сипаттағы тапсырмаларды шешудің белгілі бір жолын, тəсілін беру ережесі.

Деректерді талдау əдістері мен алгоритмдері: агрегациялау (қосындылау, орташа мəн, ең үлкен жəне ең кіші мəндер, ауытқулар), көп өлшемді талдау, жасанды нейронды желілер, шешімдер ағаштары, символдық ережелер, жақынрақ көрші əдістері, Байес желілері, сызықтық регрессия, ассоциативтік ережені іздеу əдістері мен Apriori алгоритмі, генетикалық алгоритмдер, деректерді көрсетудің əр түрлі əдістері жəне т.б.

OLTP (On-Line Transaction Processing) - деректерді нақты уақытта транзакциялықөңдеу

Бұл технология таңдап алынған пəндік сала деректер базасына бастапқы деректерді енгізу, жинау, сақтау, деректерді бастапқы өңдеу, іздеу жəне есеп берулерді шығару сияқты базалық функцияларды орындайды. Транзакциялық жүйелер деректерді өңдеудің құрылымдандырылған, қайталанып отыратын тапсырмаларын автоматтандырады. Деректерді жедел транзакциялық өңдеуге қойылатын талаптар [7, 45, 48]:

қатаң қылаптандырылған деректермоделі;
əрекеттерді орындау барысында қандай да бір қателесу болған жағдайда транзакция тұтастай артқа қайтарылуы қажет жəне жүйе транзакция басталғанға дейінгі күйіне қайтып келуікерек;
дереткерді нақты уақыттаөңдеу.

Уақыт өте келе тек деректерді жинап қана қоймай, жинақталған деректерден ақпарат пен білімдерді іздеу тапсырмасы туындады. Осыған байланысты OLTP - технологияларды күрделі аналитикалық тапсырмаларға қолдануға талпыныстар жасалынды. Дереткерді транзакциялық өңдеу дереткерді аналитикалық өңдеудің алғашқы технологиясы ретінде де белгілі. OLTP – негізінде əзірленген, жедел өңдеулерді жүзеге асыратын жоғары өнімділікті құралдар, көп жағдайларда аналитикалық өңдеу тапсырмаларын шешуге мүмкіндіктері шектеулі. Осыған ұқсас жүйелермен аналитикалық есеп берулерді құруға жəне əр түрлі деңгейдегі күрделі болжамдарды беретін есеп

берулерді əзірлеуге болады, бірақ орындалатын барлық əрекеттер мен амалдар алдын ала белгілі, реттелген, бір жүйеге келтірілген болуы шарт. Пайдаланушылардың қосымша талаптары деректер құрылымын білуді жəне белгілі бір дəрежеде программалаушыдан біліктілікті талап етеді, сəйкесінше талаптарды қанағаттандыру бірден (жылдам) болмайды, талап етілген функцияны программалаушы əзірлеп, жүйеге қоспайынша. Деректерді жедел танзакциялық өңдеу техологиялары аналитикалық тапсырмаларды толық орындай алмауының басты себептерінің бірі танзакциялық деректерді сақтауға арналған дереткер қоры - бұл қолданушының күнделікті жұмыс істеу барысындағы деректерді тіркеуге арналған. Мысалы тапсырыстарды қабылдау, тіркеу функциялары, алдын ала анықталған сұранымдар бойынша деректерді беру жəне т.б. Аналитикалық тапсырмаларға арналған ДБ үлкен көлемді деректерді жинау жəне талдау үшін пайдаланылады. Транзакциялық ДБ негізінен транзакциялар көлемі бойынша үлкен емес, аса көп емес жолдарды таңдау, жазу жəне жаңарту сияқты қарапайым сұранымдардан тұратын болса, ал аналитикалық тапсырмаларды орындауға арналған ДБ таңдау (деректерді алу) операцияларына бағытталған, себебі талдауда қолданылатын деректер жазылған жолдар бірнеше миллионнан асуы мүмкін. Бұл деректерді транзакциялық өңдеу мен аналитикалық өңдеу тапсырмалары көп жағынан сəйкес келмейтінін көрсетеді. Екі жүйеге қойылатын талаптар мен сипатамалар [7, б. 22-23] - əдебиетте толықберілген.

OLTP - деректерді транзакциялық өңдеу технологиясы деректерді аналитикалық өңдеу мен шешім қабылдауда қажетті білімді алудың талаптарын толық қамтамасыз ете алмағандықтан, басқа жолдар мен технологияларды əзірлеуді қарастыруға алып келді жəне аналитикалық өңдеуді транзакциялық өңдеуден ажыратты. Осының нəижесінде деректерді жедел аналитикалық өңдеу (OLAP) жəне деректерді интеллектуалды талдау (Data Mining) технологиялары жəне осы технологияларда пайдаланылатын əдістер əзірленді, сондай-ақ деректер қоймасын құру бағыты пайда болды. Деректерді транзакциялық өңдеу құралдары талдауға қажетті бастапқы деректерді операциялық ДҚ-нан алу жəне деректер қоймасына енгізуде жиі қолданылады. Қазіргі уақытта OLTP-құралдары үлкен ақпараттық-аналитикалық жүйелерде толықтырушы құрал ретіндеқолданылады.

OLAP (On-Line Analytical Processing) - деректерді жедел аналитикалық өңдеутенхологиясы

Шешімдер қабылдау үрдістерін қолдау мақсатында деректерді жинау, сақтау жəне көп өлшемді талдау əдістерін жəне құралдарын пайдаланады [7].

OLAP-негізгі тағайындалуы – аналитикалық қызметтерді қолдау, аналитик маманның қызмет барысында туындаған кез келген сұранымдарына жауап беру.

OLAP - талдауларды қолданудың мақсаты – жинақталған деректер негізінде туындайтын əр түрлі болжамдарды шығару, тексеру [7, 8].

OLAP-технологиясы негізінде деректерді көп өлшемді талдау идеясын Э. Кодд 1993 ж. "OLAP - аналитик-қолданушылар үшін: қандай болуқажет

(Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate) [2] - атты мақаласында ұсынған болатын. Бұл мақалада ол деректерді жедел аналитикалық талдау тұжырымдамасын берді. Жедел аналитикалық өңдеу құралдары қамтамасыз етуі қажет негізгі 12 талаптарды анықтады жəне реляциялық моделдің деректерді көп өлшемді талдау тапсырмаларын жүзеге асрыуда жоғары жылдамдықты талап ететін аналитикалық сұранымдарды орындаудағы кемішілктерін көрсетті [49, 50]. Э. Кодд анықтаған жедел аналаитикалық өңдеулерге қойылатын талаптар:

Деректерді көп өлшемді ұсыну (Multidimensional Conceptual View) - OLAP - жүйе тұжырымдамалық деңгейде деректерді көп өлшемді модел түрінде ұсынуықажет;
Айқындылығы (Transparency) – деректер құрылымы қалай ұйымдастырылғандығы жəне қайдан алынатындығы, деректерді өңдеу мен сақтауда нақты қандай құралдар қолданылатындығы жайында пайдаланушы білмеуіқажет;
Қол жетімділік (Accessibility) – OLAP - жүйе пайдаланушыға біріктірілген, келістірілген жəне тұтас деректер моделін берукерек;
Есеп берулердегі тұрақты өнімділік (Consistent Reporting Performance) – жүйе өнімділігі талдауларда қолданылатын өлшемдер санының артуына тəуелді болмауытиіс;
Клиент-серверлік архитектура (Client-Server Architecture) – OLAP- жүйеде клиент-серверлік ортада жұмыс жасау мүмкідігінің болуы, себебі қазіргі уақытта жедел аналитикалық өңдеуге қажетті деректердің көп бөлігі таратылыпсақталған.
Барлық өлшемдердің тең болуы (басымдылықтарының бірдей болуы) (Generic Dimensionality) – барлық өлшемдерінің бірдей басымдылыққа ие болуын қамтамасыз ететін көп өлшемді моделді қолдауықажет.
Сиретілген матрицаны динамикалық өңдеу (Dynamic Sparse Matrix Handling) – OLAP-жүйе сиретілген матрицаны оңтайлы өңдеуді қамтамасыз етуі тиіс. Қатынау жылдамдығы деректердің қай ұяшықты орналасқандығына тəуелді болмауы жəне əр түрлі өлшемдер санынан тұратын модель үшін тұрақты болуыкерек.
Көп-пайдаланушыны қолдау (Multi-User Support) – бір аналитикалық моделмен бірнеше пайдаланушының бірлесіп жұмыс жасау мүмкіндігін ұсыну немесе біріңғай деректерден əр пайдаланушыға бірнеше моделқұру.
Əр түрлі өлшемдермен шектеусіз операциялар (Unrestricted Cross- dimensional Operations) – барлық көп өлшемді операциялар өлшемдердің кез келген санында біркелкі жəне келісімді қолданылуықажет.
Деректермен жасалынатын амалдардың қарапайымдылығы (Intuitive Data Manipulation) – қималарды алу, деректерді біріктіру, текшені айналдыру сияқты операцияларды қолайлы жəне оңай орындайтын пайдаланушы интерфейсінұсыну.
Қолайлы есептілік (Flexible Reporting) – OLAP жүйе деректерді ұсынудың (көрсету) əр түрлі тəсілдерін қолдауы, есептемелер кез келген бағдардаболуы.
Өлшемдер мен агрегациялау деңгейлерінің шектеусізболуы(UnlimitedDimensions and Aggregation Levels) – OLAP-жүйедеқолданылатынөлшемдерсандарында ешқандай шектеулердің болмауы қажет. Сонымен қатар, əрөлшемдерде агрегациялау жəне біріктіру деңгейлерінде шектеулердіңболмауы.

Келтірілген талаптарға қосымша Э.Кодд тағы талаптарды қосты. Қосылған талаптар [7, 56-б., 2] - əдебеиттерде толық берілген.

1995 ж. Коддтың анықтаған талаптар негініде Найджел Пендс (Nigel Pendse) жəне Ричард Крит (Richard Creeth) қазіргі уақытта кеңінен белгілі FASMI (Fast of Shared Multidimensional Information) сынағын жасады. Сынақта өңдеу жылдамдығы, көп пайдаланушыға рұқсат етілуі, талдау деректерінің мазмұны жасалынған сұранымдарға сəйкес келуі, статистикалық талдау құралдарының болуы жəне деректерді көп өлшемді ұсынуы [49, 50]."FASMI"

ағылшын сөздерінің аббервиатурасы, Fast Analysis Shared Multidimensional Information - қазақша аудармасы Жалдым Талдау Бөлшектенген Көп өлшемді Ақпарат. Берілген қасиеттерді ашып қарастыратынболсақ:

Fast (Жылдам) — бұл қасиет пайдаланушы сұранымдарына уақыт талартары бойынша жауап беруі. Қарапайым сұранымдар 1 секунд (с.) ішінде өңделуі, күрделірек сұранымдар 5 с. ішінде, ал ең күрделі сұранымдар 20 с. аспауы тиіс. Арнайы зерттеулер көрсеткендей, сұранымдарға жауап беру 30 с. асқан жағдайларда пайдаланушылардың шыдамсыздануы байқалған жəне осының əсерінен жүйені қайта жүктеу сияқты əрекеттерді жасаған. Жедел аналитикалық жүйелерге қойылған уақыт шектеулері аналитик маманның жəне шешім қабылдаушы адамның психофизиологиялық көрсеткіштеріне байланысты алынған. Деректер көлемі үлкен болған кезде жəне қазіргі кездегі жарлтылай құрылымдандырылған əр түрлі интернет көздерінен алынған деректерді белгіленген жылдамдықта өңдеу қиын болады. Қойылған талапқа сəйкес толық орындау үшін аранайы деректер құрылымын, əдістерді жəне жоғары жылдамдықты есептеу жүйелерін қолдану қажет.

Analysis (Талдау) – OLAP-жүйе пəндік сала шеңберінде пайдаланушының кез келген логикалық жəне статистикалық тапсырмаларын орындауы. Жүйе пайдаланушыға талдауға байланысты жаңа есептеулерді жүргізуіне жəне алынған нəтижелерді қолайлы қалыпты ұсыну мүмкіндігін бері қажет жəне талдауда талап етілетін функционалдық мүмкіндіктер барынша қарапайым, əрі пайдаланушыға түсінікті болуы шарт.

Shared (Бөлшектенген) - жүйе құпиялылықты қорғаудың барлық талаптарын орындауы қажет. Деректерге көп пайдаланушылардың қатынауы кезінде бергілі бір деңгейде бұғаттаулардың болуы.

Multidimensional (Көп өлшемді) - OLAP жүйе дереткермен жұмыс барысында көп өлшемді ұсынудың тұжырымдамасын қамтамасыз етуі, логикалық талдауларды барынша қамтып, иерархияны толық қолдауы қажет.

Information (Ақпарат) - ақпаратты кез келген қажетті дереккөздерден алу мүмкіндігімен қамтамасыз етілуі. OLAP-жүйелердің мүмкіндіктері (күштілік жағынан) онда сақталынатын деректердің көлеміне емес, енгізілетін деректердің санының көптігімен өлшенеді. Бұл өлшем осыдан 20 жыл бұрын белгіленседедəлбүгінгітаңдаөзектілігіартатүскенінкөругеболады.Себебі

қазіргі кезде кез келген пəндік салаға қатысты ақпараттық көптігі жəне олардың таратылып жерілерде сақталуы байланысты бір аналитикалық жүйеге біріктіріп талдауда енгізілетін деректер саныны барынша көп болады. Сонымен қатар үлкен OLAP жүйелер мен кішігірім OLAP жүйлерінің деректер көлемінде айтарлықтай айырмашылықтар болады, осыған байланысты олардың талап ететін функционалдық жəне техникалық талаптары əр түрлі болады [49, 50].

Жедел аналитикалық талдау тапсырмалары.Жедел талдау – FASMI ережелеріне сəйкес, ақпараттық қоймадағы (АҚ) кез келген қажетті ақпаратқа жылдам қатынауды қамтамасыз ететін, сондай-ақ көп өлшемді текше түрінде ұсынатын ақпараттық-аналитикалық жүйе (ААЖ) функциясы. Ақпаратты шығару, өңдеу келесідегідей күрделі емес алгоритмдермен сүйемелденеді: қосындылауларды есептеу, берілген мəннің пайызын анықтау, берілген коэффиценттермен мəндерді есептеу жəне басқа да деректерді əр түрлі деңгейлерде бөлшектеу операцияларын орындау. Жедел талдау көмегімен аналитикалық көрсеткіштерді есептеу арқылы қолданылып отырған пəдік сала туралы уақыт бойынша, басқа да пəндік сала өлшем көрсеткіштері бойынша толық көріністі алуға болады.

Есеп берулерде қажетті ақпаратты шығару үшін арнайы операциялар енгізілген. Олар: қима (slice and dice), жинастыру (drill up), ашу (жазу) (roll up), кросс-кесте құру, кескін алу (проекция), тенденцияларды анықтау (1.2-сурет) [50, 51].

Қима немесе кесу (slice and dice) – бір немесе бірнеше өлшемдердің қандай да бір белігі мəндері бойынша факт-кестесінен мəліметтер шығару. Кесу пайдаланушының қолданатын мəндерін шектеу үшін орындалады, өйткені гиперкубтың барлық мəндері практикада ешқашан бір мезгілде пайдаланылмайды. Мысалы, екі өлшемнен тұратын қиманы алу, өлшемдер элементтерінен жəне өлшемдер элементтерінің қиылысуларында сандық көрсеткіштерді шығаратын кесіндінібереді.

«Айналдыру» (Rotate) екі өлшемді мəліметтерді беру үшін қолданылады. Оның негізгі мəні мəліметтерді көрнекі етіп көрсету жағдайында өлшеу ретін өзгерту болып табылады.

Агрегациялау (drill up) — гипертекшедегі ақпаратты пайдаланушыға жалпылап немесе жинақтап беру; деректер қоймасында бөлшектеніп жатқан деректерді топтастыруға, сəйкесінше агрегацияланған деректерді есеп берулерге орналастыруғаболады.
Ашу немесе жазу (roll up) – жинастыруға кері орындалатын операция, деректердің бөлшектенуі, мысалы, тауарлар тобы нақты тауарлар бойынша бөлшектенеді, мамандықтар тобы бірнеше мамандыққа бөлінеді жəнет.б.
Кросс-кесте - берілген нышандар бойынша əр түрлі кестелерден деректерді біріктіру, қиыстыру. Текшеде деректер өлшемдер элементтері арқылы қиылысады (түйіседі), ал қиылысу нəтижесінде алынған кесте кросс- кесте депаталады.
Кескінін алу – операциялық базада немесе АҚ орналасқан жиынның ішкі жиыны болып табылатын атрибуттардан есеп берулер құрастыру, яғни гипертекше өлшемдері элементтерін пайдалана отырып текше қимасыналу.

Сурет 1.2 – Гипертекшемен орындалатын негізгі операциялар

Тенденцияларды анықтау – көрсеткіштердің сандық немесе сапалық мəндерінің белгілі бір параметрлерге байланысты өзгеру бағытын (беталысын) алу, анықтау, мысалы уақытқа, сапа өлшемдеріне жəнет.б.

OLAP

архитектурасы.OLAP –

жүйелердің құрылымдық архитектурасы

үш негізгі компоненттерге негізделеді

(1.3-суретте сұлбасы көрсетілген)

[53,

798-802 б.; 54, 1-18 б.; 55, 517-526 б.]:

- Дереткер базасы (ДБ) – талдаулар үшін қажетті аналитикалық деректерді

сақтау. Деректерді

сақтау үшін көп

өлшемді

талдауларға мүмкіндік беретін

дереткердің

реляциялық моделінегізінде жəнедеректердің

көп өлшемді

моделі негізінде əзірленген деректер қоймасы

қолдануылады. Сонымен

қатар

қазіргі уақытта деректерді жедел көп өлшемді аналитикалық

NoSQL ДҚБЖ пайдалануға əрекеттер жасалуда.

өңдеу

үшін

- OLAP

сервер

көп

өлшемді аналитикалық

дереткерді өңдеу

мен

басқаруды орындайды, сонымен қатар деректер қоймасы мен OLAP клиенттер арасында байланыс орынатады.

- OLAP

клиент

пайдаланушылардың талдау тапсырмаларынорындауы

үшін көп өлшемді

деректер

моделімен жасалынатын əр түрлі əркеттер

жасауына қолайлы интерфейсті ұсынау, есеп берулерді қажетті қалыпта

қалыптастырумен қаматамсыз ету.

Сурет 1.3 – OLAP – жүйенің архитектурасы

OLAP жүйелерде деректер əр түрлі құрылымда сақталып, түрлі жолдармен өңделуі мүмкін. Осылайша, деректерді ұйымдастыру мен сақтау тəсілдеріне байланысты нұсқаларды атап көрсетуге болады [53, 798-802 б.]:

- Клиенттік файлдарда – деректер файл түрінде ұйымдастырылып,

жергілікті

клиенттік

компьютерде

сақталынады, талдауда

өңдеу

жəне

түрлендіру операциялары қолданылады. Мұндай ұйымдастырудың бірнеше

кемшіліктері бар: деректерді өңдеу мен беру уақытының ұзақтығы, деректерді көрсетуде қауіпсіздіктің деңгейі төмен, озық көп өлшемді талдаудың болмауы.

Реляциялық деректер базаларында (РДБ) – бұл тəсіл негізіненбастапқы

деректер РДББЖ-нен келгенде жəне аналитикалық деректер қоймасы құрылымы реляциялық моделде əзірленгендеқолданылады.

Көп өлшемді ДБ – бұл тəсіл бойынша деректер бөлек сервердегідеректер

қоймасында

ұйымдастырылады.Сервер көп

өлшемді

сервер дегенатаумен

белігілі. Серверде көп көлшемдідеректерге көп өлшемді операцияларды

орындаужүргізіледі.

Деректер əр

түрлікөздерден

алынады (РДБ-нан,

файлдардан, жеке құрылғылардан), факт жəне өлшемдер кестелерінеқайта

құрылып, жүктклінеді, талдау үшін алдына өңдеу мен

əзірлеу

жасалынады.

Деректерді

көп өлшемді талдауғаең

жақсы келетін тəсіл, себебідеректерді

сақтаудың жоғары өткізу мүмкіндігіменқамтамасызетеді, ETLүрдісінде

деректерді алу, түрлендіру жəне жүктеу операциялары талдауды оңтайландыруға бағытталады.

Деректерді көп өлшемді өңдеу жолдары:

серверде

көп өлшемді

- SQL ортасы -

SQL мүмкіндіктері тек қарапайым, жеңіл

аналитикалық

сұранымдарды ғана орындай алады. SQL тілі күрделі көп өлшемді есептеулерді

орындауға арналған көп өлшемді функциялар мен операцияларды орындауға кемейді.

Көп өлшемді клиенттік құрал - барлық талдау операциялары жергілікті клиенттік компьютерде орындалады, ол үшін барлық пайдаланушыда сəйкесінше жоғары өнімділікті жүйе бар болуы жəне əр пайдаланушыда деректерді талдау бойынша жоғары біліктіліктің болуы, себебі олар аналитикалық өңдеуде жүзеге асырылатын барлық талдау функцияларын құру жəне қолдану қажетболады.
Көп өлшемді сервердік құрал – деректерді көп өлшемді талдауда серверлік ортаны пайдалану ең жақсы жол болып табылады, себебі серверлік құрылғылар жоғары өнімділікке ие, барлық тапсырмаларды бір орталықтан соңына дейін орындайды жəне пайдаланушылар үшін өңделген көп өлшемді деректерге нақты уақытта қатынау беругеболады.

OLAP-жүйелерде аналитикалық деректерді сақтау бойыншаклассификациялары.OLAP-технологияны қолданатын жедел аналитикалық жүйелерде пайдаланушыларға деректердің көп өлшемді моделінің əзірленуі мен жұмыс істеуі құпия түрінде қалады. Гипертекше қалыптастрылып, барлық пайладанушылар OLAP-клиенттік құралдары арқылы деректерді талауда барлық əрекеттерді гипертекше арқылы жасайды. Деректерді жедел аналитикалық өңдеуде өнімділік, деректердің тұрақты жəне жедел жадыларда талап ететін орны, өңдеуде қажетті есептеу жүйелері сипаттамаларына қойылатын талаптар деректердің ұйымдастырылу құрылымына тікелей байланысты. OLAP-құралдар деректерді сақтаудың келесідегідей классификациясын ұсынады [54,55]:

ROLAP - көп өлшемді моделді жүзеге асыру үшін реляциялық ДБ пайдаланылады. Қазіргі таңда реляциялық модел негізінде жұмыс жасайтын ДБ құралдары өте көп, сонымен қатар бұл модел аналитикалық жұмыстарда OLAP- қа тəн инеллектуалды талдаударды орындауға қолайлы.

көп жағдайларда корпоративтік деректер қоймасы реляциялық ДББЖ құралдарымен құрылғандықтан ROLAP құралдары талдауларды бірден сонда жүргізе береді. Сонымен бірге деректер базасын реляциялық моделде ұйымдастыруда оның көлемі MOLAP салыстырғанда анағұрлым азболады.
тапсырма өлшемдері жиі ауысып отыратын болса, онда өлшемдер құрылымна жаңа өлшемерді енгізу жиі орындалады. ROLAP - жүйесі өлшемдердің динамикалық өзгеруінің оңтайлы шешімін ұсынады, сондықтан ДҚ құрылымын қайта құру талапетілмейді.
ақпаратты қорғау деңгейі жəне қатынау құқықтарын шектеу реляциялық ДҚБЖ-де айтарлықтайжоғары.

Кемшіліктері:

ROLAP - басты кемшілігі көп өлшемді ДББЖ салыстырғанда өнімділігінің аздығы. Жоғары өнімділікті қамтамасыз ету үшін реляциялық жүйеде ДБ сұлбасын мұқият қайта құру қажет [50, 54- 56].

MOLAP - көп өлшемді моделді жүзеге асыру, деректерді сақтау жəне басқару үшін көп өлшемді ДБ пайдаланылады. Деректер реттелген көпөлшемді

массив түрінде сақталынады жəне мұндай массивтер гипертекше немесе көптекшеге бөлінеді.

Гипертекшеде – ДБ сақталынатын барлық ұяшықтар бірдей мөлшерде болады, анықталған барлық өлшемдер арқылы құралады (өлшемдерді толығымен пайдаланады).

Гипертекшеде – əр бір ұяшық өзінің жеке өлшемдер жиынымен сақталынады. Əр бір тапсырмаға байланысты өлшемдері пайдаланып жеке текшелер құрылады жəне текшелерді құру бір бірінен бөлек құралдарда орындалуы мүмкін. Бірақ барлық деректер бір деректер қоймасында сақталаныда жəне бір моделде болады.

- MOLAP - тың келесідегідей артықшылықтары бар [12, 1-22 б.; 50, 56]: -

а) көп өлшемді деректер моделінде реляциялық моделмен салыстырғанда деректерді іздеу жəне таңдау айтарлықтай жылдам жүзеге асады. Көп өлшемді ДБ-да алдын ала агрегацияланған көрсеткіштерден тұрады жəне сұраным жасалынған ұяшыққа оңтайлы қатынауды қамтамасыз етіп, байланыстырылған кестелер жиынынан көп өлшемді моделге өту кезінде қосымша қайта құрулар болмайды.

б) Көп өлшемді ДБ-да əр түрлі кірістірілген функцияларды қосу тапсырмасы жеңіл жүзеге асады.

в) Кемшіліктері:

г) денормалау жəне алдын ала агрегациялауда деректер көлемі (көп өлшемді массив көлемі) бастапқы деректер көлемімен салыстырған 2,5 еседен

100 есеге дейін артады (Коддтың тұжырымдамасы бойынша), сəйкесінше жадыдан орын талап етеді. Өлшемдер саны артқан сайын жадыдан талап етілетін орын экспоненциалдық заң бойынша артады. Егер көп өлшемді талдауда гипертекше жедел жадыда сақталынатынын ескерсек, онда айтарлықтау үлкен көлемді жедел жады қажет болады.

д) Көп өлшемді модел өзгерістерге сезімтал. Жаңадан бір өлшем қосу үшін ДБ құрылымын толық өзгерту керек болады. Бұл артық жұмыс пен уақытты қажет едтеді.

Көп өлшемді ДБ пайдаланудағы беретін тиімділіктері:

талдауға арналған бастапқы деректердің көлемі аса үлкен болмайды, деректерді жоғары деңгейдеагрегациялайды.
ақпараттық өлшемдер жиынытұрақты.
реттелмеген аналитикалық сұранымдарға аз уақыт ішінде жауап беруі. ROLAP жəне MOLAP жүйелерінің кемшіліктері менартықшылықтары,

жалпылай, белгілі. Көп өлшемді OLAP ең жақсы өнімділікті қамтамасыз етеді бірақ құрылымдарды үлкен көлемді мəліметтерді өңдеу үшін қолдануға болмайды, себебі үлкен өлшемділік үлкен аппараттық ресурстарды талап етеді, ал онымен бірге гипертекшелердің сиретілуі өте жоғары болуы мүмкін, жəне аппараттық қуаттарын қолдану ақталмайды. Керісінше, реляциялы OLAP сақталған мəліметтердің үлкен массивтерін өңдеуді қамтамасыз етеді, өйткені тиімді сақтаудың қамтамасыз етілуі мүмкін, бірақ онымен бірге көп өлшемді жұмысының жылдамдығы азаяды. Мұндай талдаулар аналитикалық құралдарының жаңа класын – HOLAP-ты көрсетуге əкелді.

HOLAP - көп өлшемді моделді жүзеге асру үшін реляциялық жəне көп өлшемді ДБ пайдаланылады. Гибридті (будандық) жүйе көп өлшемді кеңістіктің сиретілген аймақтарына ROLAP-ты, ал тығыз орналасқан аймақтарға MOLAP-ты қолданады. HOLAP серверлер келген сұранымды бірнеше ішкі сұранымдарға бөледі жəне сəйкес деректер орналасқан фрагменттерге бағыттайды, осыдан кейін барлық нəтижелерді жинастырып, пайдаланушыға нəтижені ұсынады. Speedware компаниясының Media/MR өнімі жатады. Бұл жүйе MOLAP-тың икемділігі мен жылдамдығын жəне ROLAP-тың көп пайдаланушылы мүмкіндіктерін бірікткреді. - DOLAP (desktop) - дербес OLAP. Пайдаланушының қарапайым OLAP жүйесі, клиенттік машинада реляциялық немесе көп өлшемді ДҚ-нан деректерді жүктеуге, жергілікті өңдеуге жəне ұсынуға арналған [50,56].
JOLAP - Java технологияларға негізделген ұжымдық қолдануға бағытталған Hyperion Solutions бірлестігінің (компания) жаңа əзірлемесі.OLAP

серверлердегі деректерді жəне метадеректерді басқаруғааранлған.

- Интернет желілерінде деректердің артуына байланысты əзірленген NoSQL ДББЖ-де сақталынған деректерді жедел аналитикалық талдау мақсатында көптеген аналитикалық функциялар əзірленуде, сонымен қатар осы ДББЖ негізінде OLAP жүйелер құру қадамдары жасалынып жатыр. Негізінен NoSQL деректерді сақтау қоймасы ретінде баған-бағытталған деректер моделі жəне құжат-бағытталған деректер моделіалынуда.

Жоғарыда берілген OLAP жүйлерде деректерді сақтаудың əр түрлі классификацияларын таңдау, қолдану мəні мынада: сақталынатын жəне өңделетін деректер массиві көлеміне, олардың құрылымына, деректер қоймасындағы жазбаларға қатынау жиіліктеріне, жасалынатын аналитикалық сұранымдар түрлеріне, жүйе құрушының қолда бар аппараттық құралдарының мүмкіндіктеріне жəне т.б. байланысты.

Деректерді интеллектуалды талдау (DataMining)

Деректерді интеллектуалды талдау (ДИТ)– машиналық алгоритмдер, жасанды зерде құралдары көмегімен өңделмеген деректерден бұрған дейін белгісіз болған, іс-жүзінде пайдалы жасырын білімдерді зерттеу жəне табу [7, 66-б.]. Білімдерді іздеуге арналған дереккөздер əр түрлі ақпараттық жүйелердегі ДБ, деректер қоймалары болуы мүмкін. Жоғарыда қарастырған OLAP-технологиясы деректерді талдау барысында əр түрлі болжамдары ұсыну жəне тексеру болса, Data Minig - интеллектеуалды əдістері деректерді талдауда жасырын білімдерді табу, беру сияқты тапсырмаларды орындайды. Ақпаратты өңдеудің автоматтандырылған технологияларының кеңінен таралуы жəне компьютерлік жүйелерде жинақталған ақпарат көлемінің артуына байланысты XX ғасырдың 90-жылдарынан бастап деректерді интеллектуалды талдау ғылыми бағыт ретінде дамытыла бастады [57-59].

Интеллектуалды талдау нəтижесінде алынған білімдер келесідегідей моделдер арқылы ұсынылады: ассоциативтік ережелер, ағаш түріндегі шешімдер, кластерлер, математикалық функциялар.

Деректерді интеллектуалды талдаудың негізгі əдістері меналгоритмдері:жасанды нейронды желілер, ағаш түріндегі шешімдер, символдық ережелер, жақынрақ көрші əдістері,k-жақынрақ көрші, Байес желілері, сызықтық регрессия, корреляциялы-регрессиялық талдау, кластерлік талдаудың иерархиялық жəне иерархиялық емес əдістері,k-орташа жəнеk-медиана алгоритмдері, ассоциативтік ережені іздеу əдістері мен Apriori алгоритмі, генетикалық алгоритмдер, деректерді көрсетудің əр түрлі əдістері жəне басқа да талдау əдістері

Data Mining технологиясында пайдаланылатын аналитикалық əдістердің көпшілігі белгілі математикалық алгоритмдер мен əдістер. Техникалық жəне программалық құралдардың айтарлықтай мүмкіндіктерінің пайда болуына байланысты оларды нақты тапсырмаларды шешуде қолданудың жаңа жолдары ашылды. Атап көрсететін жайт, көптеген Data Mining əдістері жасанды зерде теориясы шеңберінде əзірленген болатын [50].

Интеллектуалды талдаудың негізгі тапсырмалары болып табылады[50,

58]:

өзара тəуелділіктерді, себеп-салдарлық байланыстарды табу, уақыт

факторларының мəнін анықтау, оқиғаларды немесе құбылыстарды орындары бойынша ерекшелу (болу орындары бойынша бөлектеп көрсету);

болған оқиғаларды жіктеу, əр түрлі факторлардың бағдарынанықтау;
үрдістердің, оқиғалардың болу жолдарынболжау.

Data Mining жүйесі – бұл шешім қабылдауды қолдайтын жүйе, деректерді іздеу белгілі шаблондарға негізделеді. Оны жүзеге асыру үш кезеңнен тұрады [47]:

заңдылықтарды анықтау (еркін іздеу əдістері арықылы жүзегеасады);
белгісіз мəндерді жорамалдау үшін анықталған заңдылықтарды пайдалану;
табылған заңдылықтардағы ауытқуларға талдаушығару.

ДИТ-дың барлық əдістері бастапқы үйретуші (обучающий) деректермен жұмыс принциптері бойынша екі топқа бөлінеді [47]:

бірінші жағдайда бастапқы деректер ашық бөлшектенген түрде сақталынуы мүмкін жəне талдаулар шығаруда немесе болжамдық үлгілер үшін тікелей ашық жəне бөлшектенген түрде қолданылуы мүмкін, осыған байланысты бұндай əдістерді талдау оқиғалары негізінде пайымдау деп атайды. Əдістердің басты кемшілігі деректер көлемі үлкен болған кезде барлық деректер құрылымын қараудың қиындығы, осыған байланысты ДИТ- əдістері жекелеген дерек қорларда қолданғаннан үлкен деректер қоймасында қолдануда жақсы нəтижелер береді. Үйретуші деректерді тікелей пайдалану əдістері (Data Retention): жақынрақ көрші,k-жақынрақ көрші жəне т.б. Lazy-Learningəдістері.
екінші жағдайда талдау ақпараты бастапқы деректерден шығарылады жəне қажетті қалыпты құрылымға түрлендіру арқылы келтіріледі (келтірілетін құрылым түрі нақты пайдаланылатын əдіске байланысты анықталады). Бұл кезеңде де еркін іздеу əдістері орындалады, бірақ бірінші жағдайда қолданылатын əдістерден басқа əдістер алынады. Алынатын нəтижелер бастыпқы деректермен салыстырғанда жəне алдыңғы топнəтижелерімен

салыстырғанда нақтырақ жəне шағын болады. Қалыптастырылған заңдылықтарды шығару жəне пайдалану əдістері (Data Distillation): Байес желілері, ағаш түріндегі шешімдер, индукция ережелері, сызықтық регрессия, корреляциялы-кемімелік талдау, жасанды нейронды желілер жəне т.б.

Деректерді көп өлшемді интеллектуалдыталдау

Бүгінде деректерді аналитикалық өңдеуде ең көп қолданысқа ие жəне тиімді болып табылатын жүйелер - жедел сараптап өңдеу мен интеллектуалды өңдеу жүйелері. Жедел аналитикалық өңдеу жəне деректерді интеллектуалды талдау – бұл екі үдеріс те шешім қабылдауды қолдайды. Бүгінгі таңда OLAP жүйесінде көп өлшемді деректерге қатынауға баса назар аударылуда.

Жедел аналитикалық өңдеу жəне зерделі талдау – деректерді өңдеудің күрделі бағыттарының бірі жəне бірегейі. Бұл бағыттар бойынша осы күнге кейінгі үлкен көлемді деректерден білімдерді алу, болжамдар шығару, заңдылықтарды анықтау сияқты маңызды функцияларды жүзеге асыратын көптеген үліглер мен əдістер зерттеліп, технологиялар мен құралдар əзірленді. Деректерді өңдеуде беретін нəтижелерінің маңыздылығы мен құндылығына, өнімділіктері мен тиімділіктеріне байланысты ШҚҚЖ басты бөлігіне айналды. Осы бағыттар шеңберінде əзірленген əдістер, олардың артықшылықтары мен кемшіліктерін жоғарыда қарастырдық. OLAP - əдістер мен құралдар көп жағдайда көп өлшемді деректерге қатынау, оларды ұсыну бағытындағы дамытып жатса, ал интеллектуалды талдау əдістері мен құралдары көбінесе заңдылықтарды іздеу, анықтау, ұсыну сияқты бағыттарда бір өлшемді деректерді өңдеу саласы бойынша дамытылуда. Əрине, жедел аналитикалық өңдеуге қойылатын жеке талаптар бар, сонымен қатар зерделі аналитикалық талдауларға қойылатын талаптар бар. Бірақ ақпарат көлемінің ұлғаюы мен құрылым жағынан түрлерінің көбеюі жаңа талаптар қойып, жаңа шешімдерді іздеуді талап етеді. Осындай бағыттарды дамытудың жолын ұсынғандардың бірі K. Parsaye [15] "OLAP Data Mining" (көп өлшемді зерделі талдау) - атты жаңа термин енгізді. Басты идеясы екі бағытта əзірленген үлгілер мен əдістерді біріктіру арқылы жаңа нəтижелерге қол жеткізу жəне біріктірудің бірнеше нұсқаларынұсынады:

"Cubing then mining"– кез келген көп өлшемді сұраным бойынша алынған деректерге интеллектуалды талдау жүргізу мүмкіндігімен қамтамасыз етілуі. Гипертекшенің кез келген қимасымен жəне кез келген көрсеткіштерімен интеллектуалды талдауларжүргізу.
"Mining then cubing" – интеллектуалды талдау нəтижесінде алынған деректерді гипертекше түрінде ұсыну жəне гипертекшемен орындалатын операцияларды қолдану мүмкіндіктерініңболуы;
"Cubing while mining" – көп өлшемді талдаудың əр бір қадамында алынған нəтижелерге интеллектуалды өңдеудің бір тиіпті механизімін қосу арқылы біріктіру. Мысалы көп өлшемді талдауда жалпылаудың əр бір деңгейіне өту кезінде интеллектуалды талдаудың сəйкес əдістерінқолдану.

Аталған екі бағыттың деректерді өңдеуде біріктіруге келмейтін əдістері бар. Жедел аналитикалық өңдеу көп өлшемді деректерді өңдеуге бағытталған

жəне сұранымдарды жылдам орындау үшін мəліметтерді агрегацияланған түрде сақтайды. Интеллектуалды талдауда көп өлшемді талдау тапсырмаларына арналған классификация, кластеризация тапсырмаларын шешуге арналған əдістер мен жедел аналитикалық өңдеу əдістерін біріктіруде жаңа нəтижелерге қол жеткізуге болады. Ал, агрегациялық жəне көп өлшемді деректермен мүлде жұмыс жасауға келмейтін интеллектуалды талдау əдістері бар, бұлар əрине біріктіруде ешқандай нəтиже бермейді.

Жоғарыда қарастарылған мəліметтерді талдау əдістері мен технологиялары құрылымдандырылған мəліметтермен жұмыс жасауға арналған. Деректерді жедел аналитикалық өңдеу жəне интеллектуалды талдау бағыттары бойынша əзірленген əдістердің əр қайсысының қолданылатын тапсырмалары бар. Осы сала бойынша жазылған оқулықтар мен əдебиеттерде [50, 57-59] олардың классификациясы келтірілген.

Талдауда алынатын нəтижелер сапасы жоғары болу үшін бастапқы деректерден талдауда қажетті деректертерді бөліп алу жəне дайындаудың бірнеше жолдары қарастырылған. Сонымен қатар талдау деректері көлемінің үлкен болуына байланысты деректер қоймасын ұйымдастыру қажет. Деректер қоймасы үлкен көлемді талдау деректерін сақтауға, өңдеуге мүмкіндік беретін құрылымдарды ұсынады, сонымен қатар мəліметтер қоймасы арқылы талдауда қажетті əр түрлі құрылымданған жəне жартылай құрылымданған ДББЖ қолдану арқылы жүзеге асырылады.

Деректер қоймасы жəне аналитикалық деректерді дайындау Жинақталған деректердің көлемінің артуы, аналитикалықтапсырмаларда

қажетті ақпараттық ресурстарды жинау, сақтау жəне аналитикалық болжамдар жасауда алу тапсырмаларын шешу деректер қоймасын құру қажеттігін көрсетті.

Деректер қоймасына арналған алғашқы мақала 1988 ж. Девлин (Devlin) жəне Мерфи (Murphy) деген авторлардың жұмыстары болды. Осыдан кейін 1992 ж. Pirsm компаниясының техникалық директоры Уильям Г.Инмон (William H. Inmon) деректер қоймасына арналған «Building the Data Warehouse» (Деректер қоймасын құру) [6] атты монографиялық еңбегін жазып, негізгі анықтамасын берді:

Деректер қоймасы (Data Warehouse) – пəндік-бағытталған, біріктірілген, өзгермейтін, аналитикалық өңдеулерде күрделі сұранымдарды орындауға оңтайландырлылған, шешімдер қабылдауды қолдау мақсатында ұйымдастырылған деректер жиынын сақтауды қолдайтын ДБ [6, 7].

Инмон деректер қоймасын құруда келесі талаптарды қалыптастырды [6]:

реляциялық деректер моделін бөлшектенген деректер жəне агрегациялық деректер үшін, сондай-ақ деректерді көп өлшемді ұсыну кезінде депайдалану;
үлкен корпорацияларға орталықтандырылған деректер қоймасын құру, ал оның бөлімшелеріне жеке деректер витиринасынқұу;
деректерді талдау ұйымның, мекеменің құрылымдық жəне функционалдық бөлімшелеріне қызмет көрсетуге бағытталуыкерек.

Ральф Кимбалл (Ralph Kimball), деректер қоймасы тұжырымдамасы авторларының бірі, деректер қоймасынна мынадый сипаттама береді

«қолданушылардың өз деректеріне қатынай алатын орын» (Ralph Kimball, «The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses», John Wiley & Sons, 1996 и «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», John Wiley & Sons, 2000). Ол деректер қоймасына қойылатын келесі талаптарды қалыптастырды[19]:

қоймадан деректерді алуды жоғары жылдамдықпен қамтамасызету;
деректердің ішкі қайшылықсыз болуынқолдау;
деректер қимасын алу жəне салыстыру мүмкіндіктері (slice and dice), яғни деректер қоймасының көп өлшемді моделдіқолдауы;
деректерді қараудың қолайлы құралыныңболуы;
сақталынатын деректердің толықтығы жəне қолжетімділігі;
деректерді толықтырудың тиімді үрдісін қолдау.

Уильям Г.Инмон ұсынысы бойынша деректер қоймасының қасиеттері:

а) Пəндік бағытталуы – деректерді пайдаланылатын салысына байланысты жинау, толықтыру, агрегациялау жəне бірегей қалыпқа келтіру.

б) Біріктірілуі – пəндік салаға қатысты ақпараттар əр түрлі жүйелерде сақталынған болуы мүмкін. Талдауда қажетті ақпараттың толық болуын қамтамасыз ету мақсатында деректер қоймасы əр түрлі дереккөздермен деректерді бірегей қалыпқа келтіру арқылы біріктірілуі қажет.

в) Өзгермейтіндігі – бастапқы деректер анықталынып, сəйкестендіріліп жəне деректер қоймасына енгізілгеннен кейін өзгертілмейді жəне өшірілмейді. Деректерді енгізу көп жағдайда нақты бекітілген кесте бойынша жүргізіледі. Пайдаланушылардың деректерді тек оқу режимінде ғана қатынау құқықтары болады.

г) Хронологияны қолдауы – деректер қоймасында деректер нақты жəне дұрыс болады, егер олар беліглі бір уақыт аралығына немесе мезетіне байланыстырылған болса. Бұл талдаулар барысында пəнідік сала көрсеткіштерінің хронологиялық өзгерісін көру үшін қажет.

Деректер қоймасының негізгі идеясы жедел өңдеуде жəне аналитикалық тапсырмаларда қажетті ақпаратты бөлек сақтау болып табылады. Бұл аналитикалық деректерді сақтауда, пайдалануда қойылатын талаптарды қанағаттандыру мақсатында арнайы деректер құрылымдары мен алгоритмдерді қолдануға мүмкіндік береді. Арнайы əзірленген деректер құрылымы деректерді оңтайлы сақтауға, енгізіуге, түрлендіруге, іздеуге жəне талдауларда аналитикалық сұранымдарды тиімді орындауға мүмкіндік береді. Аналтикалық деректерді жеке сақтау жəне барлық ақпаратты бір орталыққа жинау бастапқы дереккөздері болып табылатын ДБ-лары, басқа да деректер көздерімен біріктіре отырып, деректер арасындағы сəйкестіктер мен келісімдерді сақтау арқылы жүзеге асырылады. Бастапқы деректер көздерінен ақпаратты деректер қоймасына жүктеуде деректерге фильтрация (filter) жасалынады. Фильтрация барысында аналитикалық талдауда қажет емес, артық деректердің барлығы өшіріледі, ал алынған деректер жалпыланады жəне біріңғай үлгіге келтіріледі. Мұндай өңдеуден кейін алынатын деректердің көлемі айтарлықтай азайады

жəне аналитикалық дерекетрді алдын ала дайындау, дұрыс құрылымға келтіру аналитикалық өңдеуде алынатын нəтижелердың сапалы болуының кепілі.

Деректер қоймасы моделдері.Барық деректер қоймасы моделін негізгі екі категорияға бөлуге болады [60]:

нормалданған (қалыптандырылған) деректерқоймасы;
өлшемдік деректерқоймасы;

Нормалданған деректер қоймасымоделінде деректер кестелері үшінші жəне одан да жоғарғы нормалдау формаларына келтіріуі қажет. Бұл Инмон ұсынған реляциялық модел негізінде деректер қоймасын құру болатын. Негізгі артықшылығы деректер барынша қалыпты формаға келтірілгендіктен жадыдан аз орын алады. Негізгі кемшілігі кестелердің көп болуы себебінен аналитикалық тапсырмалар кезінде қажетті деректерді көп кестелерден іздеу жəне жинау өнімділікті төмендетеді.

Өлшемдік деректер қоймасымоделін Кимбалл ұсынған, деректерді көп өлшемді текше түрінде беру. Текшені құрастыру моделдің өлшемдік сипаттамасын жəне өлшемдердің ішкі байланысы құрылымын беруді ұсынады. Өлшемдік деректер қоймасында "жұлдызша (star)" жəне "snowflake" сұлбалары пайдаланылады. Моделдің негізгі артықшылығы деректерді тиімді сақтауында жəне талдау кезінде деректерге қатынаудың қарапайымдылығы. Кемшілігі – бастапқы деректерден аналитикалық деректерді дайындаудың жəне жүктеудің күрделілігі, сонымен қатар өлшемдердің өзгеруі деректер қоймасын басқаруды қиындатады.

Соңғы уақыттабағандық деректер базасы моделінегізінде деректер қоймасын құру жолдары қарастырылуда. Негізгі ерекшелігі – дəстүрлі ДБ-да деректер жол бойынша сақталса, бағандық ДБ деректер баған бойынша сақталынады. Клиенттерге деректерді ұсыну əдеттегі кестелер түрінде болады, ал жадыда сақталынуы бағандар тізбегі түрінде болады. Аналитикалық деректер қоймасы ретінде қолдану бағытында көптеген бақылау сынақтары жүргізілуде, соның ішінде Vertica, Cassandra, HBase сияқты бағандық ДББЖ- лері кең қолданыста. Реляциялық жəне көп өлшемді моделдер сияқты нақты деректер қоймасы моделі ретінде алынғанжоқ.

Деректер қоймасындағы деректер категориясы[61, 62]:

а) Бөлшектеген деректер – OLTP - жүйелерден жəне т.б. бастыпқы дереккөздерден тікелей көшірмеленген деректер. Мұндай барлық деректерді екіге бөлу қыбылданған: өлшемдер жəне фактілер.

Өлшемдер – оқиғларды сипаттау үшін қажетті деректер жиынтығы. Фактілер – оқиғаның мəнін көрсететін деректер (сандық көрсеткіштер).

б) Агрегациялық (жиынтық) деректер – белгілі бір өлшемдер бойынша бөлшектенген деректерді қосындылау арқылы алынған деректер. Агрегациялау мүмкіндіктеріне байланысты деректер келесі түрлерге бөлінеді:

аддитивті (additive) – барлық өлшемдер бойынша қосындылануы мүмкін нақты сандықдеректер;
жартылай аддитивті (semiadditive) – белгілі бір өлшемдер бойынша қосындылануы мүмкін нақты сандықдеректер;
аддитивті емес – бірде бір өлшем бойынша қосындылануы мүмкін емес нақты сандықдеректер.

Деректерді аналитикалық талдау кезінде негізінен агрегациялық деректер пайдалынылады. Деректер қоймасы архитектурасы талдаулар кезінде қажетті ақпаратқа жылдам жəне қолайлы қатынауды қамтамасыз етуі қажет. Осыған байланысты аналитикалық деректер қоймасында агрегациялық деректер алдын ала есептелініп, сұраным кезінде дайын деректер беріледі. Қазіргі таңда деректерді аналитикалық өңдеу құралдары барлық агрегациялық деректерді алдын ала есептеуді жүзеге асырмайды, кейбір өлшемдер бойынша алдын ала, ал басқа бір өлшемдер бойынша агрегациялық мəндер есептеуді сұраным түскен кезде ғана орындайды [8]. Себебі, алдын ала есептеліген мəндер жадыдан орын алады, яғни алдын ала есептелінген агрегациялық мəндер аналитик пайдаланғанға дейін артық ақпарат ретіндесақталынады.

в) метадеректер –деректер қорындағы деректер туралы деректер немесе деректер қорында пайдаланылатын деректер туралы ақпарат.

Келесідегідей негізгі сипаттамаларды береді:

деректер қоймасында орналасқан пəндік сала объектілері туралы ақпарат;
деректер қоймасын қолданатын пайлаланушылар туралыдеректер;
деректерді сақтау орны жəнетəсілдері;
деректермен орындалатынəрекеттер;
деректермен əр түрлі əрекеттердің орындалууақыты;
деректермен əр түрлі əрекеттердің орындалусебептері.

Деректерді бастапқы дереккөздерден деректер қоймасына енгізу, сақтау жəне сақталынған деректерді аналитик маманға беру, келесі ақпараттық ағындарды құрайды:

а) енгізу ағыны (Inflow) – бастапқы дерекөздерден деректер қоймасына көшірілетін деректерден құралады;

б) жинақтау ағыны (Upflow) – бөшектенген деректерді агрегациялау жəне деректер қоймасына сақтау жүргізіледі;

в) мұрағаттық ағын (Downflow) – бөлшектенген деректердің орнын ауыстыру арқылы құрылады;

г) метадеректер ағыны (Metaflow) – деректерді сақтау туралы ақпарат ағынынан құралады;

д) шығыс ағыны (Outflow) – пайдаланушы шығаратын деректер ағынынан құралады;

ж) кері қайту ағыны (Feedback Flow) – бастапқы дереккөздерге қайта жазылатын тазаланған деректермен құрылады.

Жоғарыда берілген ақпараттық ағындардың ішіндегі ең негізігі жəне күрделісі енгізу ағыны. Енгізілетін деректерді ДБ-ларынан, файлдардан, электронды кестедерден жəне т.б. бастапқы деректер көздерінен алу, тазалау жəне жаңа атрибуттар беріп толықтыру арқылы деректер қоймасына көшіру. Бастапқы деректерді алу, түрлендіру жəне деректер қоймасына жүктеу ETL - үрдіс деп аталады [60].

ETL (Extract, Transform, Load —«алу, түрлендіру, жүктеу»)– деректер қоймасын басқарудағы негізгі үдерістердің бірі, деректерді көшіру келесі кезеңдерден тұрады:

бастапқы дереккөздерден деректердіалу;
алынған деректерді деректер қоймасы деректер моделіне сəйкес түрлендіру;
дереткер қоймасынажүктеу.

ETL- бұл бастапқы дереккөзден деректер қоймасына деректерді көшіру үдерісі ғана емес талдау деректердін дайындау, əр түрлі бастапқы деректерді бірегей қалыпқа келтіру құралы ретінде де қарастыруға болады. Себебі əр түрлі дереккөздерден алынған түрлі деректер деректер қоймасында деректер аналитикалық талдауларға қолайлы түрде ұйымдастырылады. Қазіргі уақытта ETL-үдерісі деректер қоймасына бастапқы деректерді алу мен дайындауда кеңінен қолданылады. Бұл үдерісті деректер қоймасында пайдаланылатын деректер моделіне, бастапқы деректердің құрылымана байланысты бірнеше жолмен жүзеге асыруға болады:

деректерді сақтау құрадары көмегімен (export немесе import tools

арқылы);

арнай программалық құралдаркөмегімен.

Корпоративтік деректер қоймасын құрудың тұжырымдамалықмоделдері.РДББЖ-лерінің айтарлықтай дамытылуы жəне кеңінен қолданылуы деректер қоймасын дамытудың бірден бір жолы болды. Қазіргі уақытта РДҚБЖ

деректерді басқару стандарты. Бастапқы кездерде ұйымдарда жеке РДБ негізінде нақты бір мақсатқа арналған "деректер витиринасы" əзірленді. Осыдан кейін жетекші ұйымдар əр түрлі ДБ бір үлкен жүйеге біріктіру арқылы корпоративтік деректер базасын құрды. Корпоративтік деректер қоймасын құрудың мақсаты маңызды корпоративтік деректерді бір орталықтанған ДБ-на жинау. Орталықтанған деректер қоймасын пайдалану бағыты алдыңғы қатарлы аналитика саласына өзіндік əсерін тигізді [63, 118-121 б.; 64, 65,68].

Бүгінгі күнде аналитикалық жүйелерде талдау деректерінің басым көпшілігі РДБ-нан алынады, сонымен қатар басқа нақты бір құрылымға кетілірмеген деректер үшін арнайы программалық əзірлемелер қолданалды.

Деректер қоймасының маңыздылығы, оны жан-жақты дамытып, бүгінгі күнде копроративтік деректер қоймасы тұжырымдамалық үлгісінің көптеген нұсқасы ұсынылуда [13, 67]:

виртуалды деректерқоймасы;
деректервитринасы;
параллелді деректер қоймасымен жəне деректер витиринасымен орталықтандырылғанETL;
орталықтандырылған деректерқоймасы;
көп деңгейлі (ғаламдық) деректер қоймасыХД;
бұлттық деректерқоймасы.

Виртуалды деректер қоймасы– аналитикалық деректері метадеректер арқылы бірыңғай логикалық деректер моделіне біріктірілген, физикалық тұрғыда əр түрлі ДББЖ-мен басқарылатын түрлі ДБ-ларындасақталынатын

деректер қоймасының тұжырымдамалық моделі. Бастапқы аналитикалық деректер ортақ деректер қоймасына көшірілмейді, аналитикалық сұранымдарды орындау кезінде олар бірден дереккөздерден алынып, түрлендіріліп жəне біріктіріліп жедел жадыға көшіріледі. Сұранымдар бірден бастапқы дереккөздерге бағытталады.

деректер витринасы (Data Mart)– бұл тек тақырыптық біріктірілген деректерден тұратын деректер қоймасы тұжырымдамалық үлгісінің бір нұсқасы.
параллелді деректер қоймасымен жəне деректер витиринасыменорталықтандырылған ETL– бұл тұжырымдамалық үлгі бойынша деректерді алу, түрлендіру жəне жүктеу жүйесі орталық болып табылады, корперативті деректер қоймасының барлық архитектурасы осы ортақ жүйе айналасында құрылады. Орталық деректер қоймасына жүктелінетін тазартылған жəне келісілген деректер əр түрлі дереккөздерден бірінші ETL-жүйеге түседі [13,67].
орталықтандырылған деректер қоймасы– бірнеше бастапқы дереккөздерге ортақ бір деректер қоймасы құрылады. Бастапқы дереккөздерде деректер өңделмеген жəне бастапқы түрде болады, оларды деректер қоймасына жүктеуде қабылданған құрылым бойыншатүрлендіреді.
көп деңгейлі (ғаламдық) деректер қоймасы –үш деңгейден тұрады, бірінші деңгейде өңделмеген деректерді жедел талдауға арналған көп өлшемді деректер қорын басқару жүйесі негізінде деректер витиринасы құрылады. Өңделмеген деректер əр түрлі дереккөздерде реляциялық ДҚ, анықтама жүйесінде, тіркеу жүйелерінде болуы мүмкін. Бұдан деректер витиринасы толықтай қалыптастырылмағанын көруге болады. Көп жағдайда деректерді сұраным түскен кезде алып, өңдейді. Бұл талдау уақытын созады, бірақ деректер əр түрлі құрылымда жатқандықтан көп жағдайда көп өлшемді деректер моделіне қойылатын шектеулердіболдырмайды.

Екінші деңгейде реляциялық ДББЖ пайдалану арқылы орталықтандырылған деректер қоймасы əзірленеді. Онда біріктірілген бөлшектенген деректер сақталынады. Реляциялық үлгіні пайдаланғандықтан деректер тиімді сақталынады, бірақ деректерді көп өлшемді ұсыну талаптарымен толық сəйкес келмейді.

Үшінші деңгейде əр түрлі деректер витиринасы құрылады. Бұл деңгейде қажеттілікке байланысты деректерді реляциялық немесе көп өлшемді түрде сақтауға болады.

Бұл архитектура барлық үлкен көлемді деректер жиынына талдау жүргізуге мүмкіндік береді жəне осы архитектура негізінде деректер витиринасымен көп деңгейлі орталықтандырылған деректер қоймасы, Біріктірілген шинамен көп деңгейлі таратылған деректер қоймасы - архитектуралық шешімдерəзірленді.

-бұлттық деректер қоймасы –деректерді көптеген таратылған желідегі серверлерде сақтауға арналған, тұтынушыларға серверлердің ішкі құрылымы көрінбейтін онлайн-сақтау үлгісі. Деректер тұтынушы көз қарасы бойынша үлкен виртуалды сервер болып көрінетін, бұлтта сақталынып, өңделеді.

Ұсынылып отырған деректер қоймасының параллелді, орталықтандырылған, көп деңгейлі жəне бұлттық тұжырымдамалық үліглері үлкен көлемді əр түрлі құрылымды деректерді аналитикалық өңдеулер үшін əзірлеу жəне сақтау, сонымен қатар ауқымды (масштабный) аналитикалық жүйе құру мақсатында əзірленген. Деректер қоймасының озық шешімдерінің əзірленуіне қарамастан толық шешімін таппаған өзіндік мəселелерібар:

а) əр түрлі деректердің біріктірілуі. Деректер қоймасына деректер əр түрлі OLTP-жүйелерден, реляциялық ДБ, электронды кестелерден, NoSQL ДБ жəне т.б. дереккөздерден келіп түседі. Дереккөздер физикалық жағынан желінің əр түрлі түйіндерінде болуы мүмкін. Деректер қоймасын жобалауда жəне əзірлеуде деректердің əр түрлі қалыптары мен құрылымдарын біріктіру тапсырмасын шешуқажет;

б) үлкен көлемді деректерді тиімді сақтау жəне өңдеу. Деректер қоймасын құруда айтарлықтай уақыт кезеңіндегі деректерді жинау қарастырылып, дискілік жады көлемінің тұрақты өсуі, сонымен қатар деректерді өңдеу үшін талап етілетін жедел жады көлемінің өсуі ойластырылады. Деректер көлемінің артуы сызықтық түрде болмайды.

в) көп деңгейлі метадеректер анықтамаларын ұйымдастыру. Аналитикалық жүйе пайдаланушыларына қажетті деректер қоймасында сақталынған деректер құрылымын, сонымен қатар оларды ұсыну құралдарын сипаттайтын метадеректер.

г) деректер қоймасы ақпараттық қауіпсіздігін қамтамасыз ету. Деректер қоймасында ұйымның, мекеменің қызметтеріне байланысты, коммерциялық құпияларына қатысты, бұдан басқа қызметкерлер мен клиенттердің жеке деректері қорғау қажеттігі. Бұл функцияларды орындау үшін деректер қоймасында кауіпсізідк саясаты əзірленуі қажет жəне ақпаратты қорғау шаралары инфрақұрылымды құруда, деректер құрылымын ұйымдастыруда жəне программалық-техникалық əзірлемелерде қарастырылуышарт.

Деректерді аналитикалық өңдеудің масштабталған шешімдері Масштабталуы – ресурстар қосу арқылы жүйе өнімділігін (жұмыс

қуаттылығын) арттыру мүмкіндігі. Жүйе масштабталатын болып есептеледі, егер ол қосымша ресрустармен өнімділігін арттыруға қабілетті болса. Жүйелердің масштабталуын екі бағытта арттыруға болады: тік (scalе up) масштабтау жəне көлденең (scale out) масштабтау.

Тік масштабтау (vertical partitioning)- қолданылып отырған сервердің сипаттамасын жақсарту арқылы жүйенің есептеу қуаттылығын арттыру. Есептеу қуаттылығын арттыру қолданылып отырған серверді жетілдіру немесе оны қуаттылығы жоғары аппараттық құрал-жабдықпен алмастыру. Мысалы, деректерді сақтау көлемін масштабтау мүмкіндігі жеткілікті жаңа аппараттық қамтаманы пайдалану арқылы қосымша дискілік орын қосу немесе деректерді сақтау жылдамдығын арттыру. Бұл масштабтау жолының деректерді аналитикалық өңдеуде артықшылығы мен кемшіліктері бар. Артықшылықтары: деректерді сақтаудың қарапайымдылығы, басқарудың қарапайымдылығы - тек бір ғана программамен жəне бір компьютермен жүзеге асырылады жəнет.б.

Кемшіліктері: аппарттық құрал-жабдықтардың құнының жоғары болуы, жүйенің істен шығуы тек серверге тəуелді жəне т.б.

Көлденең масштабтау (horizontal partitioning)– қосымша компьютерлер қосу арқылы жүйе қуаттылығын арттыру. Көлденең масштабтауды пайдалануда бірнеше компьютерлер арасында қосымшалар мен мəліметтер таратылады жəне пайдаланушы сұранымына жауапты қалыптастыруда, жүйеге мəліметтерді жүктеуде білресіп жұмыс жасайды. Негізгі артықшылықтары: аппараттық қамтамалар құнының төмен болуы, жүйе істен шығуы бір ғана түйінге байланысты емес жəне т.б.

Кемшіліктері: қосымшалар мен деректерді таратылған ортада басқарудың күрделілігі.

Деректерді аналитикалық өңдеуде қолданылатын жоғары өнімділіктіжүйелер

Қазіргі уақытта жоғары өнімділікті деректерді аналитикалық өңдеу жүйелерін жүзеге асыру бойынша MPP - массивті-параллелді өңдеу архитектруасы негізіндегі параллелді ДБ, NoSQL ДБ, in-memory ДББЖ жəне MapReduce моделі негізіндегі жоғары өнімділікті деректерді өңдеу жүйелер тобы трендте болуда (немесе жүйелер тобына басты назар аударылуда). Бұл жүйелердің бір бірінен ерекшелейтін негізгі аспектілері бар. Мысалы, MPP- жүйелері негізіндегі деректерді паралелді өңдеу жүйелері реляциялық модел бойынша нақты бір құрылымға келтірілген деректер сұлбасымен жұмыс жасайды, ал MapReduce моделі негізіндегі деректерді өңдеу жүйелері жартылай құрылымдандырылған кілт-мəн құрылымдағы деректерді өңдеуге бағытталған. In-memory есептеу технологиялары реляцилық жəне NoSQL ДББЖ жедел жадыда тұрақты сақтауға арналған жəне MPP-архитектурасы мен MapReduce моделіне арналған жүйелері бар. Бұдан басқа ерекшеліктері – деректерді оңтайлы индекстеу, программалау үлгілері, деректерді тарату əдістері жəне деректерге жасалынатын сұранымдарды орындау стратегиялары [66 -51-163 б.; 69-71,73].

Үлкен көлемді деректер ғылымнан, бизнестен, Интернеттен жəне т.б. дереккөздерден келеді [7, 26-28 б.]. Интернет технологиялар мен қыземттердің қарқынды дамуы құрылымдандырылған деректермен қатар жартылай құрылымдандырылған деректер көлемінің ұлғаюына алып келді. Параллелді реляциялық ДБ көлемі жағынан Мбайт-тан, Гбайт, Тбайт, бірнеше Пбайт-қа дейінгі мəліметтерді сақтау жəне өңдеу мүмкіндіктерін қамтыса, ал NoSQL деректер қоры жүйелері Пбайт жəне одан да көлемді деректерді сақтауға, өңдеуге бағытталуда.

Параллелді ДБ– өнімділік пен жылдамдықты арттыру мақсатында компьютерлік желінің бірнеше түйіндеріне физикалық үлестірілген жəне бір бірімен логикалық байланыстырылған мəліметтер жиыны (таратылған ДБ-мен пайдалану мақсаттары бойынша ерекшеленеді).

NoSQLДБ – деректер базасын жүзеге асыру бағыттарының бір түрі жəне реляциялық емес деректер моделін қолданатын, көлденең масштабтауға бағытталған ДББЖ. NoSQL ДБ жобалау мен құрудың басты себебі, таратылған

кластерлік жүйелердегі дəстүрлі реляциялық ДБ-мен болатын масштабтау (scalability), қол жетімділік (availability), тұтастық (atomicity) жəне деректердің сəйкестігі (consistency) мəселелерін шешу [72, 4-7 б.].

MPP (massively parallel processing-массивті-параллелді өңдеу)– ортақ ресурссыз (shared nothing) параллелді есептеу жүйесі архитектурасы. Бұл архитектуралық негзідегі жүйелер ерекшелігі кластердің бөлектенген жеке түйіндерінен (узел, node), əр бір түйін жеке процессор, жедел жады, желілік адаптер жəне т.б. ресурстарды, сонымен қатар өңделінетін жеке деректерден тұрады. Массивті-параллелді жүйелерді пайдалануда толықтай жүктелінген бір ДБ деректері бір-бірінен тəуелсіз дискілер мен процессорлерге тəуелсіз фрагменттерге бөлу арқыры орналастырылады (сурет 1.4). MPP – массивті- параллелді өңдеу архитектурасы негізіндегі параллелді ДББЖ əзірлеу жиырма жылдан астам уақыт бұрын басталған жəне оларың қазіргі кездегі кең қолданыстағы негізгі түрлері: Teradata, Aster Data, Netezza, DATAllegro, Microsoft SQL Server, Dataupia, Vertica, ParAccel, Neoview, Greenplum Database, DB2 и Oracle (параллелді ДҚ – Exadata). Бұл жүйелердің барлығы стандартты реляциялық моделді, құрылымдандырылған сұраным тілі SQL-ді қолдайды жəне параллелді орындау екі қадам бойынша қамтамасыз етіледі: 1- деректер кластер түйіндері бойынша фрагменттерге бөлінді жəне 2-түйіндер бойынша орындалатын SQL сұранымдарды тарату. SQL-сұранымдарды таратуда жүйелерде арнайы үйлестірулер (optimizer) пайдаланылады. Параллелді ДББЖ үлкен көлемді деректерді сақтауда жəне аналитикалық өңдеуде алдыңғы қатарлы əзірлемелер болып саналады жəне жүйелерді қолдануда программалаушыдан тек жоғарғы деңгей тілдерінде деректерге сұранымдар жазуды қажет етеді, ал деректерді сақтау деңгейлері, индекстеу жəне сұранымды орындау стратегиялары жүйелерге кіріктірілген [63 121-131 б.;69].

Массивті-параллелді өңдеу жүйесін озық аналитиканың басты тапсырмаларының бірі таратылған деректер қорындағы деректерді аналитикалық өңдеуге дайындау (деректерді біріктіру, агрегациялау, түрлендіру) үрдісінде қолдану. MPP-жүйелердегі реляциялық параллелді ДБ-да аналитикалық деректерді дайындау үрдісінде SQL тілінің функционалдылық мүмкіндіктерін пайдаланып ДБ-нан қажетті деректерді шығару, сол деректер базасында өңдеу жəне тек аналитикаға қажетті деректерді дереткер қоймасына жүктеуге болады. ДБ-да деректерді дайындау бойынша SQL тілінің төрт негізгі тəсілдері бар: а) SQL-ге келтіру үлгісі (SQL push model); ə) пайдаланушы анықтайтын функция (UDF); б) кіріктірме үрдістер в) болжамдарды үлгілеуге арналған белгілеу тілі (рredictive modeling markup language, PMML).

Деректерді аналитикалық өңдеуге арналған параллелді ДББЖ коммерциялық бағытта болғандықтан программалық кодтары жабық жəне бағалары жоғары.

Сурет 1.4 – Деректерді массивті-параллелді өңдеу

MapReduce параллелді үлгісі –компьютерлік кластерлерде үлкен көлемді деректерді таратылған есептеу жүйелерінде өңдеуге арналған, Google компаниясы əзірлеген параллелді программалық үлгісі [74].

MapReduce тұжырымдамасына сəйкес, үлкен көлемді деректерді таратылған жүйеде өңдеу таратылған файлдық жүйе GFS (Google File System) негізінде жүргізіледі жəне өңдеу тапсырмасы екі кезеңге бөлінеді – map жəне reduce. Map(ƒ,j) кезеңі ƒ функциясын жəне j мəліметтер тізімін алынады, ƒ функция j кіріс мəліметтері тізіміндегі əр бір элементке қолданылып, шығыс деректер тізімін қайтарады. Бұл кезеңде əр бір map-үрдіске кіріс деректері жүктелінеді жəне əр бір map-үрдіс бір бірінен тəуелсіз орындалады (1.5-сурет).

f(j)

Сурет 1.5 – Мap-фазасы

Reduce(ƒ,j) кезеңі ƒ функциясын жəне j мəліметтер тізімін қабылдап, ƒ функциясы арқылы j кіріс деректерін агрегациялау арқылы объект түрінде қайтарады. Reduce-үрдістер map-кезеңінің нəтижелерін алып өңдейді, оларды кілттер мəндері бойынша бір бірімен қиылыспайтын блоктарға бөледі, сонымен қатар блоктар map-кезеңіндегі сияқты бір бірінен тəуелсіз орындалады (1.6 - сурет). Осылайша кезеңдердегі блоктарды алдын ала анықталынған серверлерде параллелді орындауға болады.

f(j)

Reduce Output

Сурет 1.6 – Reduce фазасы

MapReduce үлгісінің кең қолданыс табуының басты себебі ашық кодта болуы жəне Apache Software Foundation қорының Hadoop - жобасы бойынша əзірленген тегін таратылатын программалық кітапханалармен жүзеге асыруға қол жетімділігі. Бұл үлігінің басты ерекшелігі MapReduce -үрдістері мыңдаған кластер түйіндерінде орындауға арналған жəне құрылымға келтілімеген, жартылай құрылымдандырылған үлкен көлемді деректерді өңдеуге бағытталған.

Көп жағдайда деректерді өңдеу үдерістерінде MapReduce - деректерді алу, түрлендіру жəне жүктеу құралы (ETL) ретінде пайдаланылады [62]. Осыған байланысты MapReduce үлгісі мүмкіндіктерін деректерді аналитикалық өңдеу тапсырмаларында құрылымға келтілімеген, жартылай құрылымдандырылған үлкен көлемді дереккөздерден деректерді алу, бастапқы өңдеу арқылы аналитикалық құнды деректерді ғана деректер қоймасына көшірмелеу үрдістерінде қолдану. Себебі параллелді деректер қорымен салыстырғанда MapReduce үлгісіндегі программалар жартылай құрылымдандырылған жəне құрылымға келтірілмеген деректермен тиімді жұмыс жасауға мүмкіндік береді. Жартылай құрылымдандырылған жəне құрылымға келтірілмеген деректердің басым көпшілігі аналитикалық өңдеуге қажетсіз, сондықтан олардың барлығын аналитикалық деректер қоймасына көшірмей, бастыпқы орналасқан орнынан тек жарамды, құнды деректерді ғана алу.

MapReduce үлгісінде кіріктірілген қауіпсіздік жүйесі, индекстеу, сұранымдарды үйлестіру, өңдеу жүргізілетін деректер жəне орындалған тапсырмаларды тіркеу журналы құралдары жоқ. Əр қолданушы орындалатын тапсырмаға сəйкес қажетті өз программалық кодын жəне деректер құрылымын пайдаланады.

In-memory Computing технологиясы (жедел жадыда есептеу)–деректерді жедел жадыда тұрақты сақтау, сонымен қатар қосымша құрылымдарда (индекстер жəне т.б.) жедел жадыда сақталынады. Жедел жадыда сақталған деректерге қатынау жылдамдығы қатты дискіде сақталған деректерге қатынау жылдамдығымен салыстырғанда бірнеше есе жоғары, сондықтан деректерді өңдеу жылдамдығын айтарлықтай жоғарылайады [74].

Таратылған есептеу теориясы шеңберінде жедел жадыда деректерді өңдеудің екі түрі ұсынылады: In-memory ДБ жəне In-memory деректер желісі.

In-memory ДБ (in-memory database)–бұл деректерді тікелей жедел жадыда сақтауға арналған реляциялық ДҚБЖ. In-memory ДБ SQL тілін, ODBC жəне JDBC драйверлерін жəне программалау тілдері интерфейстерін қолдайды. Сондықтан бұл ДБ тұрақты жадыда сақталынатын РДБ-мен бірге қолдануға болады [74, 77; 77, 1474-1485б.]. In-memory функционалдық мүмкіндіктерімен қамтамасыз етіліп əзірленген дəстүрлі ДБ: MS SQL Server 2014 (Microsoft бірлестігінің өнімі), Exalytics жəне Exadata (Oracle бірлестігінің өнімі) жəне DB2 (IBM- бірлестігінің өнімі). Бұл өнімдер аналитикалық тапырмаларға бағытталған, себебі көп жағадайда деректерді жылдам өңдеу тапсырмаларын аналитикалық бағыттағы жүйелер талап етеді. Жедел жады көлемі тұрақты жадымен салыстырғанда біршама аз, осыған байланысты деректер қоймасындағы аналитикалық деректерді сақтауға жедел жады көлемі жетпеуіне байланысты гибридті - Hybrid In-memory ДБ əзірленген, деректердің бір бөлігін жедел жадыда басқа бір бөлігін дискіде сақтайды [78]. Гибридті шешімдердің бірі Oracle Big Data Appliance базасындағы Oracle Database 11g Apache Hadoop жəне Exalytics əзірлемелері.

In-memory деректер желісі (In-memory data grid) –NoSQL жəне NewSQL ДБ-ларын жедел жадыда тұрақты сақтау. Бұл жүйелер MPP - массивті- параллелді өңдеу архитектурасын, SQL-тілін, MapReduce таратылған есептеу моделін жəне NoSQL/NewSQL ДББЖ қолдану арқылы ортақ ресурссыз өңдеулерге əзірленген. Негізгі программалық өнімдері High-Performance Analytics платформаларына бағытталған.

In-memory ДБ жүйлері тік масштабтауға, ал In-memory ДБ көлденең масштабтауға бағытталған. Дəстүрлі OLAP-аналитикалық жүйелер сұранымдарды жылдам орындау үшін деректерді жедел жадыда сақтайды. Бұл In-memory ДБ OLAP жүйеде қолдануға болатынын көрсетеді, бірақ аналитикалық деректер көлемі үлкен болған жағдайда текшеге жедел жады көлемі жеткіліксіз [79]. Мəселені екі жолмен шешуге болады: 1) деректерді In- Memory ДБ бойынша бөліп сақтау, бұл жол көп жағдайда мүмкін болмайды, себебі себебі текшені бөліп сақтаудың тиімділігі төмен. 2) текше құрғанда агрегациялық деректерді сақтамау, оларды сұраным берілген кезде бірден қалыптастыру. Бұл текше көлемін барынша азайтуға мүмкіндік береді.

In-memory есептеу жүйелерінің басты кемшілігі жедел жады көлемінің аз жəне бағасының қымбат болуында. Үлкен көлемді деректерді жедел аналитикалық өңдеу кезінде олардың көлемі Пбайт-тан асады. Мұндай жедел жады көлемінің құны шешілетін тапсырма құнынан бірнеше есе жоғары болуы мүмкін.

Деректерді аналитикалық өңдеуга арналған платформалар Аналитикалық платформа - бұл ақпараттарды деректер қоймасымен

біріктіру құралы, деректерді алу, түрлендіру, жүктеу, интеллектуалды талдау (Data Mining) алгоритмдері, нəтижелерді пайдаланушылар арасында тарату, көрсету сияқты өңделмеген деректерден жасырын заңдылықтарды шығаруды жүзеге асырудың барлық құралдарынан тұратын арнайы программалық шешім (əзірлеме) (немесе шешімдер жиыны) [80].

Үлкен көлемді деректерден шешім шығаруға қажетті жасырын білімдерді іздеу, деректерді талдау, аналитикалық деректерді алын алда əзірлеу, сақтау тапсырмаларына арналған əдістерді, деректер қоймасы мүмкіндіктерімен біріктіре отырып, үлкен көлемді аналитикалық деректерді өңдеуді жүзеге асыратын, жоғары өнімділікті ауқымды жүйелерде жұмыс жасайтын аналитикалық платформалар əзірленген [81, 82]:

аналитикалық ДББЖ— MPP-архитектурасының масштабталған кластерлеріне адаптерленген дəстүрлі РДББЖ. Қазіргі кезде аналитикалық деректер базалары петабайт көлеміндегі деректерді өңдеуде параллелді ДББЖ- қолдайды;
таратылған файлдық жүйелер- Google компаниясының Hadoop Distributed File System (HDFS) - таратылған файлдық жүйесі жəне т.б. Деректерді өңдеу MapReduce - моделі арқылы жүзегеасырылады;
аналитикалық пакеттер— деректерді аналитикалық өңдеуге қажетті программалық қамтамалар мен жабдықтар кешені ретінде ұсынылатын инфрақұрылымдар. Пакеттер: SAS, STATISTICA, SPSS, Deductor жəнет.б.;
күрделі оқиғаларды өңдеуге арналған технологиялар (Complex EventProcessing, CEP)- бір немесе бірнеше оқиғалар ағынынан немесе белігілі бір уақыт мезетіндегі оқиғалардан маңыздыларын анықтау мақсатында əр түрлі оқиғалар жиынын нақты уақытта өңдеу жəне талдау арқылы корреляцияны (өзара байланысты) айқындау. Негізгі платформалар: StreamInsight (Microsoft), Apama (Software AG), Continuous Intelligence™ (Sybase) жəнет.б.

Келтірілген аналитикалық платформалар көп жағдайда деректерді өңдеу технологиялары мен қолданылтаны əдістері жағынан, функционалдық мүмкіндіктері бойынша жəне өндірушілері бойынша да бір бірімен ұштасып, кейбір жағдайларда бірін бірі қайталап та жатады. Тапсырмаларды толыққанды орындау үшін аналитикалық платформамен қатар, платформаның жұмыс жасауын жүзеге асыратын арнайы аналитикалық есептеу машинасы керек. Осыған байланысты қазіргі таңда өңделетін деректердің көлеміне байланысты аналитикалық платформадар мен аналитикалық машиналарды біріктіру арқылы бірнеше программалық-аппараттық платформалар ұсынылған. Мысалы, Aster MapReduce appliance (Teradata корпорациясы), Oracle Big Data appliance, Greenplum appliance (EMC корпорациясы), SAP HANA appliance жəне т.б. [81]

Заманауи аналитикалық платформалар жоғары өнімділікті есептеу жүйелерінде жұмыс жасауға арналған: ГРИД жəне бұлттық есептеудер, кластерлік жүйелер жəне т.б.

Жоғарыда келтірілген талдаулар көрсетіп отырғандай, деректерді аналитикалық өңдеу бойынша бір қатар əдістер, технологиялар жəне платформалар əзірленгенін. Əзірленген əдістер, технологиялар жəне программалық өнімдер деректерге қойылатын талаптары, соңғы нəтижелер сапасы мен ұсыну формалары, пайдаланудың қолайлылығы, өнімділігі жəне т.б. жақтарынан бір бірінен ерекшеленеді. Аталған құрылдардың көпшілігін жаңадан пайда болған түрлі талаптарға сəйкес жаңа мүмкіндіктер қосу арқылы толықтаралып отырады, кейбір жағдайларда жаңадан əзірлемелер дайындалынады.

<<< < Предыдущая 1 2 3 4 56 / 206 7 8 9 10 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20252.22 Mб0Kazak.docx
#
24.03.2015268.82 Кб66Kazakhskaya_zhurnalistika_sostav_Velitchenko.rtf
#
24.03.20151.15 Mб1853KAZAKSTAN_TARIKh.doc
#
01.07.2025652.8 Кб0kazaxtan_geografiasy_dayyn.doc
#
24.03.2015598.7 Кб9KAZJur.rtf
#
01.07.20252.61 Mб0kazntu.kz_031215_ND_MukazhanovNK.docx
#
01.07.2025155.14 Кб0kaznu.doc
#
01.07.202577.51 Кб0kaz_prava_shporgalka.docx
#
31.07.201956.78 Кб5kaz_yaz_30-45.docx
#
01.05.2025135.39 Кб0keden_-_kopia.docx
#
24.03.20151.38 Mб29Kentucky_fried_chicken.doc