- •Мукажанов нуржан какенұлы Əр түрлі құрылымды деректерді жедел аналитикалық өңдеу үдерістерінің ақпараттық-есептеуін қамтамасыз ету
- •6D070400 – Есептеу техникасы жəне бағдарламалық қамтамасыз ету Философия докторы (PhD)
- •Мазмұны
- •Деректерді аналитикалықөңдеудіңқазіргікездегіжай-күйі 14
- •Жедел аналитикалық өңдеулерүшінреляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілеріменəдістері 48
- •Бөлімбойыншатұжырым 80
- •Деректерді жедел аналитикалықөңдеугеарналған деректер қоймасына тиімді деректер құрылымынəзірлеу 81
- •Бөлімбойыншатұжырым 113
- •Əзірленген үлгілер,əдістержəнеалгоритмдердің ашық үкіметпорталыашықдеректерін аналитикалықөңдеудегіпрактикалықапробациясы 114
- •4 Бөлімбойыншатұжырым 131
- •Пайдаланылғанəдебиеттертізімі 133
- •Нормативтік сілтемелер
- •Анықтамалар
- •Белгілеулер мен қысқартулар
- •Диссертациялық жұмысты қорғауға келесі нəтижелер шығарылады
- •Деректерді аналитикалық өңдеудің қазіргі кездегі жай-күйі
- •Деректерді аналитикалық өңдеудің шешімдер қабылдауды қолдау жүйелеріндегі орыны менрөлі
- •Деректерді аналитикалық өңдеудің əдістері, технологиялары жəне платформалары
- •Деректерді көп өлшемді жедел аналитикалық өңдеудің мəселелері жəне зерттеу тапсырмаларыныңқойылымы
- •Бөлім бойыншатұжырым
- •Жедел аналитикалық өңдеулер үшін реляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілері менəдістері
- •Деректерді бірыңғай құрылымға келтіруəдістері
- •Деректер базалары моделдерініңерекшеліктері
- •Реляциялық жəне NoSql деректерді бірыңғай құрылымға келтіру əдісінəзірлеу
- •Бөлім бойыншатұжырым
- •Деректерді жедел аналитикалық өңдеуге арналған деректер қоймасына тиімді деректер құрылымын əзірлеу
- •Деректер қоймасы ішкі құрлымыныңұйымдастырылуы
- •Аналитикалық деректерді өңдеудің көп өлшемді индекстік деректер құрылымынұйымдастыру
- •Агрегациялық мəндерді есептеудің ағаш түріндегі құрылымын əзірлеу
- •Бөлім бойыншатұжырым
- •Əзірленген үлгілер, əдістер жəне алгоритмдердің ашық үкімет порталы ашық деректерін аналитикалық өңдеудегі практикалықапробациясы
- •Ақпараттық-аналитикалық жүйелердің мемлекеттік секторларда қолданылуы
- •Деректерді жедел аналитикалық өңдеудің мемлекеттік секторда қолданылуы
- •Ашық деректерді жедел аналитикалық өңдеудің ақпараттық- аналитикалық жүйесінəзірлеу
- •4 Бөлім бойынша тұжырым
- •Қорытынды
- •Пайдаланылған əдебиеттер тізімі
- •Қосымша а
- •Қосымша б
- •Қосымша в
- •Қосымша г
- •Қосымша д
Белгілеулер мен қысқартулар
D - өлшемдержиыны;
di
Mdi
өлшемдер жиыныныңэлементі;
гипертекше өлшемдерінің ішкі элементтерініңжиыны;
D' - қимаға таңдап алынған өлшемдержиыны;
mki
M'
- қимаға таңдап алынған өлшемдердің ішкі элементтерінің жиыны;
Х - сандық көрсеткіштержиыны;
V -сөздік;
V* -сөздік элементтерінен алынатын комбинациялық тізбектержиыны;
keyi,keyj,keyn - іздеуде пайдаланылатын кілт мəндеріретіндеалынатынсөздікэлементтері;
key-value - кілт-мəн түрінде берілген деректер;
map keymvm
-map- кезеңіне кіріс деректері ретінде алынған кілт-
{ in,
in}
мəндер;
map keymvm
map-кезеңінен алынатын шығысдеректері;
{ out,out}
reduce keyrvr
reduce-кезеңіне алынатын кірісдеректері;
{ in,in}
out agr
reduce{keyr,vr}
Sall
reduce-кезеңінен алынатын шығыс деректері, бастапқы агрегациялықмəндер;
агрегациялық қорытынды қосындымəндер;
MI - көп өлшемдіиндекс;
*pi
нұсқағыш;
NoSQL - Not OnlySQL;
ДБ - деректербазасы;
ДББЖ - деректер базасын басқаружүйесі;
РДББЖ - реляциялық деректер базасын басқару жүйесі;
ШҚҚЖ - шішімдер қабылдауды қолдаужүйесі;
OLTP - On-Line TransactionProcessing;
OLAP - On-Line AnalyticalProcessing;
ААЖ - ақпараттық-аналитикалықжүйе;
ROLAP - RelationalOLAP;
MOLAP - MultidimensionalOLAP;
HOLAP - Hybridolap;
JOLAP - JavaOLAP
FASMI - Fast Analysis Shared MultidimensionalInformation;
ДИТ - деректерді интеллектуалдыталдау;
ETL - Extract, Transform, Load - алу, түрлендіру,жүктеу;
MPP - massively parallel processing-массивті-параллелдіөңдеу;
КІРІСПЕ
Зерттеу тақырыбының өзектілігі.Ақпараттық-компьютерлік технологиялардың қарқынды дамуы, адам өмірінің барлық саласында кеңінен қолданыс табуы, Интернет желісі мен ондағы қызметтердің кең таралуы соңғы жылдарда ақпараттар жиынтығының жылдам ұлғаюының, көлемінің экспоненциялды артуының негізгі себебі болуда. Бұл, интернет желісі мүмкіндіктеріне бағытталған, дəстүрлі реляциялық деректер базаларынан өзгеше, əр түрлі құрылымды ауқымды деректерді үлестірілген түйіндерде сақтауға арналған жаңа NoSQL (Not only SQL) деректер базалары түрлерінің пайда болуына алып келді. Бүгінде, аталған деректер базалары көптеген үлкен ақпараттық жүйелер үшін үлкен деректерді сақтаудың басты құралдары ретінде қолданылуда. Сонымен қатар, NoSQL деректер базалары заманауи ақпараттық- аналитикалық жүйелер үшін негізгі дереккөздердің біріне айналуда. Осыған байланысты ірі компанияларда, жеке ұйымдарда, мемлекеттік мекемелерде, банктерде жəне т.б. салаларда түрлі дереккөздерден жинақталған мəліметтерді аналитикалық өңдеу арқылы басқару шешімдерін қабылдауға қажетті білімдерді алудың жаңаша əдіс-тəсілдерін əзірлеудің өзектілігін көрсетуде.
Жыл сайын ақпарат ағыны еселеп артып, өңделінетін мəліметтер көлемі, соның ішінде аналитикалық-ақпараттық жүйелердегі талдау мəліметтері көлемі бірден өсуде [1]. Осы уақытқа дейін көлемді деректерді өңдеу үдерісін жылдамдату мақсатында түрлі технологиялар, жоғары өнімділікті таратылған есептеу жүйелері мен платформалары əзірленген. Алайда, əзірленген жоғары өнімділікті есептеу жүйелері өңдеу үдерісін жылдамдатқанымен мəліметтерді талдау арқылы қажетті білімдерді алуға жеткіліксіз. Себебі, мəліметтерді талдау нəтижесінде білімдерді алу адамның ойлау жүйесіне негізделіп əзірленген, арнайы зерделі əдістер көмегімен мəліметтерді өңдеу арқылы алынатын ақпараттың күрделі түрі. Сонымен қатар, пəндік салаға байланысты ақпараттар негізінде шешімдер қабылдауға қажетті білімдерді алу барлық дереккөздерден алынатын ағымдағы жəне көне ақпараттарды деректер қоймасына біріктіре өңдеу арқылы жүзеге асырылуы тиіс. Дəстүрлі OLAP – жүйелер үшін бастапқы жəне негізгі дереккөздер болып реляциялық үлгіде құрылған жедел деректер базалары, файлдар, электронды кестелер, болып табылады [2]. Интернет технологиядардың қарқынды дамуына, ақпарат көлемінің ұлғаюына байланысты горизантталды масштабтауға бағытталған, құрылымдандырылған жəне жартылай-құрылымдандырылған мəліметтерді сақтау, жоғары жылдамдықта өңдеу сияқты мүмкіндіктерге ие NoSQL мəліметтер қорлары маңызды дереккөздердің біріне айналуы дəстүрлі OLAP– жүйелердің мүмкіндіктерінің жеткіліксіздігін көрсетуде. Осыған байланысты мəліметтерді көп өлшемді аналитикалық өңдеудің заманауи жүйелері үшін дəстүрлі реляциялық үлгідегі деректер базаларынан жəне жаңадан қолданыла бастаған NoSQL деректер базаларынан алынған ауқымды мəліметтерді біріктіре өңдеу негізгі тапсырмалардың бірі болыпотыр.
Үлкен жəне əр түрлі құрылымды деректерді жедел көп өлшемді аналитикалық өңдеу – бастапқы дереккөздердегі мəліметтер құрылымын
анықтау, олардан қажетті мəліметтерді алу, алынған мəліметтерді бірегей құрылымға келтіру, аналитикалық өлшемдер бойынша алдын ала агрегациялық көрсеткіштерді тиімді есептеу, аналитикалық талдаулар барысында аналитикалық мəліметтерге тиімді жəне жылдам қатынауды ұйымдастыру сияқты бірнеше тапсырмалар қатарын шешуден тұрады. Ақпараттардың көлемінің үлкен болуы бір жағынан талдаулар нəтижесінде алынатын білімдер мен болжамдарды нақтырақ алуға мүмкідік берсе, екінші жағынан өңдеу əдістерінің негізгі ерекшеліктерін көрсетіп, өңдеу тапсырмалары шешімдерін күрделендіреді. Дəл қазіргі күнде үлкен жəне əр түрлі құрылымда сақталынған реляциялық жəне NoSQL деректерді жедел көп өлшемді аналитикалық өңдеулер үшін бірыңғай құрылымға келтіру əдістері мен құралдары əзірленбеген. Сонымен қатар, аналитикалық мəліметтерді сақтауда пайдаланылатын деректер қоймалары құралдарында агрегациялық деректерді тиімді қалыптастыру, мəліметтерге жылдам қатынау мəселелері қарастырылмаған. Аталған мəселелер деректер құрылымдары бойынша жүзеге асырылған қосымша əзірлемелер түрінде шешілуде. Бұл қазіргі кезде үлкен мəліметтер ағынынан жинақталған көлемді деректер қоймасынан көп өлшемді жедел талдауда қажетті агрегациялық деректерді толық қалыптастыру, сұраным кезінде мəліметтерге жылдам қатынау тапсырмаларын шешу жолдарын жетілдіруді қажететеді.
Жоғарыда келтірілгендей, бүгінгі күнде реляциялық жəне NoSQL деректер базаларында сақталынған əр түрлі құрылымды деректерді жедел аналитикалық өңдеудің ақпараттық-есептеуін қамтамасыз ету тапсырмалары жеткілікті деңгейде толық зерттелмегендіктен, аталған мəселелерді шешудің бірден бір жолы ретінде алынып отырған бұл диссертациялық жұмыс өзекті жəне практикалық жағынан маңызды болып табылады.
Зерттеу тақырыбының ғылыми зерттелу деңгейі.OLAP - деректерді жедел аналитикалық өңдеудің идеясын, тұжырымдамасын жəне осы технологияға қойылатын бірінші 12 талаптарды 1993 жылы Э. Кодд "OLAP қолданушы-аналитиктерге арнаған: қандай болуы қажет" ("Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate ") атты мақаласында жариялаған [2, Б. 1-20]. Осы технологиямен бірге қолданылатын деректер қоймасы туралы алғаш еңбек жазғандар Б.Девлин жəне П. Мэрфи. Бұл авторлардан кейін деректер қоймасы тұжырымдамасын У.Инмон монографиялық еңбегінде толық берген [3-6].
Соңғы он жылдықта мəліметтерді көп өлшемді жедел аналитикалық өңдеу бойынша жазылған ғылыми жарияланымдар, программалық əзірлемелер саны артып, ақпаратттық-аналитикалық жүйелерде OLAP – технологиясы кеңінен қолданылуда. Қазіргі уақытта мəліметтерді көп өлшемді аналитикалық өңдеу тақырыбы бойынша жұмыстар жазған көптеген авторларды айтуға болады: А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод [7], Ю.А. Кудрявцев, С.Ю. Семченков, В. В. Миронов, Е. С. Макарова, Wil M.P. van der Aalst, Daniel L. Moody, Jyotiranjan Hota Parsaye K., Билл Фрэнкс, Robert Ipsen [10-16], С.В. Плеханов, Е.Л. Иваналиев, Д.Н. Борисов [17], Alvin C. Rencher[18], Ralph Kimball, Richard Merz [19], жəне тағы дабасқалар.
Мəліметтерді аналитикалық өңдеу тақырыбы бойынша жұмыстар жазған одандық авторлар, А.А. Куандыков [20-23], Р.Қ. Өскенбаева [24-30] жəне тағы да басқа авторлар.
Мəліметтерді өңдеуде тиімділікті арттыру мақсатында қолданылатын деректер құрылымы бағытында жазылған еңбектер авторлары: Дональд Кнут [31-33], А.В. Ахо, Д.Э.Хопкрофт, Д.Д.Ульман [35], Т.Кормен, Ч. Лейзерсон, Р.Ривест, К. Штайн [36], В.К. Гулаков, А.О. Трубаков [37] А.М. Бородин [38] жəне тағы да басқалар. Деректер құрлымы бойынша жұмыстар жазған одандық авторлар, Д.Ж. Ахмед-Заки, З.Х. Юлдашев, Ғ.Ə. Сералин [39] жəне тағы да басқа авторлар.
Мəліметтерді аналитикалық өңдеу мəселелерін бірнеше қырларынан алып қарастыруға болады. Ұсынылып отырған жұмыста аналитикалық үдерістерді ақпараттық қамтамасыз етудің жалпы теориялық сұрақтары, аналитикалық мəліметтердің математикалық сипаттамалары, оларды əр түрлі құрылымдағы дереккөздерден қалыптастыру, өңдеулерде деректер құрылымы мүмкіндіктерін пайдалану арқылы тиімділікті арттыру жолдары қарастырылады. Əдебиеттерге жүргізілген талдаулар нəтижелері көрсетіп отырғандай түрлі мəліметтер қорларында сақталынған əр түрлі құрылымдардағы ауқымды деректерді көп өлшемді аналитикалық өңдеу əдістерін, аналитикалық ақпаратты бастапқы дереккөздерден алғаннан бастап ақырғы аналитик-қолданушыға ұсынғанға дейінгі аралықтағы өңдеу үдерістерін жүйелі түрде ұйымдастыруды, сонымен қатар өңдеу тиімділіктерін арттыру жолдарын əліде жетілдіру қажеттігін көрсетіп, зерттеу тақырыбын таңдауға, мақсатын анықтауға негіз болып, зерттеу тапсырмаларын жəне құрылымын қалыптастырудың өзегінеайналды.
Зерттеу жұмысының мақсатыəр түрлі құрылымды деректерді бірыңғай құрылымға келтіріуді жəне оларды тиімді көп өлшемді жедел аналитикалық өңдеуді қамтамасыз ететін үлгілер, əдістер жəне алгоритмдер əзірлеу болып табылады.
Зерттеу жұмысында қойылған мақсатқа келесі тапсырмалар қатарын шешу арқылы қол жеткізіледі:
Деректерді аналитикалық өңдеу əдістері мен технологияларынзерттеу.
Реляциялық, көп өлшемді жəне NoSQL деректер базалары үлгілері жəне деректерді сақтау құрылымдары ерекшеліктеріне талдаужасау.
Əр түрлі құрылымдардағы көлемді реляциялық жəне NoSQL деректерді бірыңғай құрылымға келтіру жəне көп өлшемді деректер қоймасына жүктеудің үлгісі мен əдісінəзірлеу.
Деректер қоймасында сақталынатын деректер көлемін азайтуды қамтамасыз ету үшін сыртқы дереккөздерден жүктеулерді орындауда бастапқы агрегациялық деректердіанықтау;
Деректерді көп өлшемді жедел аналитикалық талдау кезінде жоғары жылдамдыққа қол жеткізуді қамтамасыз ету үшін алдын ала толық агрегациялық көрсеткіштердіқалыптастыру;
Аналитикалық деректерге тиімді қатынауды жүзеге асыратын алгоритм əзірлеу.
Зерттеу объектісідеректерді аналитикалық өңдеу үдерістері болып табылады.
Зерттеу пəні.Деректерді көп өлшемді жедел аналитикалық өңдеу əдістері мен технологиялары, сондай-ақ аналитикалық үдерістердің ақпараттық- есептеуін қамтамасыз етуде тиімділікті арттыру үшін қолданылатын деректер құрылымы.
Зерттеу əдістері.Қойылған тапсырмаларды шешуде жиындар теориясы, мəліметтерді өңдеу əдістері, құрылымдары, алгоритмдері, жасанды зерде, эвристикалық, параллелді есептеу əдістері пайдаланылды.
Диссертациялық жұмыстыңғылыми жаңалығыкөп өлшемді жедел аналитикалық өңдеулер үшін алғаш рет құрылымдандырылған реляциялық жəне жартылай құрылымдандырылған NoSQL деректерді Map Reduce параллелді моделі арқылы бірыңғай құрылымға келтіру əдісін əзірлеумен, сондай-ақ өңдеу тиімділігін көтеруге мүмкіндік беретін гипертекше деректері ерекшеліктеріне бағытталған көп өлшемді индекстік құрылым ұсынумен анықталынады.
