- •Мукажанов нуржан какенұлы Əр түрлі құрылымды деректерді жедел аналитикалық өңдеу үдерістерінің ақпараттық-есептеуін қамтамасыз ету
- •6D070400 – Есептеу техникасы жəне бағдарламалық қамтамасыз ету Философия докторы (PhD)
- •Мазмұны
- •Деректерді аналитикалықөңдеудіңқазіргікездегіжай-күйі 14
- •Жедел аналитикалық өңдеулерүшінреляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілеріменəдістері 48
- •Бөлімбойыншатұжырым 80
- •Деректерді жедел аналитикалықөңдеугеарналған деректер қоймасына тиімді деректер құрылымынəзірлеу 81
- •Бөлімбойыншатұжырым 113
- •Əзірленген үлгілер,əдістержəнеалгоритмдердің ашық үкіметпорталыашықдеректерін аналитикалықөңдеудегіпрактикалықапробациясы 114
- •4 Бөлімбойыншатұжырым 131
- •Пайдаланылғанəдебиеттертізімі 133
- •Нормативтік сілтемелер
- •Анықтамалар
- •Белгілеулер мен қысқартулар
- •Диссертациялық жұмысты қорғауға келесі нəтижелер шығарылады
- •Деректерді аналитикалық өңдеудің қазіргі кездегі жай-күйі
- •Деректерді аналитикалық өңдеудің шешімдер қабылдауды қолдау жүйелеріндегі орыны менрөлі
- •Деректерді аналитикалық өңдеудің əдістері, технологиялары жəне платформалары
- •Деректерді көп өлшемді жедел аналитикалық өңдеудің мəселелері жəне зерттеу тапсырмаларыныңқойылымы
- •Бөлім бойыншатұжырым
- •Жедел аналитикалық өңдеулер үшін реляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілері менəдістері
- •Деректерді бірыңғай құрылымға келтіруəдістері
- •Деректер базалары моделдерініңерекшеліктері
- •Реляциялық жəне NoSql деректерді бірыңғай құрылымға келтіру əдісінəзірлеу
- •Бөлім бойыншатұжырым
- •Деректерді жедел аналитикалық өңдеуге арналған деректер қоймасына тиімді деректер құрылымын əзірлеу
- •Деректер қоймасы ішкі құрлымыныңұйымдастырылуы
- •Аналитикалық деректерді өңдеудің көп өлшемді индекстік деректер құрылымынұйымдастыру
- •Агрегациялық мəндерді есептеудің ағаш түріндегі құрылымын əзірлеу
- •Бөлім бойыншатұжырым
- •Əзірленген үлгілер, əдістер жəне алгоритмдердің ашық үкімет порталы ашық деректерін аналитикалық өңдеудегі практикалықапробациясы
- •Ақпараттық-аналитикалық жүйелердің мемлекеттік секторларда қолданылуы
- •Деректерді жедел аналитикалық өңдеудің мемлекеттік секторда қолданылуы
- •Ашық деректерді жедел аналитикалық өңдеудің ақпараттық- аналитикалық жүйесінəзірлеу
- •4 Бөлім бойынша тұжырым
- •Қорытынды
- •Пайдаланылған əдебиеттер тізімі
- •Қосымша а
- •Қосымша б
- •Қосымша в
- •Қосымша г
- •Қосымша д
Деректерді көп өлшемді жедел аналитикалық өңдеудің мəселелері жəне зерттеу тапсырмаларыныңқойылымы
Деректерді аналитикалық өңдеу арқылы шешімдер қабылдауға қажетті білімдерді алу тек осы сəттегі деректерге ғана сүйенбейді, аналитика бірнеше жылдар бойы жинақталған хронологиялық деректер негізінде алынған білімдерге негізделеді. Өңдеулерден алынатын нəтижелердің нақты жəне дұрыс болуы – пəндік салаға қатысты ақпарат сақталынған барлық бастапқы дереккөздерден қажетті мəліметтердің толық алынуына, бұрмаланбауына, олардың құндылығына, өңдеу əдістерінің тиімділігіне жəне т.б. байланысты.
Деректерді көп өлшемді жедел аналитикалық өңдеуге арналған дəстүрлі OLAP-жүйелерде өңдеуге қажетті ақпарат пəндік салаға бағытталған деректер қоймасында сақталынатыны белгілі. Деректер қоймасына өңдеуге қажетті деректер жедел ДБ-нан, файлдардан, электронды кестелерден жəне т.б. түрдегі дерек көздерден алынады. Аталған дерек көздерде əр түрлі уақытта əр түрлі əзірлеушілердің түрлі құралдары (мысалы, бухгалтерия үшін жеке құралдар, склад үшін басқа құралдар жəне т.б. қолданылады, сонымен қатар олардың сақтау формаларыда түрлі болады) қолданылатындықтан, оларды деректер қоймасына көшіруде ETL – жүйесі құралдары көмегімен бірегей құрылымға келтіру жүргізіледі. Осы уақытқа дейін OLAP-жүйелерде бастапқы дереккөздері ретінде алынып келген жедел деректер базасында, файлдарда, электронды кестелерде жəне т.б. мəліметтерді сақтау, ұсыну үшін екі өлшемді кестелер, .txt форматында берілетін деректер нақты бір құрылымға келтіріліп, сақталынып келді. Осыған байланысты деректерді көп өлшемді жедел аналитикалық өңдеу жүйелерінде ETL – үдерісін жүзеге асыру құралдары да негізінен əр түрлі құралдармен дайындалған əр түрлі құрылымдағы кестелік, нақты бір құрылымға келтірілген файлдардағы деректерді бірегей құрылымға келтіругебағытталды.
Деректердің жаңа толқыны – ауқымды деректердің пайда болуы, оларға жаңа құралдардың əзірленуі, соның ішінде құрылымдандырылған жəне жартылай құрылымдандырылған деректерді сақтауға арналған NoSQL ДБ- ларында ақпараттың көп бөлігінің сақталына бастауы, OLAP-технологиясы негізінде құрылған аналитикалық-ақпараттық жүйелер үшін жаңа бастапқы дереккөздердің пайда болғанын көрсетеді. Бұл NoSQL үлгілерінде сақталынған бастапқы деректерді осы уақытқа дейін қолданылып келген бастапқы дереккөздері құрылымдарымен біріктіре пайдаланудың қажеттігін көрсетеді жəне бірегей құрылымға келтіру тапсырмасын күрделендіреді. Себебі, NoSQL ДБ деректерді кілт-мəн түрінде жартылай құрылымдандырылған қалыпта жəне көлбеу масштабтау арқылы таратылған желі түйіндерде сақтауға арналған, ал осыған дейін əзірленген құралдар негізінен нақты құрылымға келтірілген қалыптарда, көп жағдайда дəстүрлі реляциялық үлгіде ұйымдастырылған мəліметтерді сақтайды.
Əр түрлі құрылымды дереккөздерден алынған бастапқы ақпаратты аналитикалық өңдеуге қажетті құрылымға келтіру тəсілдерінің бір біренен ерекшеленетін тағы бір тұсы, аналитикалық деректер қоймасы құраламана байланысты. Барлық бастапқы дереккөздерден алынған əр түрлі
құрылымдардағы деректер, деректер қоймасы ішкі құрылымана келтіріледі де ары қарай аналитикалық тапсырмаға байланысты өңдеулер жүргізіледі. Дəстүрлі деректер қоймасы құрылымы ретінде реляциялық ДБ үлгісіне жəне көп өлшемді үлгіге негізделген құрылымдарды атауға болады. Бұдан басқа қазіргі таңда интернеттің кең таралуына, жартылай құрылмдандырылған деректер көлемінің артуына байланысты NoSQL ДБ үлгілері де деректер қоймалары да əзірленіп, дамытылуда. Аталған үлгілерге арналып əзірленген ДББЖ-жерін деректер қоймасында қолдануда жəне т.б. тапсырмаларда қолдануда өзіндік артықшылықтары мен кемішіліктері бар[82].
Деректерді көп өлшемді аналитикалық өңдеу бойынша жазылған диссертациялық жұмыстардағы деректерді біріктіру жағын қарастырсақ, көбінесе реляциялық, объектілі-бағытталған үлгілердегі, кестелік түрдегі деректерді көп өлшемді үлгі негізінде біріктіру, сондай-ақ аналитикалық жүйелер, программалық қосымшалар деңгейінде біріктіру қарастырылған [38, 83-86], ал жартылай құрылымдандырылған деректерді көп өлшемді аналитикалық өңдеу бойынша жазылған диссертациялық жұмыстарда, əзірленген құралдарда тек бір ғана құрылым бойынша қарастырылып, программалық əзірлемелер дайындалған. Бұл зерттеу жұмысында əр түрлі құрылымды деректер ретінде реляциялық, кілт-мəн түрінде, құжат-бағытталған жəне баған-бағытталған үлгілерде сақталынған деректер алынады.
Деректердің əр түрлі типін, кез келген жағдайда жəне кез келген көлемде аналитикалық өңдеуге арналған əмбебап тəсілдер мен алгоритмдер əзірленбеген. Жоғарыда айтылғандай, бастапқы дерек көздердегі мəліметтердің əр түрлі құрылымда, типтерде жəне көлемде болуы олардан қажетті ақпараты іздеу мен алуда түрлі əдіс-тəсілдерді қолдануды қажет етеді. Мысалы аналитикалық талдауда қажетті бастапқы деректердің құрылымдандырылған (SQL ДБ), жартылай құрылымдандырылған (NoSQL ДБ) немесе ешқандай құрылымға келтірілмеген деректер (жекелеген əр түрлі құрылымдағы жəне кеңейтілудегі файлдар) болуы бір əмбебеп əдіспен іздеу жүргізуге жəне қажетті ақпаратты алуға болмайтынын көрсетеді. Деректер көліменің үлкен болуы жəне бірінен бөлек таратылған ДБ-ларында сақталуы да іздеу мен алу əдістерін ерекшелендіреді. Сонымен қатар, деректерді аналитикалық өңдеу əдістері – деректерге қойылатын талаптары, соңғы нəтижелер сапасы мен ұсыну формалары, пайдаланудың қолайлылығы, өнімділігі жəне т.б. жақтарынан да бір біріненерекшеленеді.
Деректерді көп өлшемді жедел аналитикалық өңдеудің тағы бір проблемалық жағы дереккөздердің көбеюі, өңдеуде пайдаланылатын деректер көлемінің артуы бірыңғай құрылымға келтіру əдістерінің, құралдарының масштабталған жоғары өнімділікті орталарда жұмыс жасауға бағытталуы қажеттігін көрсетеді. Сондай-ақ, деректер қоймасына жазылатын аналитикалық деректер көлемі де артуда. Деректер қоймасына жазылған деректер өшірілмейді, үнемі жаңа деректермен толықтырылып, көлемі тұрақты түрде артып отыратыны белгілі [88-90]. Өңделінетін аналитикалық деректер көлемінің артуы жоғары өнімділікте (жылдамдықта) өңдеуді, тиімді əдістер мен алгоритмдерді қолдануды, оңтайландыру жолдарын қарастыруды қажететеді.
Əдістер мен алгоритмдерді тиімді қолдану жəне оңтайландыру əр түрлі деңгейлерде жүргізілуі мүмкін: жабдықтау, деректер қоры, аналитикалық қабықшада, бастапқы деректерді дайындауда, арнайы алгоритмдерді əзірлеу арқылы.
Жоғары өнімділікке жету үшін қазіргі кезде əзірленген көп процессорлық серверлерді, үлкен көлемді жедел жадыларды жəне дискілік массивтерді қолдануға болады. Бұл өнімділікті тік масштабтау арқылы арттыру. Көлемді деректерді өңдеуде жылдамдықты үнемі жоғары өнімділікті қымбат есептеу жүйелері көмегімен ғана көтере бермей, басқада, көлбеу масштабтауға мүмкіндік беретін, тиімділікті арттырып, өнімділікті жоғарылататын жолдар бар. Үлкен көлемді деректерді жедел аналитикалық өңдеу үшін заманауи ДББЖ мүмкіндіктерін пайдалануға болады. Келтірілегн өнімділікті арттыру жолдары жоғары өнімділікті аппараттық жабдықтар арқылы жүзеге асырылады.
Өнімділік пен тиімділікті арттыру жолдарының бірі деректер құрылымын əзірлеу болып табылады. Тиімділікті арттыруда деректер құрылымдарының көптеген əдістері мен алгоритмдері əзірленген: ағаштар, бинарлы ағаштар, В – ағашы, R – ағашының түрлері, Т – ағашы, хеш-кестелер, байланысқан тізімдер, сұрыптау алгоритмдері жəне т.б. Деректерді өңдеуде тиімділік пен өнімділікті арттыруға мүмкіндік беретін арнайы əзірленетін деректер құрылымдары деректер қоймаларын жүзеге асыруда қолданылатын ДББЖ-лерінде немесе аналитикалық өңдеу құралдарында барлығы дерлік əзірленбеген. Көп жағдайда деректер құрылымдары программалық өнімдерді пайдаланушылар жағынан тиімділікті арттыру мақсатында қосымша əзірленеді. Жалпылама əзіленген деректер құрылымдары əдістері мен алгоритмдерін нақты тапсырманы шешуге бағыттап, өңделінетін деректердің, орындалатын операциялардың ерекшеліктерін ескере отырып арнайы толықтырып əзірлесе, ол жалпылама əзірленген құрылымнан тиімді жəне жылдам жұмыс жасайды. Бұл зерттеу жұмысында деректерді көп өлшемді жедел аналитикалық өңдеу қарастырылатындықтан, тиімділікті арттыру мақсатында көп өлшемді сұрыптау алоритмдері, көп өлшемді индекстеу, көп өлшемді индексті бинарлы ағаш түріне келтіру жəне т.б. алгоритмдермен тиімділікті арттыру қарастырылады. Деректер құрылымынан бөлек ауқымды деректерден қажетті аналитикалық деректерді алуда көлбеу масштабтауға бағытталған жоғары өнімділікті ДББЖ жəне параллелді есептеу үлгілері мүмкіндіктерін пайдалану арқылы жоғары өнімділікке қол жеткізу.
Деректерді аналитикалық өңдеудің қазіргі кездегі жай-күйіне жасалынған шолулар мен талдаулар бүінгі күнде деректерді көп өлшемді жедел аналитикалық өңдеу бойынша əлі де толық шешімін таппаған тапсырмалардың бар екенін жəне зерттеулердің қажеттігін көрсетіп, зерттеу тапсырмалары қойлымына негізболды.
Деректерді аналитикалық өңдеу əдістері мен технологияларынзерттеу.
Реляциялық, көп өлшемді жəне NoSQL ДБ-лары үлгілері жəне деректерді сақтау құрылымдары ерекшеліктеріне талдаужасау.
Əр түрлі құрылымдардағы көлемді реляциялық жəне NoSQL деректерді бірыңғай құрылымға келтіру жəне көп өлшемді деректер қоймасына жүктеудің үлгісі мен əдісінəзірлеу.
Деректер қоймасында сақталынатын деректер көлемін азайтуды қамтамасыз ету үшін сыртқы дереккөздерден жүктеулерді орындауда бастапқы агрегациялық деректердіанықтау;
Деректерді көп өлшемді жедел аналитикалық талдау кезінде жоғары жылдамдыққа қол жеткізуді қамтамасыз ету үшін алдын ала толық агрегациялық көрсеткіштердіқалыптастыру;
Аналитикалық деректерге тиімді қатынауды жүзеге асыратын алгоритм əзірлеу.
