- •Мукажанов нуржан какенұлы Əр түрлі құрылымды деректерді жедел аналитикалық өңдеу үдерістерінің ақпараттық-есептеуін қамтамасыз ету
- •6D070400 – Есептеу техникасы жəне бағдарламалық қамтамасыз ету Философия докторы (PhD)
- •Мазмұны
- •Деректерді аналитикалықөңдеудіңқазіргікездегіжай-күйі 14
- •Жедел аналитикалық өңдеулерүшінреляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілеріменəдістері 48
- •Бөлімбойыншатұжырым 80
- •Деректерді жедел аналитикалықөңдеугеарналған деректер қоймасына тиімді деректер құрылымынəзірлеу 81
- •Бөлімбойыншатұжырым 113
- •Əзірленген үлгілер,əдістержəнеалгоритмдердің ашық үкіметпорталыашықдеректерін аналитикалықөңдеудегіпрактикалықапробациясы 114
- •4 Бөлімбойыншатұжырым 131
- •Пайдаланылғанəдебиеттертізімі 133
- •Нормативтік сілтемелер
- •Анықтамалар
- •Белгілеулер мен қысқартулар
- •Диссертациялық жұмысты қорғауға келесі нəтижелер шығарылады
- •Деректерді аналитикалық өңдеудің қазіргі кездегі жай-күйі
- •Деректерді аналитикалық өңдеудің шешімдер қабылдауды қолдау жүйелеріндегі орыны менрөлі
- •Деректерді аналитикалық өңдеудің əдістері, технологиялары жəне платформалары
- •Деректерді көп өлшемді жедел аналитикалық өңдеудің мəселелері жəне зерттеу тапсырмаларыныңқойылымы
- •Бөлім бойыншатұжырым
- •Жедел аналитикалық өңдеулер үшін реляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілері менəдістері
- •Деректерді бірыңғай құрылымға келтіруəдістері
- •Деректер базалары моделдерініңерекшеліктері
- •Реляциялық жəне NoSql деректерді бірыңғай құрылымға келтіру əдісінəзірлеу
- •Бөлім бойыншатұжырым
- •Деректерді жедел аналитикалық өңдеуге арналған деректер қоймасына тиімді деректер құрылымын əзірлеу
- •Деректер қоймасы ішкі құрлымыныңұйымдастырылуы
- •Аналитикалық деректерді өңдеудің көп өлшемді индекстік деректер құрылымынұйымдастыру
- •Агрегациялық мəндерді есептеудің ағаш түріндегі құрылымын əзірлеу
- •Бөлім бойыншатұжырым
- •Əзірленген үлгілер, əдістер жəне алгоритмдердің ашық үкімет порталы ашық деректерін аналитикалық өңдеудегі практикалықапробациясы
- •Ақпараттық-аналитикалық жүйелердің мемлекеттік секторларда қолданылуы
- •Деректерді жедел аналитикалық өңдеудің мемлекеттік секторда қолданылуы
- •Ашық деректерді жедел аналитикалық өңдеудің ақпараттық- аналитикалық жүйесінəзірлеу
- •4 Бөлім бойынша тұжырым
- •Қорытынды
- •Пайдаланылған əдебиеттер тізімі
- •Қосымша а
- •Қосымша б
- •Қосымша в
- •Қосымша г
- •Қосымша д
Ашық деректерді жедел аналитикалық өңдеудің ақпараттық- аналитикалық жүйесінəзірлеу
Қазіргі уақытта ААЖ-лерді құруға арналған Aster MapReduce appliance (Teradata корпорациясы), Oracle Big Data appliance, Greenplum appliance (EMC корпорациясы), SAP HANA appliance жəне т.б. көптеген платформалар құрылған. Сонымен қатар SAS OLAP Server, Hyperion, Oracle Exadata, Microsoft Analysis Services жəне т.б. коммерциялық программалық өнімдері мен Mondrian, Pentahon Community, Jedox, olap4j жəне т.б. ашық кодтағы программалық өнімдеріұсынылуда.
Жоғарыда келтірілген коммерциялық бағыттағы программалық өнімдердің барлығы дерлік деректерді жедел аналитикалық өңдеудің базалық талаптарын қанағаттандырады. Бірақ, олардың программалық кодтары жабық болуына байланысты əр пайдаланушы, бағдарламалаушы өзінің əзірлемесін ендіре алмайды.
Бұл зерттеу жұмысында алынған нəтижелерді жүзеге асыру үшін ашық кодтағы өнімдер алынады. Ашық кодтағы OLAP-технологиясын қолдайтын толыққанды программалық өнімдердің бірі Pentaho Community. Pentaho Community-программалық қамтамасы java-ортасында əзірленген. Нақты уақытта деректерді жедел көп өлшемді аналитикалық өңдеудің Э. Кодд ұсынған 12 ережесін [2] қанағаттандырады жəне зерттеу барысында алынған нəтижелердің программалық қосымшаларын плагин түрінде ендіруге мүмкіндік береді. Сондай-ақ бұл өнімнің басты артықшылығы Pentaho платформасында басқада java-ортасында əзірленген аналитикалық қосымшыларды жүктеуге мүмкіндікбереді.
OLAP-технологиясына негізделген ақпараттық-аналитикалық жүйенің базалық архитектурасы негізгі үш базалық компоненттерден тұрады:
Деректерқоймасы.
OLAP-сервер.
OLAP-клиент.
Шешілетін тапсырма қойылымына, өңделінетін деректер құрылымы ерекшеліктеріне жəне т.б. талаптарға байланысты базалық архитектура құрлымы қосымша компанеттер қосу арқылы толықтырылады.
Pentaho Community программалыққамтамасы
Pentaho CE (Community Edition)— бұл деректер қоймасын жəне аналитикалық есеп берулерді құруға арналған ашық программалық қамтама. Windows жəне Linux амалдық жүйелеріне арналған нұсқалары əзірленген.
Pentaho CE келесідегідей модулдерден тұрады:
Аналитикалық деректерді ұсыну (Pentaho Report Designer, Analyzer)- пайдаланушылардың есеп берулерді құруына жəне оларды Pentaho BI ортасында қарауына мүмкіндік беретін программалық əзірлемелер(құралдар).
Pentaho BI (Business Intelligence)- есеп берулерді, графиктерді, жиынтық кестелерді жəне OLAP-талдауларды құруға арналған ашық кодтағы бірнеше программалық əзірлемелер жиынтығы біріктірілгентұтасшешім. PentahoDI (Data Integration)- ETL-үрдістеріне арналған құрал: бастапқы деректер базасынан деректерді алу, түрлендіру, тазалау жəне деректер қоймасына жүктеу мүмкіндігінбереді.
Деректер қоймасы ретінде заманауи кез келген ДББЖ пайдалануға болады, мысалы, MySQL, PostgreSQL, Oracle 12c жəне т.б.
Pentaho CE компоненттері құрылымы. 4.2-суретте Pentaho CE
компоненттері құрылымы келтірілген.
Аналитикалық деректерді ұсыну деңгейінде – іскерлік-пайдаланушылар қарапайым веб-браузерлер, арнайы құрылған жеке веб-интерфейстер (office), электронды пошта арқылы есеп берулерді алу (e-mail-қызметі), əр түрлі функционалдық мүмкіндіктерді ұсынатын веб-қызметтер көмегімен жұмыс жасайды.
Cурет 4.2 – Pentaho CE компоненттері құрылымы
Business Intelligence платформасы деңгейінде пайдаланушылар сұранымдарын өңдеу ұйымдастырылады: есеп берулер (Reporting), сараптаулар (Analysis), деректер визуалдау (Dashboards) жəне деректермен басқау үдерістері (Process Managment). Сонымен қатар бұл деңгейде серверлік механизмдер, қатынау қауіпсіздіктерін қамтамасыз ету, пайдаланушыларды əкімшілік басқару, пайдаланушылардың құрған түрлі мазмұндағы құрылымдарын сақтау жəне т.б. функциялар ұйымдастырылады.
Деректерді біріктіру қосымшалары деңгейі. Бұл деңгейде түрлі дерек көздерден ETL жəне EII технологиялары көмегімен деректерді алу, түрлендіру жəне ортақ деректер қоймасына сақтау орындалады.
Pentaho-ның барлық компонеттері Java-қосымшалар болып табылады. Негізгікомпонеттер:
Interactive Reporting- арнайы реляциялық сұранымдар жəне базалық кестелік есеп берулерді ұсыну.
Analyzer- деректерді аналитикалық өңдеужəневизуалдауға арналған
OLAP-интерфейс
Data Mining (Weka)- деректерді зерделі талдауға арналған қолданбалы программа.
Metadata Editor- метадеректерді моделдеуге арналған əзірлеуші (немесе программалаушы) интерфейсі.
Schema Workbench- OLAP-гипертекшесін құру жəне тестілеуге арналған қолданбалы программа.
Report Designer- Advanced report development to build any type of
Report Designer- кестелер, графиктер жəне диаграммалар түрінде есеп берулер үлгілерін құруға мүмкіндік беретін қолданбалы программа.
Data Integration (Spoon)- бастапқы дереккөздерден деректерді алу жəне түрлендіру программасы.
Pentaho BI-сервері негізгі компоненттері:
Server Plug-in- Pentaho BI архитектурасы жаңа қосымшаларды қосуға қолайлы. Жаңа қосымшалар серверде орнаталып, жүйе копоненті ретінде жұмыс жасайды. Мұндай қосымшалар плагин болыптабылады.
OLAP Engine- OLAP сервердің бір бөлігі болып табылатын, нақты уақытта деректерді аналитикалық өңдеу механизмі. Pentaho BI - ортасында OLAP- сервер ретінде Mondrian программалық өнімі қолданылады.
ETL Engine- деректерді алу, түрлендіру жəне жүктеу механизмі.
Reporting Engine- түрлі дереккөздерден есеп берулерді қалыптастыруға жəне алынған есеп берулерді түрлі үлгілерге (excel, pdf, cvs, html жəне басқа да) ауыстыруға арналған əзірлеме.
Ашық деректерді жедел аналитикалық өңдеу жүйесі архитектурасы Ашық деректерді жедел аналитикалық өңдеу жүйесі архитектурасы
келісдегдей компонеттерден тұрады (4.3-суретте берілген):
Аналитикалық деректерді ұсынуқұралдары:
PentahoAnalyzer;
MS OfficeExcel;
.pdf, .csv, .xls жəне басқа да форматтарына ауыстыруқосымшалары.
Аналитикалық гипертекшелерді ұйымдастырумодулі:
OLAP-сервер;
a) Жекелеген гипертекшелер; б) Жалпылама гипертекше.
Пайдаланушыларды тіркеу жəне қатынау құқықтарын беру қосымшасы.
Деректерді сақтаужүйесі:
MySQL ДББЖ құрылған деректер қоймасы. Деректер қоймасында деректер төмендегідей категорияларғабөлінеді;
Метадеректер;
Жекелегендеректер;
Преагрегациялықдеректер;
Толық агрегациялықдеректер.
Пайдаланушыларды тіркеуге арналғанДБ.
Деректерді бірыңғай құрылымға келтіруқұралдары:
SQL-сұранымдар;
Map Reduce - моделінде əзірленген, деректерді бірыңғай құрылымға келтіруқосымшасы.
Бастапқыдереккөздер:
деректерді қолмен енгізуге арналғанқосымшалар;
реляциялық үлгіде құрылған ДБ (PosgreSQL жəнет.б.);
MongoDB-ДБ;
Cassandra-ДБ.
Cурет 4.3 – Ашық деректерді аналитикалық өңдеудің ақпараттық- аналитикалық жүйесі архитектурасы
Ведомостваларда деректер реляциялық ДБ-да, excel кестелер, машиночитаемый форматтарда, түрлі файлдарда берілген. Реляциялық деректерді жəне кесте түрінде берілген деректерді деректер қоймасына бірден жүктеп аналитикалық талдау жасауға болады. Ал, түрлі файлдар, құжаттарды бірден реляциялық деректер базасына көшіру күрделі тапсырма жəне көлемді деректерді реляциялық базаға көшіру көп уақыт қажет етеді, сондықтан жартылай құрылымдандырылған жəне құрылымға келтірілмегендеректерді
сақтауға арналғанNoSQLДБ-лары пайдаланылды. MongoDBжəне Cassandra
ДБ-лары ашық кодтағы программалық өнімдер болып табылады.
Келесі, деректерді аналитикалық өңдеу программалық əзірлемелері ұсынылады. Программалық əзірлемелерді тестілеуде қолданылған аппараттық жабдықтар сипаттамалары А қосымшасында берілген.
Деректерді аналитикалық өңдеу программалық əзірлемелері нəтижелері
Ашық деректерді көп өлшемді жедел аналитикалық өңдеу үшін ең бірінші
бастапқы дереккөздерден аналитикалық өңдеулерге қажетті деректерді алу. Егер бастапқы дерекеөздерден алынатын деректер арнайы əзірленген қосымша арқылы қолмен енгізілетін болса, сондай-ақ реляциялық ДБ-нан алынтын болса оларды SQL-сұранымдар көмегімен деректер қоймасына жүктеп алуға болады. Бұлтапсырмақиындықтудырмайды.Ал,ашықдеректернегізінен.json,.xml,
.csv, xls жəне т.б. файлдарда сақталынады. Ұсынылып отырған жүйеде барлық ашық деректер жартылай құрылымдандырылған жəне құрылымға келтірілмеген үлкен мəліметтерді сақтауға арналған NoSQL ДББЖ-де сақталынады. .json,
.xml форматтарында сақталынған ашық деректер mongodb деректер қорына (4.4-сурет), ал .csv, .xls жəне .xlsx форматтарындағы ашық деректер cassandra деректер базасына жүктелінеді.
Сурет 4.4 – Деректерді MongoDB ДБ жүктеу
MongoDB ДБ жүктелінген файлдар коллекциялар түрінде сақталынады
(4.5-сурет).
Сурет 4.5 – MongoDB ДБ коллекциялары
Коллекцияда ашық деректердің құжат жəне объектілер түрінде берілуі 4.6-
суретте берілген
Сурет 4.6 – Ашық деректердің құжаттар жəне объектілер түрінде берілуі
Cassandra ДҚБЖ-де зейнетақы төлеу мемлекеттік орталықтарының жəне бақылау департаментінің геолокалдық координаталарының жиынтығы деректері мысал ретінде 4.7-суретте көрсетілген.
Сурет 4.7 – Cassandra кілттер кеңістігінде деректердің кесте түрінде берілуі
Ашық деректерді NoSQL ДБ-да сақтау электронды үкіметте интернет арқылы деректердің таралуы, əлеуметтік желілермен қосылуы жəне түрлі ведмоствалардың деректерді орналастыруына жəне ары қарай əр пайдаланушы өз қажетіне қарай деректерді алуына қолайлы.
Екінші қадам - бастапқы дереккөздердегі деректерді деректер қоймасы ішкі құрылымына келтіре отырып көшірмелеу, сонымен қатар бастапқы бастапқы агрегациялық деректерді қалыптастыру. Бұл java-программалау ортасында əзірленген арнайы қосымша арқылы жүзеге асырылады. Қосымша кілт-мəн түріндегі деректерді Map Reduce паралеллді моделі арқылы өңдейді (Б қосымшасында программа кодынан үзінді берілген).
Үшінші қадам - деректерді деректер қоймасына сақтау. Деректер қоймасы ішкі құрылымы белігілі "жұлдызша" типіндегі сұбамен құрылды. Деректер қоймасында мүмкін болатын барлық агрегациялық деректер көп өлшемді массив түрінде алдын ала есептелініпсақталынады.
Барлық ақпарат деректер қоймасына жинақталғаннан кейін төрітнші қадам
аналитикалық гипертекшелерді құру жүзеге асрырылады. Гипертекше құру үшін алдымен моделін құрамыз. Моделде - өлшемдер жəне сандық көрсеткіштер анықталынып, нақты беріледі. Модел негізінде деректер қоймасындағы деректерден гипертекше қалыптастырылады. Гипертекше моделін құру 4.8-суреттекөрсетілген.
Сурет 4.8 – Гипертекшені моделдеу
Бесінші қадамда - аналитикалық деректерді пайдаланушыларға ұсыну жүзеге асырылады. Деректерді ұсынуда Pentaho User Console - BI сервердің веб- ке негізделген интерфейсі пайдаланылды.
Аналитикалық деректерді ұсынудың бірінші қадамы пайдаланушылар авторизациясы (4.9-сурет). Авторизация орындалғаннан кейін əр пайдаланушыға қатынауға құқығы бар гипертекшелер ұсынылады. Ары қарай гипертекшелермен жұмыс жасалынады.
Сурет 4.9 – Пайдаланушылар авторизациясы
Гипертекше түрінде қалыптасырылған деректер пайдаланушыларға қималар, кестелер, кескіндер, диаграммалар пішімдерінде ұсынылады. Төменде, 4.10-суретте педагогикалық кадрлардың қажеттігі бойынша жалпылама көрсеткіштер қима бетікөрсетілген.
Сурет 4.10 – Педагогикалық кадрлардың қажеттігі бойынша жалпылама
көрсеткіштер қимасы
Қималарды ұсыну бетінің бірінші тақтасында қарастырылып отырған гипертекше агрегациялық көрсеткіштері атаулары жəне өлшемдер беріледі. Екінші тақтада (layuot) өлшемдерді баған жəне жол бойынша орналастыру, агрегациялық деректерді ұсыну орны берілген. Сонымен қатар бұл тақтада қима түрінде берілетін есеп берулерді баптау қасиеттері орналастырылған. Үшінші тақта қималарды ұсыну алаңынан жəне қосымша баптау құралдарынан тұрады.
Қималарға шығарылған деректер келесіде кескіндер, диаграммалар түрінде ұсынылады. 4.11-суретте педагогикалық кадрлардың қажеттігі бойынша жалпылама көрсеткіштер диаграмма бойынша көрсетілген.
Сурет 4.11 – Педагогикалық кадрлардың қажеттігі бойынша жалпылама көрсеткіштер диаграммасы
Аналитикалық деректерді графикалық пішімде ұсыну бетінің бірінші тақтасында қималар жəне олардың қасиеттері орналасқан. Ал екінші тақтасында графикалық кескін қасиеттері, графикалық кескін жəне кескін деректеріберілген.
4.12-суретте педагогикалық кадрлардың аймақтар жəне пəндер бойынша қажеттілік көрсеткіштері қима түрінде көрсетілген. Қиманың диаграмма түріндегі бейнесі 4.13-суретте берілген.
Сурет 4.12 – Педагогикалық кадрлардың аймақтар жəне пəндер бойынша қажеттілік көрсеткіштері қимасы
Сурет 4.13 – Педагогикалық кадрлардың аймақтар жəне пəндер бойынша қажеттілік көрсеткіштері диаграммасы
4.14-суретте 2003-2013 жылдар бойынша демографиялық көрсеткіштер қимасы ұсынылған. Қиманың диаграмма түріндегі бейнесі 4.15-суретте берілген. Қима жиынтық деректері 2003-2013 жж. аралығындағы демографиялық көрсеткіштерді: туу жəне өлім, тіркелген некелер мен ажырасулар, жетімдерді асырап алу жəне т.б. қамтиды
Сурет 4.14 – 2003-2013 жылдар бойынша демографиялық көрсеткіштер
қимасы
Сурет 4.15 – 2003-2013 жылдар бойынша демографиялық көрсеткіштер
диаграммасы
4.16-суретте Қазақстан Республикасының медициналық мекемелері аймақтар бойынша саны қима бетіне шығарылған. Қиманың диаграмма түріндегі бейнесі 4.17-суретте көрсетілген. Бұл жиынтықта ҚР медициналық мекемелері туралы ақпарат берілген: атаулары, мекен-жайлары, геопозициялары, аймақ атаулары жəне саны көрсетілген.
Сурет 4.16 – Қазақстан Республикасының медициналық мекемелері аймақтар бойынша саны
Сурет 4.17 – Қазақстан Республикасының медициналық мекемелері аймақтар бойынша саны
4.18-суретте жəне 4.19-суретте Республика аймақтарында жасалынған қылмыстар талдаулары қима беттеріне шығарылған. 4.18-суретте аймақтарда 2010-2014 жылдарда 101 баптың 1-тармағы жəне 102 баптың 2 тармағы бойынша жасалынған қылмыстардың сандық көрсеткіштері көрсетілген. Қиманың диаграмма түріндегі бейнесі 4.19-суретте көрсетілген.
Сурет 4.18 – Республика аймақтарында 2010-2014 жылдар аралығында 101
баптың 1-тармағы жəне 102 баптың 2 тармағы бойынша жасалынған қылмыстардың сандық көрсеткіштері
Сурет 4.19 – Республика аймақтарында 2010-2014 жылдар аралығында 101
баптың 1-тармағы жəне 102 баптың 2 тармағы бойынша жасалынған қылмыстардың сандық көрсеткіштері бойынша графикгі
4.20-суретте Республика аймақтарында 2010-2014 жылдар аралығында жасалынған қылмыстардың жалпы сандық көрсеткіштері қима бетіне шығарылған. Қиманың диаграмма түріндегі бейнесі 4.21-суретте көрсетілген.
Сурет 4.20 – Республика аймақтарында 2010-2014 жылдар аралығында жасалынған қылмыстардың жалпы сандық көрсеткіштері қимасы
Сурет 4.21 – Республика аймақтарында 2010-2014 жылдар аралығында жасалынған қылмыстардың жалпы сандық көрсеткіштер диаграммасы
