Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kazntu.kz_031215_ND_MukazhanovNK.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.61 Mб
Скачать
  1. Бөлім бойыншатұжырым

Бұл бөлімде келесідегідей нəтижелерге қол жеткізілді:

  1. Деректерді аналитикалық өңдеудің шешімдер қабылдауды қолдау жүйелеріндегі орны мен рөлі бойынша қысқаша шолу жасалынды жəне қазіргі кезде қолданыстағы деректерді статистикалық өңдеу, жедел аналитикалық өңдеу, интеллектуалды талдау əдістері мен технологиялары ерекшеліктеріне талдауларжүргізілді.

  2. Деректерді аналитикалық өңдеуде қолданылатын параллелді ДБ-лары, параллелді есептеу жүйелері, деректерді жедел жадыда өңдеу сияқты жоғары өнімділікті масштабталған шешімдер бойнша шолу жасалынды. Сонымен қатар, деректерді аналитикалық өңдеуге арналған платформаларға да шолу жасалынды.

  3. Жүргізілген шолулар мен талдаулар бойынша деректерді көп өлшемді аналитикалық өңдеудің қазіргі кездегі басты мəселелері анықталынып, анықталған мəселелер негізінде зерттеудің тапсырмаларықалыптастырылды.

  1. Жедел аналитикалық өңдеулер үшін реляциялық жəне nosql деректерді бірыңғай құрылымға келтіру үлгілері менəдістері

Зерттеу жұмысының бұл бөлімінде деректерді аналитикалық өңдеуде пайдаланылатын əр түрлі құрылымды деректерді біріктіру əдістеріне талдау жасалынып, бастапқы дереккөздер ретінде алынатын реляциялық пен NoSQL деректер базалары үлгілері жəне осы үлгілер бойынша сақталынған деректердің құрылымдану деңгейлері, барлық аналитикалық деректер жинақталып, сақталынатын деректер қоймасы ішкі құрылымы, сонымен қатар деректерді жедел жедел талдау үшін пайдаланылатын көп өлшемді модел қарастырылады. Бөлімнің екінші жартысында əр түрлі деректер моделінде сақталған көлемді деректерді біріктіруді жүзеге асыратын ортақ ресурссыз параллелді есептеу моделдеріне негізділген бірыңғай құрылымға келтіру əдісін əзірлеу қарастырылады. Реляциялық жəне NoSQL ДБ-ларында сақталынған əр түрлі құрылымдағы көлемді деректерді бірыңғай форматқа келтіру əдісін əзірлеу зерттеу тақырыбы бойынша қойылған тапсырмалардың бірі.

Көп өлшемді жедел аналитикалық өңдеуге қажетті деректерді бастапқы дереккөздерден алу, оларды түрлендіру арқылы біріктіру əдісін əзірлеу бірнеше ішкі тапсырмалар қатарын шешуді қажет етеді:

  • деректер қоймасына деректерді біріктіру əдістерін анықтау жəне оларға талдаужасау;

  • бастапқы дереккөздерде (бір текті емес дереккөздерді) сақталған мəліметтер құрылымын, көп өлшемді аналитикалық өңдеу нəтижелерін ұсыну моделін жəне деректер қоймасы ішкі құрлымын анықтап (моделін анықтау), ерекшеліктерінталдау;

  • Реляциялық жəне NoSQL ДБ-лары үлгілерінде сақталынған деректерді бірыңғай құрылымға келтіру əдісін əзірлеу. Бастапқы деректер үлкен көлемде жəне таратылған ортада болатындықтан əзірленетін əдіс Map Reduce параллелді үлгісіне негізделініп жүзегеасырылады.

    1. Деректерді бірыңғай құрылымға келтіруəдістері

Деректерді біріктіре ұсыну қазіргі уақытта деректерді аналитикалық өңдеу жүйлері үшін негізгі тапсырмалардың бірі болып отыр, себебі дəстүрлі аналитикалық жүйелер үшін негізгі дереккөздер болып реляциялық үлгіде құрылған жедел ДБ болып табылса, интернет технологиядардың қарқынды дамуына байланысты горизантталды масштабтауға бағытталған NoSQL ДБ маңызды дереккөздердің біріне айналуда. Негзіделген шешімдер қабылдау үшін ағымдағы жəне көне деректер арқылы бағыттар мен болжамдарды жедел беретін сенімді ақпараттық-аналитикалық жүйе қажет. Осыған байланысты қазіргі уақыттағы деректерді аналитикалық өңдеудің озық жүйелеріне дəстүрлі реляциялық үлгідегі ДБ-нан жəне NoSQL ДБ-нан алынған мəліметтерді біріктіре талдау мүмкіндігін беретін əдістер əзірлеу қажеттілік тудырыпотыр.

Деректерді біріктіру (data integration)– бұл əр түрлі дереккөздерде орналасқан мəліметтерді біріктіре отырып пайдаланушыға бірлестірілген түрде

ұсыну. Бұл үдеріс электронды мемлекеттік қызметтер жүйесі үшін (мемлекеттік мекемелер ішіндегі ДБ біріктіру немесе мекемелер арасында мəліметтер алмасу мақсатында ДБ біріктіру), коммерциялық ұйымдар үшін (мысалы, екі ұқсас ұйымдардың ДБ-ларын біріктіру) жəне ғылыми жұмыстар үшін де (ғылыми зерттеулер нəтижесінде алынған мəліметтерді біріктіру) маңызды болып табылады. Мəліметтерді біріктіру үрдісі маңыздылығы мен рөлі үлкен көлемді жəне əр түрлі құрылымдағы деректерді бірге пайдалану қажеттігі туындаған кезде арта түседі.

Деректерді біріктіру мақсаты – белігілі бір пəндік сала бойынша (немесе тапсырма қойылымы бойынша) түрлі дереккөздерден бизнес-деректерді біріңғай жəне біртұтас форматқа келтерілген түрде алу.

Əр түрлі дереккөздерден алынып, біріктірілген мəліметтер аналитикалық жүйелер инфрақұрылымының басты элементі болып табылатын деректер қоймасында сақаталынады. Сондықтан деректерді біріктіру нəтижесінде алынатын бастапқы мəліметтер құрылымы деректер қоймасы құрылымына келтірілуі қажет. Бастапқы дереккөздерден мəліметтерді деректер қоймасына біріктіруге бағытталған бірнеше тəсілдері əзірленген жəне олардың өзіндік қолданылу ерекшеліктері бар: шоғырландыру (consolidation), федерализация (federalization) и деректерді тарату (dissemination of data) [91].

Шоғырландыру (consolidation).Бұл əдісті қолдану кезінде деректер бірнеше дереккөздерден шығарылады жəне тұрақты сақтау орны деректер қоймасына біріктіріледі. Деректер қоймасы ары қарай мəліметтер есеп берулерге жəне заңдылықтарды анықтау мақсатында талдаулар жүргізуге пайдаланылуымүмкін.

Шоғырландыру – бір бағытты үдеріс, бірнеше дереккөздерден мəліметтер деректер қоймасына біріктіріледі, бірақ одан кейін кері қарай таратылған жүйеге таратылмайды. Көп жағдайда шоғырландырылған деректер бизнес- аналитика қосымшаларына, OLAP-жүйесі қосымшаларына арналған түрде қолданылады.

Деректер қоймасы ортасында кеңінен тараған шоғырландыруды қолдайтын технология болып ETL (алу, түрлендіру жəне жүктеу) - технологиясы табылады. Көптеген əдебиеттерде ETL технологиясы "деректерді біріктіру" терминімен түсіндіріледі. Деректерді шоғырландырудың тағы бір технологиясы кəсіпорынды мазмұнмен басқаруға арналған – Еnterprise Сontent Management (ECM). Көптеген ECM шешімдері құрылымданбаған құжаттар, есеп берулер жəне веб-беттер сияқты деректерді шоғырландыруға жəне басқаруға бағытталған. 2.1 – суретте деректерді шоғырландыру тəсілі сұлбасыберілген.

Деректерді шоғырландырудың артықшылығы, бұл тəсіл бойынша айтарлықтай үлкен көлемді деректерді түрлендіріп (қайта құрылымдау, сəйкестендіру, тазалау жəне агрегациялау) бастапқы жүйеден ақырғы сақтау орнына жіберуге болады. Тəсілді қолдану кезінде өзіндік күрделіліктері бар – бұл мəліметтерді шоғырландыруда айтарлықтай есептеу ресурстарын талап етеді, сондай-ақ деректерді ақырғы сақтау орнын қолдау үшін көлемді жады ресурстары қажет. Бірақ, бұл мəселе аппараттық құралдырдың үнемі

жетілдірілуімен шешілуде. Маңызды артықшылығы – сұранымдарды өңдеудің жоғары жылдамдығы, түрлендіруден жəне сəйкестендіруден өткізіліп сақталынған деректер құрылымы аналитикалық өңдеулер үшін қолайлы.

Сурет 2.1 – Деректерді шоғырландыру

Қарастырылып отырған тəсілдің негізгі кемшілігі түрлендіру жəне сəйкестендіру күрделі операциялар арқылы мəліметтерді дереккөздерден деректер қоймасына көшіру. Алайда, есептеу техникалары өнімділіктерінің артуына, ETL-жүйелер мүмкіндіктері дамытылуына байланысты көшіруге жұмсалатын уақыт шығындар айтарлықтай азаюда. Екінші кемшілігі мəліметтерді жаңартуда кідірістердің болуы, деректер қоймасына жүктеу пакетті түрде белгілі бір уақыт бойынша (периодты түрде) жүргізіледі.

Федерализациялау (federalization) –бір немесе бірнеше бастапқы деректер файлдарынан біріңғай виртуалды көріністі қамтамасыз етеді. Бизнес- қосымшалар деректер қоймасы түрінде ұйымдастырылған виртуалды көрініске сұранымдар жасаған кезде деректерді федерализациялау процессоры сəйкес бастапқы дереккөздерден мəліметтерді шығарады жəне сұраным талаптары бойынша виртуалды көріністе жауап беру үшін біріктіріп, сұраным жасаған бизнес-қосымшаға нəтижені жібереді. Анықтамаға сəйкес, деректерді федерализациялау үдерісі сыртқы талаптар негізінде бастапқы жүйелерден деректерді алу арқылы жасалынады. Барлық қажетті деректерді түрлендіру операциялары оларды бастапқы файлдардан алу кезінде жүргізіледі. Деректкерді федеративті əдіс бойынша біріктіруді қолдайтын технологиялардың бірі ретінде – Корпоративтік ақпаратты біріктіруді (Enterprise information integration, қысқаша EII) айтуға болады. Бұл тəсілдің сұлбасы 2.2–суреттеберілген.

Федеративті жүйелердің негізгі элементтерінің бірі – бастапқы мəліметтерге қатынау үшін пайдаланылатын метадеректер. Кейбір жағдайларда метадеректер бастапқы файлдарға сəйкес қойылатын белгілі бір виртуалды көріністен тұруы мүмкін. Сонымен қатар метадеректердің озық шешімдерінің бірі – бастапқы файлдарда орналасқан деректер саны туралы жекелеген ақпараттан жəне оларға қатынау жолынан тұруы мүмкін. Мұндай кеңейтілген

ақпарат федеративті шешімдерді жүзеге асыруды бастапқы жүйелердегі деректер файлдарына қатынаудыоңтайландырады.

Сурет 2.2 – Деректерді федерализациялау

Федеративті тəсілдің негізгі артықшылығы болып – ағымдағы деректерге қатынауды қамтамасыз етеді жəне бастапқы деректерді жаңа деректер қоймасына шоғырландыру қажеттігінен арылтады. Ескеретін жағдай, деректерді федерализациялау көлемді деректер массивін алу жəне сəйкестендіру үшін жақсы келе бермейді, сондай-ақ бастапқы жүйелердегі қосымшаларда деректер сапасының күрделі мəселелері болған кезде толық нəтиже бермейді. Тағы бір маңызды фактор – программалардың аналитикалық сұранымдарды орындауы кезінде көп дереккөздерге қатынаудың өнімділікке айтарлықтай əсері жəне қатынаудың қосымшашығындары.

Деректерді шоғырландыру құны ол ұсынатын артықшылықтардан жоғары болған жағдайларда деректерді федерализациялау пайдаланылады. Сонымен қатар бастапқы жүйелерден деректерді көшіруге тыйым салынатын деректер қауіпсіздігі саясатында жəне лицензиялық шектеулер жағдайларында деректерді федерализациялау əдісін қолдану басқа əдістерден қарағанда пайдалы екенін көрсетті. Бұдан басқа федерализациялау əдісі деректерді біріктіру қысқа уақытқа ғана қажет болған кездерде жиі қолданылады. Бірақ жалпы тəжірибелер көрсеткіштерін қарасақ, көбінесе деректерді шоғырландыру шешімдері федерализациялау шешімдерінен тиімді болып шыққан. Екі əдісті қолдануда бастапқы деректерді алу жəне бірегей қалыпқа келтіру процедуралары бір бірінен көперекшеленбейді.

Деректерді тарату (dissemination of data).Деректерді тарату қосымшалардың деректерді бір орыннан басқа бір орынға көшірмелеу арқылы жүзеге асырылады. Бұл қосымшалар жедел тəртіп бойынша жұмыс жасайды жəне нақты оқиғаларға байланысты деректерді белгіленген орындарға ауыстыруды орындайды. Бастапқы жүйелерде болған жаңартулар ақырғы жүйеге синхронды немесе асинхронды берілуі мүмкін. Синхронды беру жаңарту екі жүйеде де (бастапқы жəне ақырғы) бір уақытта жəне бір физикалық транзакцияда жүргізілуін талап етеді. Пайдаланылатын синхрондау типтеріне қарамастан, белгіленген жүйеге деректерді жеткізуге тарату əдісі кепілдік береді. Мұндай кепілдік деректерді тарату əдісін ерекшелейтін негізгі белгі.

Деректерді таратудың синхронды тенологияларының көпшілігі бастапқы жəне ақырғы жүйелер арасында екі жақты деректер алмасуды қолдайды. Деректерді таратуды қолдайтын технологиялар деп келесілерді айтуға болады: корпоративтік қосымшаларды біріктіру (Enterprise application integration - EAI) жəне корпоративтік деректерді көшіру (Еnterprise data replication - EDR).

Сурет 2.3 – Деректерді үлестіру Деректерді үлестіру əдісінің басты артықшылықтары:

  • нақты уақытта деректерді ауыстыру (алу,көшіру);

  • деректерді жеткізіп беру кепілділігі жəне деректерді екі жақты тарату; Бұл əдістің практикалық қолданылуларында өнімділік жағынан,

деректерді қайта құрылымдау жəне тазалау мүмкіндіктерінде айтарлықтай айырмашылықтар бар. Кейбір деректерді таратуға арналған корпоративтік өнімдері көлемді деректер массивін алмасуда жəне қайта құрылымдауды қолдауы мүмкін, ал кейбір өнімдір аталған мүмкіндіктерді қолдамауы мүмкін. Бұл айырмашылықтарды жоғарыда аталған технологиялардан көруге болады – корпоративтік деректерді көшіру (EDR) технологиясы архитектуралық ортасына деректер жатқызылады, ал корпоративтік қосымшаларды біріктіру (EAI) технологиясы ортасында хабарламалар немесе транзакцияларболады.

Будандық əдіс.Қосымшаларда пайдаланылатын деректерді біріктіру əдістері бизнестің қажеттігіне, технологиялық талаптарға байланысты алынады. Қосымшаларда деректерді біріктірудің бірнеше əдісенен құралған будандық тəсілдер жиі қолданылады. Бұл тəсілде тапсырмалар қойылымдарына байланысты біріктірудің шоғырландыру, федерализациялау, сондай-ақ деректерді тарату əдістері біріктіріліп пайдаланылуы мүмкін. Мұндай тəсілдердің бір мысалы ретінде, клиенттер туралы ақпараттардың сəйкестендірілген көрінісін беруді қамтамасыз етуге арналған – клиенттік деректерді біріктіруді (customer data integration - CDI) келтіруге болады.

Пəндік салаға қатысты барлық дереккөздерден алынып, біріктірілген сапалы деректер ұйымның, мекеменің барынша объективті көрінісін алуға болысады. Аналитик мамандардың шешімдер қабылдауы аналикалық жүйе ұсынған сенімді деректерге байланысты болса, аналитикалық жүйе ұсынатын деректер сапасы түрлі дереккөздерден алынып, қайта құрылымдандыру арқылы

біріктірілген мəліметтер сапасы мен құндылығына байланысты. Осыдан деректерді біріктіру əдістерін пайдалану нəтижесінде алынған мəліметтер орынды да салмақты шешімдер қабылдаудың негізі екенін көруге болады.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]