Реляциялық жəне NoSql деректерді бірыңғай құрылымға келтіру əдісінəзірлеу

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Казахский национальный университет им. аль-Фараби

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

kazntu.kz_031215_ND_MukazhanovNK.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

2.61 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2010 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Реляциялық жəне NoSql деректерді бірыңғай құрылымға келтіру əдісінəзірлеу

Деректерді аналитикалық өңдеу арқылы білімдерді алу осы сəттегі жəне көне деректерге сүйенеді. Көптеген ірі компанияларда, жеке ұйымдарда, мемлекеттік мекемелерде, банктерде жəне т.б. ұзақ жылдар бойы реляциялық үлгідегі, кестелік типтегі ДБ пайдаланылып кегендіктен, реляциялық базаларда аналитикалық тапсырмаларға қажетті білімдер жинақталған. Соңғы жылдарда, желілік технологиялар мен қыземттердің қарқынды дамуы, қолдану өзектілігінің артуына байланысты NoSQL-типіндегі деректер базалары кеңінен қолданылуда. Осыған байланысты, бастапқы дереккөздерде деректер əр түрлі құрылымды деп қарастырылады. Əр түрлі құрылымды деректер ретінде, бірінші бөлімде атап көрсеткендей, реляциялық, кілт-мəн, құжат-бағытталған жəне баған-бағытталған үлгілералынады.

Əр түрлі дереккөздердегі мəліметтерді көп өлшемді аналитикалық өңдеу мақсатында бірыңғай құрылымға келтіру əдісін əзірлеу келесі қадамдардан тұрады:

Əр түрлі деректер қорларынан деректерді іздеу шаблонын қалыптастыру;
Шаблон бойынша іздеу жүргізу жəне іздеу нəтижесінде алынған массив түріндегі деректерді map-фазағаберу.
Map-Reduce параллелді моделі арқылы əр түрлі таратылған түйіндердегі деректерді параллелдіөңдеу;
Reduce фазасында өңдеу нəтижесінде кілт-мəн түріндегі деректерден көп өлшемді талдаудағы бастапқы агрегациялық мəндерді алу жəне деректер қоймасынажүктеу.

Деректерді іздеу шаблонын қалыптастыру.Компьютерлік жүйелерде деректерді сақтау, өңдеу, іздеу, жүйелер арасында деректер алмасу жəне пайдаланушылардың қатынауы сияқты əрекеттерді жүзеге асыру деректер құрылымы мен қасиеттерінің нақты сипаттамаларын əзірлеу арқылы тиімді жəне қолайлы орындалады. Деректердің сипаттамалары пайдаланушы сұранымдарын қалыптастыруға, қажетті деректер бойынша іздеулер жүргізуге, талдаулар жасауға, ДБ мазмұнын түсіндіру жəне т.б. үшін қолданылады. Ақпаратты сипаттаудың мұндай түрін метадеректер деп атайды жəне

ақпараттың ресурстың ерекше түрі болып табылады [100 3-11 б.]. Сондықтан, іздеу шаблоны деректер қоймасындағы мета деректерді пайдалана отрырып, іздеу жүргізілетін ДБ деректерді сақтау құрылымы мен моделіне негізделініп əзірленуі қажет. Іздеу шаблонын қалыптастыруда алдымен бастапқы дереккөздері деректеріне қатынауды қарастырамыз. Деректер қоймасындағы өлшемдер мен өлшемдер элементтерін дереккөздерден қажетті мəліметтерді алуда сөздік ретінде пайдаланылады.

Реляциялық моделде құрылған ДБ-да деректер толық құрылымдандырылған түрде сақталынады жəне бұл моделде құрылған барлық ДБ SQL сұраным тілі арқылы жұмыс жасайды. Аталған моделдегі ДБ-ларына қажетті өңдеулер SQL командалары көмегімен жүзеге асырылады. Заманауи реляциялық ДББЖ-лерінде кез келген құрылымдандырылған деректерге қатынау, күрделі өңдеулерді жасауға мүмкіндік беретін бай SQL тілімен қатар түрлі аналитикалық функциялар əзірленгендіктен қажетті аналитикалық деректерді алу, түрлендіру, жүктеу дайын командалар арқылы оңай орындалады.

Құжат-бағытталған жəне баған-бағытталған ДБ-лары деректеріне қатынауда массив мүмкіндіктері қолданатындықтан, деректерге [r90 NoSQL туралы кітап] қатынау кілт арқылы орындалады. Осыған байланысты ассоциативті массив түрінде ұйымдастырылған деректерден қажетті аналитикалық деректерді "кілт" арқылы іздеу шаблоны əзірленеді. Деректерді іздеу шаблонына кілт мəндері арнайы əзірленген сөздіктен, ал ДБ-лар туралы ақпарат метадеректерден алынады. Дегенмен, таңдап алынған моделдерде массив түріндегі деректерге іздеу жүргізу жəне іздеу нəтижесінде табылған деректерді алу біркелкі жүзеге асырылмайды, сондықтан əр моделге арналған жеке ішкі əдістер əзірлеу қажет. NoSQL ДБ-лары ауқымды деректерді бір бірінен тəуелсіз таратылған түйіндерде сақтауға арналғандықтан іздеу нəтижесінде алынған мəліметтердің MapReduce параллелді моделінде өңдеуге бейім болуы. MapReduce параллельді моделінің басты ерекшелігі – деректерді кілт-мəн түрінде өңдейді жəне ауқымды деректерді өңдеуде мыңдаған есептеу түйіндерін параллелді жүктеуге мүмкіндік береді [63, 75]. Осыған байланысты, MapReduce моделінің мүмкіндіктерін көлемі жағынан ауқымды жəне құрылымы жағынан əр түрлі болып табылатын дереккөздерден бастапқы аналитикалық деректерді қалыптастыруда (дайындауда) пайдалану үшін іздеу шаблоны арқылы алынған деректер кілт-мəн түріне болуышарт.

Метадеректер– əдетте деректер туралы деректер ретінде түсіндіріледі. Бұл тек деректер құрамын, ұсыну құрылымын (форматын), сақтау орнын жəне басқа да беліглерін сипаттау ғана емес, сонымен қатар ол деректерді қолдайтын ақпараттық жүйелерді, технологияларды, қатынау əдістерін сипаттау [100 5 б. ]. Метадеректерді құру қосымша жұмыс мен ресурстарды талап етеді. Бірақ, деректер құндылығын арттырып, оларды пайдаланудың көпетеген мүмкіндіктерімен қатамасыз етеді. Бұл жұмыста метадеректер əр түрлі ДБ- ларынан аналиикалық деректерді іздеу шаблонының əр бір ДБ құрылымына бағытталған (арнайы) нұсқаларын əзірлеу үшін қолданылады.

Сөздік– іздеу нəтижесінде алынатын деректер нақты жəне пəндік салаға сəйкес болу үшін қолданылады. Деректерді іздеуде сөздіктерді қолдану тақырыптық іздеу деп те аталады. Бұл жұмыста сөздік элементтері ретінде пəндік салаға бағытталған деректер қоймасы өлшемдер кестелеріндегі жазбалар алынады. Сондақтан, сөздікті өлшемдерден жəне өлшемдерэлементтерінен

1 1 1 1

^{тұратын жиын деп
аламыз:}^V^=
{^{^d₁^,^d₂^,^d₃^,...,^d_n^}^,^d₁₌{m₁,m₂,m₃,...,m_k},^d₂

⁼{m

,m₂₂

,m₃₂

,...,m_k₂

}^,^d₃⁼^{^m₁₃

,m₂₃

,m₃₃

,...,m_k₃

},…,

d_n{m₁_n,m₂_n,m₃_n,...,m_k_n}}. Мұндағы,V– сөздік,k₁,k₂,k₃,...,k_n- сəйкес

өлшемдердегі элементтер саны.

V- сөздіктегі өлшемдер саныn- ға тең, ал əр бір өлшемнің ішкі

i=1

жиындарындағы барлық элементтер санын қосынды түрінде берсек:^∑ⁿk_i.

Мұндағы,k_i- сəйкес өлшемдердегі элементтер саны,i -1inаралығындағы

сандық мəн деп алсақ. Онда, сөздік қуаттылығын 1-формуламенанықтауға

болады.

|V|n__k_i

i1

(2.6)

Деректерді жедел аналитикалық өңдеу деректерді көп өлшемді талдауға бағытталғандықтан, талдау деректерін əзірлеуде бір өлшемненn-өлшемдерге дейінгі мəліметтер өңделуі жəне олардың арасындағы қатынастарды беруді қажет етеді. Бұл деректерді көп өлшемді жедел талдау тұжырымдамасының басты ұстанымдардың бірі. Көп өлшемді деректер арасындағы өзара қатынастар бастапқы дереккөздерден анықталынып, ақырғы пайдаланушы сарапшы-маманға ұсынғанға дейін сақталынуы қажет. Бұл талапты жүзеге асыру үшін деректерді кілт арқылы іздеуде сөздіктегі өлшемдер жиыны бойынша 1 өлшемнен n-өлшемге дейінгі кілттер мөлшері (размері){(key₁),(key₂), (key₃),..., (key_i),..., (key_p),…,(key_j),…, (key_n), (key₁key₂), (key₁key₃),(key₁

key₄),..., (key_ikey_p),…, (key_pkey_j) ,…, (key_jkey_n),...,(key₁key₂key₃),(key₁key₂key₄),

(key₁key₂key₅) ,.., (key_ikey_pkey_j),…, (key_pkey_jkey_n),..., (key₁key₂key₃...key_n)}құрылады жəне барлық мөлшердегі кілттер бойынша іздеу жүргізіледі. Мұндағы,key_i, key_j, key_n- іздеуде пайдаланылатын кілт мəндері ретінде

алынатын сөздік элементтері, алi, p, j, n -¹^ⁱ^^p^^j^ⁿ- аралығындағысандық

мəндер. Кілттік мəндер ретінде текV(сөздік) – жиынының элементтері болып табылатын өлшемдер жəне өлшемдер элементтері пайдаланылады. Көп өлшемді кілттер арқылы көп өлшемді деректерді алу аналитикалық талдаулар барысында көрсеткіштер (өлшемдер - метрики) арасындағы арақатынасын (корреляцияны) сақтауға мүмкіндік береді. Бастапқы дереккөздерден аналитикаға қажетті деректерді іздеу метадеректерді жəне пəндік сала бойынша дайындалған аналитикалық өлшемдерден тұратын сөздікті пайдалана отырып арнайы əзірленген бір өлшемненn-өлшемдерге дейінгі іздеу шаблоны бойынша жүргізіледі.

Іздеу шаблоны– матедеректерді пайдалана отырып іздеу сұранымын сипаттау əдісі. Іздеу шаблоны метадеректерді жəне пəндік салаға бағытталған аналитикалық өлшемдер сөздігін пайдалана отырып, іздеулер жүргізілетін ДБ-

лары деректерді сақтау құрылымы мен моделіне негізделініп əзірленеді. Сөздік бойынша бір өлшемненn-өлшемдерге дейінгі іздеу шаблонын қалыптастыру келесі кезеңдерден тұрады.

- Өлшемдер бойынша іздеу шаблонын қалыптастыру.Бастапқы дереккөздерде деректер түрлі құрылымдарда болуына байланысты ізделінетін деректер кез келген мөлшерлерде болуы мүмкін. Осыған байланысты ДБ-на іздеу жүргізу шаблонын қалыптастыруда мүмкін болатын барлық мөлшерлер қарастырылуы қажет. Сөздікке жататын өлшемдер арқылы1өлшемненn-өлшем аралығында шаблон мөлшері (размері) əзірленетінін жоғарыда айтқан болатынбыз. Əр бір мөлшерге сəйкес келетін шаблонға өлшемдердің қайталаусыз комбинацияларынан тұратын бірнеше тізбек кіреді. Оларды бір мөлшерлі тізбектер жиыны деп қарастырамыз. Бір комбинацияға кіретін өлшемдер қайталанбауы қажет жəне бір мөлшердегі шаблонға кіретін комбинациялар да қайталаусыз болуы қажет. Бірдей деректердің қайталнып берілуі компьютер жадысынан қосымша ресурс алатыны белгілі, сол себепті сөздік элементтерінен құралатын іздеу шаблонындағы кілттік деректерді қайталаусыз беру қажет.

V- жиынындағы өлшемдер бойынша алынатын комбинациялар тізбектер жиыны (V^*) болып табылады жəне əр бір мөлшердегі комбинациялар қуатынc-деп беліглесек. Мұндағы, əр бір мөлшердегі өлшемдер комбинациясы қуатыс- қайталаусыз терулергк сəйкес келеді. Демек, 1-денn- мөлшер (размер) аралығындағы шаблон элементтерін қайталаусыз теру тізбектері арқылы анықтауға толық негіз бар жəне əр бір мөлшердегі тізбектерге кіретін өлшемдер жиынының ретті қайталаусыз қойылуын теру қасиетімен анықтауға болады.

Анықтама 1. n- элементтен тұратын жиын берілсін.n-элементтен тұратынАжиынының кез келгенс- элементтен тұратын ішкі жиыныn-элементті жиынныңс-теруі деп аталады.n- элементті жиынныңс- терулер

саныC^c

арқылы белгіленеді [102,103].

Осыған сəйкес, n-элементтен тұратынD-өлшемдер жиынынан барлық 1-

ден n-ға дейінгі қиысуларды жазатын болсақ:

n-элементті D - өлшемдер жиынының барлық 1 өлшемді терулері:

D{d₁,d₂,d₃,...,d_n}_:^{^d₁^}_,^{^d₂^}_,{d₃}_,...,{d_n}_.

n-элементті D - өлшемдер жиынының барлық 2-өлшемді терулері:

D{d₁,d₂,d₃,...,d_n}:^{^d₁^d₂^},{d₁d₃},^{^d₁^d₄^},...,^{^d_i^d_j^},...,_{_d_j_d_n_}. Мұндағы,i, j, -

¹^ⁱ^^j^ⁿ- аралығындағы сандық мəндер.

n-элементті D - өлшемдер жиынының барлық 3-өлшемді терулері:

D{d₁,d₂,d₃,...,d_n}:{d₁d₂d₃},{d₁d₂d₄},{d₁d₂d₅},...,^{^d_i^d_p^d_j^},...,_{_d_p_d_j_d_n_}.

Мұндағы,i, p, j, n -¹^ⁱ^^p^

...

^j^ⁿ- аралығындағы сандық мəндер.

n-элементті D - өлшемдер жиынының барлық n-өлшемді терулері:

D{d₁,d₂,d₃,...,d_n}:{d₁d₂d₃...d_n}.

Сөздік элементтері болып табылатын барлық өлшемдер бойынша мүмкін болатын барлық терулерді алу нəтижесінде қайталаусыз өлшемдер тізбектері

жиынын аламыз:

V *={^{^d₁^}_,^{^d₂^}_,^{^d₃^}

,...,^{^dⁿ^},

^{^d₁^d₂^},{d₁d₃},^{^d₁^d₄^},...,^{^d_i^d_j^}

,...,

{d_jd_n}_,

^{^d₁^d₂^d₃^}^,^{^d₁^d₂^d₄^}^,^{^d₁^d₂^d₅^}^,...,^{^d_i^d_p^d_j^}^,...,{d_pd_jd_n}_,...,

{d₁d₂d₃...d_n}}.

Егер əр бірс-теруден алынатын тізбекжиынын

^*–депбелгілесек,

мұндағы жиынға кіретін əр бір тізбектің қуаттылығыс-ғатең. ^*

əр бірс-

теруден алынатын тізбек жиындарыV *– барлық терулер бойынша алынған

тізбектер жиынының ішкі жиыны болып табылады:V*

= {v^*

^* *,...,v^*^},

2 3

сəйкесінше жиынның əр бір элементі ішкіжиыннантұрады: v^*={^{^d^}_,^{^d^}_,

^{^d₃^}_,...,^{^d_n^}^},^v^*^={^{^d^d^}^,^{^d
d^}^,^{^d^d^}^,...,^{^d
d^}^,...,{d d}^},^v^*

={{d d

d},

2 ¹²13 ¹⁴ⁱ^j

jn³

1 2 3

^{^d₁^d₂^d₄^}^,^{^d₁^d₂^d₅^}^,...,^{^d_i^d_p^d_j^}^,...,{d_pd_jd_n}^},...,
v_n⁼^{^d₁^d₂^d₃^...^d_n^}_.

Cөздікке кіретін өлшемдер жиыны бойынша əр бірс-теруден алынатын

тізбек саныс-терулер санынаC^cтең, яғни | v^*| =C^c.

n c n

Теорема 1. n-элементтен тұратын жиыннан алынатынс- терулер саны

^c^ⁿ^![103,104].

ⁿc!(nk)!

Қиысу саны қасиетін пайдаланып, іздеу шаблонында қолданылатын

өлшемдерден алынған барлық тізбектержиынының

| V*|

қуаттылығын 1-ден

n-терулер сандарының қосындысымен анықтауға болады (2-формула):

| V* |=

C¹⁺C²⁺C³^+,...,+Cⁿ

(2.7)

n n n n

Ескерту.Қайталаусыз теру саны қасиеттері бойынша,

^C0^¹n-элементті

жиынның ішкі бос жиыны ретінде қарастырылады [104]. Ескеретін жағдай, қарастырылып отырған сөздік бойынша деректерді іздеу шаблонында сөздік элементі болып табылатын өлшемдерден теру қасиеттері бойынша алынатын комбинациялық тізбектер іздеу барысында нақты жəне қажетті аналитикалық өлшемдік деректерді алу (салыстыру арқылы алу) үшін пайдаланылады. Егер бастапқы дереккөздерден іздеу барысында шаблон бос тізбек бойынша іздеу жүргізсе ешқандай аналитикалық деректердің болмайтыны белгілі. Сондықтан, біздің жағдайда^C0^¹- қиысу қасиеті қарастырылмайды.

1-ден n-өлшемді іздеу шаблоны тізбектеріне сəйкес кілттік мəндердіқалыптастыру.Іздеу шаблонында кілттік мəндер ретінде өлшемдердің ішкі жиын элементтері алынады. Келесі қадам өлшемдер теруінен алынған қайталаусыз тізбектер бойынша ары қарай өлшемдердің ішкі жиындары элементтерінің қиылысуларынан тұратын бір өлшемнен n-өлшемге дейінгі барлық ішкі тізбектерді алу. Өлшемдердің ішкі жиыныd₁=

{m₁₁

,m₂₁

,m₃₁

,...,m_k₁},

^d₂⁼{m

,m₂₂

,m₃₂

,...,m_k₂

}^,^d₃⁼^{^m₁₃

,m₂₃

,m₃₃

,...,m_k₃}

,…,

d_n{m₁_n,m₂_n,m₃_n,...,m_k_n}

- түрінде берілетіні белгілі. Сөздіктегі өлшемдер

жиынының ішкі жиындары элементтерінің қайталаусыз терулерінен алынған тізбектер іздеу шаблонында көп өлшемді кілт мəндерін береді. Осыған байланысты өлшемдердің ішкі жиын элементтерін кілт түріде жазсақ:

key₁₁

^^m₁₁,

key₂₁

m₂₁key₃₁

^^m₃₁,...,^key_k₁

^^m_k₁,

key₁₂

^^m₁₂,

key₂₂

^^m₂₂,

key₃₂

^^m₃₂_,...,^key_k₂

^^m_k₂,key₁₃

m₁₃,

key₂₃

m₂₃key₃₃

m₃₃,...,key_k₃

m_k₃,...,

key₁m₁,key₂m₂

,key₃m₃

,...,key m .

n n n

k_nk_n

Өлшемдердің қайтлаусыз тізбектерінен алынған іздеу шаблонындағы өлшемдер тізбектері бойынша өлшемдердің ішкі жиындарынан алынатын ішкі тізбектерді немесе кілттік тізбектерді қалыптастырсақ:

V *_={^{^d₁^}_,{d₂}_,{d₃}_,...,{d_n}_,

^{^d₁^d₂^},{d₁d₃},^{^d₁^d₄^},...,^{^d_i^d_j^},...,

{d_jd_n}_,

^{^d₁^d₂^d₃^}^,^{^d₁^d₂^d₄^}^,^{^d₁^d₂^d₅^}^,...,^{^d_i^d_p^d_j^}^,...,{d_pd_jd_n}_,...,^{^d₁^d₂^d₃^...^d_n^}_}.

{d₁} ={^key^,^key,^key,...,^key}, {d₂} ={^key,^key,^key,...,^key},

1₁2₁3₁k₁1₂2₂3₂k₂

{d₃} ={key ,

key ,

key ,...,

key }, ..., {d_n} ={key₁,key₂_,

key₃,...,

key },

1₃

{d₁d₂}

2₃

= {(^key

3₃

key

k₃

), (^key

key

), (^key

key

n n

),..., (^key

key

k_n

)}, {d d} =

1₁1₂

1₁2₂

1₁3₂

k₁k₂13

{(key key

), (key key

),...,(key

key )}, {^d^d

} = {(^{key key}

), (

1₁1₃

1₁2₃

1₁3₃

k₁k₃¹⁴

1₁1₄

^key₁₁^key₂₄^),
(^key₁₁^key₃₄^),...,
(^key_k₁^key_k₄^{)}
,..., {}^d_i^d_j^{}
= {(}key₁_ikey₁_j^),
(^key₁_i^key₂_j^),

(key₁_ikey₃_j

),..., (key

_k_i_key_k_j

)}, ...,

{d_j

d_n_}^={(^key₁_j

key₁_n

), (key₁_j

key₂_n

),(key₁_j

key₃_n

),..., (key_k_jkey_k_n)},

{d₁d₂d₃}={(key₁₁key₁₂key₁₃_), (key₁₁key₁₂key₂₃_), (key₁₁key₁₂key₃₃_),..., (

key_k₁key_k₂key_k₃)},{d₁d₂d₄}={(^key₁₁^key₁₂^key₁₄), (^key₁₁^key₁₂^key₂₄), (^key₁₁^key₁₂^key₃₄

),...,(^key^key^key

)},

{dd d}={(key

keykey

), (key keykey

), (

k₁k₂k₄

1 2 5

1₁1₂1₅

1₁1₂2₅

key₁₁key₁₂_key₃₅_), ..., (key_k₁key_k₂key_k₅_)}, ...,

{d_id_pd_j}

^= {(^key₁_i_key₁_p_key₁_j^),⁽

key₁_ikey₁_p

key₂_j

^{),
(}^key₁_ikey₁_p

key₃_j

^{),
..., (}key_k_i

key_k_p

key_k_j

)},...,

{d_pd

_jd_n_}

={(

key₁_p

key₁_j

key₁_n

), (key₁_p

key₁_j

key₂_n

), (key₁_p

key₁_j

key₃_n

), ..., (key_k_p

key_k_j

key_k_n

)},

...,

{d₁d₂d₃...d_n}

= {(key₁₁key₁₂_key₁₃_...key₁_n_), (key₁₁key₁₂_key₁₃_...key₂_n_), (

key₁key₁key₁...key₃

) , ..., (key

key key ...key

)}.

1 2 3 n

k₁k₂k₃k_n

Нəтижесінде кілттік тізбектер жиынын (V^key) аламыз:V^key={(^key),(^key),

1₁2₁

(^key), ...,(key ), ...,(^key), ...,(^key), ...,(^key), ..., (^key^key), (^key^key),

3₁k₁

k₂k₃

k_n1₁ 1₂

1₁2₂

(^key
key

^.), ..., (^{key key}

), ...,(^key^key

), ..., (key keykey

), (key key key

1₁3₂

k_ik_j

k_jk_n

1₁1₂1₃

1₁1₂2₃

), (key₁₁

key₁₂

key₃₃

), ..., (^key_k_i

key_k_p

key_k_j

), ..., (^key_k_p

key_k_j

key_k_n

), (

key_k₁key_k₂key_k₃...key_k_n)}

Келтірілген кілт тізбектеріндегі əр бір кілт мəндері гипертекше өсінің

белгілі бір координатасына сəйкес келеді

key₁₁_,

^^key^^,

key

^,...,

^^key^,...,^^key

^,...,

key

,...,key

,^^key
key

^,^^key^key^,

k₁k₂

k₃k_n

1₁1₂

1₁2₂

key key

^.^,...,^^key
key

^,...,

keykey

^,...,

keykeykey ,

1₁3₂

k_ik_j

k_jk_n

1₁1₂1₃

key₁₁

key₁₂

key₂₃,

key₁₁

key₁₂

key₃₃

,...,

key_k_i

key_k_p

key_k_j

^^,...,

key_k_p

key_k_j

key_k_n

^^,...,

key_k₁

key_k₂

key_k₃

...key_k_n

. Текше өсікоординаталары

сөздік ретінде алынған өлшемдер элементтері (members) арқылы анықталады.

Бастапқы дереккөздерден іздеу барысында пайдаланылатын барлық кілттік тізбектер көлемі аса үлкен болса, көп операцияны жəне үлкен көлемді жадыны талап етеді. Іздеу шаблоны бойынша алынатын барлық өлшемдер тізбектектері бойынша қалыптастырылатын мүмкін болатын барлық кілттік тізбектер санын анықтасақ. Жиындар теориясы бойынша қарастырсақ, барлық кілттік мəндер тізбектері саны (N_v) кілттік мəндер тізбектері жиынының қуаттылығына теңN_v

=|V^key|.

Барлық мүмкін болатын кілттік тізбектер саны барлық мөлшердегі (1- мөлшерденn-мөлшерге дейін) кілттік тізбектер сандарының қосындысына тең. Əр бір мөлшердегі кілттік тізбектер саны, сол мөлшердегі қайталаусыз терулер қасиеті бойынша алынған барлық өлшемдер комбинацияларынан алынатын кілттік тізбектер сандарының қосындысына тең. Ал, өлшемдердің əр бір комбинациясынан алынатын кілттік тізбектер саны комбинацияға кіретін өлшемдердің ішкі жиын элементтері сандарының көбейтіндісіне тең. Əр бір өлшемдегі ішкі жиын элементтері саныk₁k₂k₃,..., k_n– түрінде белгіленген. Онда, мүмкін болатын барлық кілттік тізбектердің санын келесідегідей түрде жазуға болады(2.8-формула):

N_v_k_i

_k_i*k_j

_k_i*k_j

k_p,...,k₁*k₂*k₃*...*k_n

(2.8)

i1 1ijn 1ijpn

Тізбек бойынша алынған əр түрлі мөлшердегі жəне мүмкін болатын барлық кілттік мəндер тізбектері көлемі аса үлкен болса, көп операцияны жəне үлкен көлемді жадыны талап етеді. Бұл тапсырманы жеңілдету үшін мөлшері ең үлкен кілттер бойынша іздеу жасап, кілттік тізбекке кіретін барлық мəндерді қарастыру. Егер кілттік тізбекте бар сөздікке сəйкес қандайда бір жазба табылса, жазбаның мөлшерін анықтау, мөлшеріне жəне жазба өлшемдеріне тура келетін шаблон бойынша құрастырылған тізбекті кілт ретіндеменшіктеу.

Деректерді іздеу шаблонын жəне сөздіктерден алынатын тілдік тізбекті деректер қоймасы серверінде немесе бастапқы дереккөздер болып табылатын ДБ орналасқан түйіндерде қалыптастыруға болады.

Егер барлық түйіндердегі ДБ құрылымы бірдей болса жəне шаблон бойынша алынатын сөздік пен тілдік тізбектердің мөлшері аса үлкен болмаған жағдайда, шаблонды деректер қоймасы серверінде қалыптастырып, барлық түйіндер үшін бір шаблонды экземплярлау арқылы барлық түйіндерден іздеу үшін пайдалануға болады.

Егер түйіндердегі ДБ-лары құрылымдар əр түрлі болса жəне шаблон бойынша алынатын сөздік пен тілдік тізбектердің мөлшері аса үлкен болған жағдайда шаблондарды əр түйінде жеке қалыптастырған тиімді. Біріншіден, деректер қоймасы серверінде мыңдаған түйіндерге арналған мыңдаған шаблонды қалыптастыру бір серверге үлкен жүктеме түсіреді жəне деректер базасы сервері мұндай үлкен жүктемені қолдай алмауы да мүмкін. Екінші, əр бір ДБ құрылымына арналған шаблон, сөздік жəне тілдік тізбек сақтау үшін жады ресурсын қажет етеді. Мыңдаған түйінге арналған шаблон, сөздік жəне тілдік тізбек ресурстарын сақтау көлемді жадыны талап етеді жəне оларды желі арқылы түйіндерге көшірмелеу желіге түсетін жүктемелерді арттырады. Аталған мəселелерге байланысты деректерді іздеу образын əр түйінде жеке қалыптастыру жүзеге асырылады. Əр түйін деректер қоймасынан сөздік элементтері болып табылатын өлшемдер мен өлшемдер элементтерін алады жəне ДБ құрылымына байланысты көп өлшемді іздеу образы (шаблоны) қалыптастырылады.

Іздеу барысында тек шаблонға жəне сөздікте бар элементтерге сəйкес келетін деректер жұп жазбалардан тұратын "кілт-мəн" түріндегі тізімдерге келтіріліп, алынады. Кілттер сөздік арқылы қалыптастырылған тілдегі тізбектерге сəйкес келеді, ал мəн сандық көрсеткіш болады. Мəнді алу қойылған тапсырмаға сəйкес жүргізіледі. Іздеу барысында сөздік бойынша құрастылыған кілтке сəйкес табылған жазбадан сандық мəн алынады. Сандық мəн ретінде белгілі бір өрістегі нақты сандық көрсеткіштер, құжаттағы немесе өрістегі кілттік сөздер саны, жазбалар арасындағы байланыстар (мысалы, ДБ жазбалардың байланысы арқылы қатынастардың сандық көрсеткішін беру) жəне т.б. алынуымүмкін.

Қалыптастырылған шаблон бойынша деректерді іздеу.Қалыптастырылған кілттік тізбектермен салыстыру арқылы барлық ДБ- ларындағы жазбаларға іздеу (оқу) жүгізіледі де, тек сəйкес жазбалар ғана алынады. Жоғарыда айтылғандай деректерді іздеуде ассоциативті массив мүмкіндіктері қолданылады. Ассоциативті массивтің негізгі мүмкіндіктері деректерге "символ" жəне "жол" типіндегі кілттермен қатынауға мүмкіндік береді, сонымен қатар көп өлшемді кілттерді қолдайды. Өлшемдер жиыны жəне өлшемдер жиынының ішкі жиындары элементтері терулері бойынша алынған кілттік мəндер тізбектері ассоциативті массив кілттеріне сəйкес келетіндіктен деректерді іздеу жəне алу үшін ассоциативті массив мүмкіндіктерін пайдалануға толық негіз бар. Деректер массивінен қажетті1-өлшемненn- өлшемге дейінгі аналитикалық деректерді іздеу сұранымы образын қалыптасыру үшін шаблон бойынша алдын ала қалыптастырылған кілттік тізбектер пайдаланылады. Іздеу сұранымы образы нақты деректер құрылымына байланысты қалыптастырылуықажет.

Ұсынылып отырған шаблон бойынша NoSQL ДБ-ларынан іздеу əдісі іздеу нəтижесінде алынатын деректерді бір өлшемді жəне көп өлшемді "кілттерден" тұратын "кілт...->мəн" тізімі түрінде береді. Ідеу барысында кілттік мəндерден тұратын тізбектер жиыны элементтері ассоциативті массив кілттері мəндері ретінде пайдаланылады.1-денn-өлшемдерге дейінгі кілттер бойыншаіздеу

нəтижесін келесідегідей түрде жазуға болады:

mass_d₁{[key₁₁]value}_,

mass

{[key

]value}_,_mass₁{[key₁_]value}_,...,

mass{[key]value}

, ...,

1 1

d₁2₁d 3 d k

mass_d

{[key_k]value}

mass {[key

]value}

mass {[key

]value}

2 2 ^,...,

d₃k₃

,...,

d_nk_n

, ^mass

{[key][key

]value}_,

mass {[key][key ]value}

12 1 2

d₁d₂

1₁1₂

dd 1 2

mass

{[key

][key

]value}_,...,_mass_i

{[key][key

j i

]value}

,...,

d₁d₂

1₁3₂

dd k k

mass

{[key ][key

]value}_,

mass

1 2

{[key][key][key]value}

3 1 2 3

d_jd_n

k_jk_n

d d d

1 1 1

mass

{[key][key ][key

]value}_,

mass

1 2

{[key][key ][key ]value}

3 1 2 3

d₁d₂d₃

1₁1₂2₃

d d d

1 1 3

_,...,_mass_d_i_d_p_d_j_{[key_k_i_][key_k_p_][key_k_j_]value}_,

mass_d_p_d_j_d_n{[key_k_p][key_k_j][key_k_n]

value},...,

^massd₁d₃d₃...d_n

{[key_k₁

][key_k₂

][key_k₃

]...[key_k_n

]value}.

Мұндағы,mass– массив атты,оның

^d₁^d₂^d₃^...^d_n-төменгі индексі массив

мөлшерін (размерін) береді. Əр массив бір мөлшердегі кілттер мəндерін сақтайды. Бір кілтке сəйкес келетін бірнеше мəндер анықталынуы мүмкін, олардың барлығы тізімге жинақталынады. Жоғарыда келтірілген іздеу шаблонын қалыптастыру жəне шаблон бойынша бастапқы дереккөздерден аналитикалық деректерді алу сұлбасы 2.8 – суретте келтірілген.

Сурет 2.8 – Іздеу шаблонын қалыптастыру жəне шаблон бойынша бастапқы дереккөздерден аналитикалық деректерді алу сұлбасы

Келесі қадам алынған массив түріндегі деректерді MapReduce параллелді моделі бойынша өңдеу. Map Reduce моделі деректерді екі фаза, Map-фазасы жəне Reduce-фазасы бойынша өңдейді.

Іздеу нəтижесінде алынған деректерді Map-фазада өңдеу.Іздеу нəтижесінде алынған массив түріндегі деректер map фазаға кіріс деректері ретінде қабылданады.Map(f, l)фаза f – функциядан жəнеl– тізімнен тұрады. map-фазаға f - функция қабылданған тізімнің əр бірэлементін {mass[key] ->

value} бір-бірінен тəуелсіз

map{keyⁱⁿ^,vⁱⁿ}-түрінде сақтайды. Бір түйінде

m m

бірнеше

map{keyⁱⁿ,vⁱⁿ}-функциясыныңэкземплярлары жүктелінеді жəне əрбір

m m

функция экземплярындағы "кілт" мəні іздеу нəтижесінде алынған массивтің бір

"кілті" мəніне сəйкес келеді:

mass{[key

^]^^^value^}^=>^map{([key^new^]ⁱⁿ^,vⁱⁿ^)}

mass{[key

]value}

d₁ 1₁

1₁m m _,

d₁ 2₁

^=>^map{([key^new^]ⁱⁿ^,vⁱⁿ^)}

mass{[key

^]^^value^}^=>map{([key^new]ⁱⁿ,vⁱⁿ)}

2₁m m _,

d₁ 3₁

3₁m m

, ...

mass_d{[key_k

^]^^^value^}^=>^map{([key^new^]ⁱⁿ^,vⁱⁿ^)}

mass_d

{[key_k

^]^^value^}=>

{([

new_]in_,

in_)}

k₁m m

,...,

2 2

newin in

map

key_k₂

m^vm

,...,

^mass_d₃^{[^key_k₃^]^^^value^}=>map{([key_k₃

]_m,v_m)},...,

mass {[key ]value}=>map{([key^new^]ⁱⁿ^,vⁱⁿ^)},...,

d_nk_nk_nm m

mass_d_d{[key₁][key₁

^]^^^value^}^=>

map{([key^newkey^new]ⁱⁿ,vⁱⁿ)}_,

12 1 2

1₁1₂m m

mass_d_d{[key₁][key₂

^]^^value^}^=>

map{([key^newkey^new]ⁱⁿ,vⁱⁿ)}_,

12 1 2

1₁2₂m m

mass

{[key][key

^]^^value^}^=>

map{([key^newkey^new]ⁱⁿ,vⁱⁿ)}_,...,

d₁d₂

1₁3₂

1₁3₂m m

mass

{[key][key

^]^^value^}=>

map{([key^newkey^new]ⁱⁿ,vⁱⁿ)}

d_id_j

k_ik_j

k_i k_jm m

,...,

mass

{[key ][key

^]^^value^}=>

map{([key^newkey^new]ⁱⁿ,vⁱⁿ)} ,

d_jd_n

k_jk_n

k_j_k_nm m

mass

{[key

][key

^]^^value^}=>map{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)},

d₁d₂d₃

1₁1₂1₃

1₁1₂

1₃m m

mass

{[key

][key

^]^^value^}=>map{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)}

d₁d₂d₃

1₁1₂2₃

1₁1₂

2₃m m _,

mass

{[key

][key

^]^^value^}=>map{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)}

d₁d₂d₃

1₁1₂3₃

1₁1₂

3₃m m

,...,

^mass_d_i_d_p_d_j^{[^key_k_i^][^key_k_p^][^key_k_j^]^^value^}=>

{([

new

new_]in_,

in₎

map

key_k_i

key_k_p

key_k_j

m^vm

,...,

mass_d_p_d_j_d_n{[key_k_p][key_k_j][key_k_n]value}

^=>{([

new

new_]in_,

in₎

map

key_k_p

key_k_j

key_k_n

m^vm

,...,

^massd₁d₃d₃...d_n

{[key_k₁

][key_k₂

][key_k₃

]...[key_k_n

^]^^value^}=>

{([

new

new'_...

new_]in_,

in_)}

map

key_k₁

key_k₂

key_k₃

key_k_n

m^vm ^.

Барлық

map{keyⁱⁿ,vⁱⁿ}- түріндегі деректер шығыс деректері болып,map-

m m

фаза орындалған түйінде сақталынады. Шығыс деректері келесідегідей түрде жазылады:

map{([key^new]^out,v^out)}^,

map{([key^new]^out,v^out)}^,^...,

1₁m m

2₁m m

3₁m m

{([

new_]out_,

out_)}

new

out

new

out

map

key_k₁

m^vm

,...,

map{([key_k₂

]_m,v_m

)}^,...,

map{([key_k₃

]_m,v_m

)},...,

{([

new_]out_,

out_)}

new

out

map

key_k_n

m^vm

,...,

map{([key₁₁

key₁₂

]_m,v_m

)}_,

map{([key^new^key^new^]^out^,v^out^)} ^map^{([^key^new^key^new^]^out^,^v^out^)}

1₁2₂m m _,

1₁3₂m m

,...,

map

{([

_key_new

key

new_]out_,

k_j

_v_out_)}

,...,

map{([key^new

key

new

k_n

outm

_,_vout

)}^,

]

map{([key^newkey^newkey^new]^out,v^out)},map{([key^newkey^newkey^new]^out,v^out)}

1₁1₂

1₃m m

1₁1₂

2₃m m _,

map{([key^newkey^newkey^new]^out^,v^out^)}

{([

new

new_]out_,

out_)}

1₁1₂

3₃m m

,...,

map

key_k_i

key_k_p

key_k_j

m^vm

,...,

{([

new

new_]out_,

out_)}

new

new'

new

out

map

key_k_p

key_k_j

key_k_n

m^vm

,...,map{([key_k₁

key_k₂

key_k₃

...key_k_n

]_m,v_m

)}.

Əр бірmap()– функция арқылы барлық түйіндердегі ДБ-ларынан іздеу нəтижесінде алынған деректерді{key,value}- түріндегі тізімге келтіру əр түрлі құрылымда сақталынатын жəне түрлі моделде ұсынылатын деректерді біріктіре өңдеуге жəне бірегей құрылымға (форматқа) келтіруге мүмкіндік береді.

Деректерді Reduce-фазада өңдеу. Map-фазасынан алынған шығыс

деректермассиві map{key^out,v^out}Reduce-фазасына кіріс деректеріретінде

m m

_{in_,_in_}

reduce key_rv_r- функциясына қабылданады. Кластердің барлықтүйіндерінде

бірдейreduce()- функциясы экземплярлары жүктелінеді.

map{([key^new]^out,v^out)}^=>reduce{([key^new]ⁱⁿ,vⁱⁿ)}^,

1₁m m 1₁r r

map{([key^new]^out,v^out)}^=>reduce{([key^new]ⁱⁿ,vⁱⁿ)}

2₁m m

2₁r r _,

map{([key^new]^out,v^out)}^=>reduce{([key^new]ⁱⁿ,vⁱⁿ)}

...,

3₁m m

3₁r r _,

{([

new_]out_,

out_)}

newin in

map

...,

key_k₁

m^vm

^=>reduce{([key

]_r,v_r

)}^,

{([

new_]out_,

out_)}

newin in

map

...,

key_k₂

m^vm

^=>reduce{([key

]_r,v_r

)}^,

{([

new_]out_,

out_)}

newin in

map

...,

key_k₃

m^vm

=>reduce{([key_k₃

]_r,v_r

)},

{([

new_]out_,

out_)}

newin in

map

key_k_n

m^vm

=>map{([key_k_n

]_r,v_r)}

map{([key^newkey^new]^out,v^out)}^=>reduce{([key^newkey^new]ⁱⁿ,vⁱⁿ)}^,

1₁1₂m m 1₁1₂r r

map{([key^newkey^new]^out,v^out)}^=>reduce{([key^newkey^new]ⁱⁿ,vⁱⁿ)}^,

1₁2₂m m 1₁2₂r r

map{([key^newkey^new]^out,v^out)}^=>^reduce{([key^newkey^new]ⁱⁿ,vⁱⁿ)}^,

]

...,

1₁3₂m m

1₁3₂r r

map

...,

{([

_key_new

key

new_]out_,

k_j

_v_out_)}

^=>reduce{([key^new

key

new

k_j

in_,_vin

)}^,

map

{([

_key_new

key

new_]out_,

k_n

_v_out_)}

^=>^reduce{([key^new

key

new

k_n

in_,_vin

)}^,

]

map{([key^newkey^newkey^new]^out,v^out)}=>reduce{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)}

1₁1₂

1₃m m

1₁1₂

1₃r r _,

map{([key^newkey^newkey^new]^out,v^out)}=>reduce{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)}

1₁1₂

2₃m m

1₁1₂

2₃r r _,

map{([key^newkey^newkey^new]^out,v^out)}=>reduce{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)},

1₁1₂

3₃m m

1₁1₂

3₃r r

...,

{([

new

new_]out_,

out_)}

new

newin in

map

...,

key_k_i

key_k_p

key_k_j

m^vm

^=>reduce{([key

key_k_p

key_k_j

]_r,v_r

)}^,

{([

new

new_]out_,

out_)}

new

newin in

map

...,

key_k_p

key_k_j

key_k_n

m^vm

^=>reduce{([key

key_k_j

key_k_n

]_r,v_r

)}^,

{([

new

new_...

new_]out_,

out_)}

map

key_k₁

key_k₂

key_k₃

key_k_n

_m_v_m=>

{([

new

new_...

new_]in_,

in_)}

reduce

key_k₁

key_k₂

key_k₃

key_k_n

r^vr

Деректерді

reduce{keyⁱⁿ,vⁱⁿ}

– функциясына қабылдау аяқталғаннан кейін

r r

барлық түйіндер бойынша кілттерінің мəндері бірдей жұптарды біріктіру

(агрегациялау) жүзеге асырылады:

Барлықтүйіндердекілтмəндерібойыншасұрыптаужүргізілуарқылы

кілттердің мəндері бірдей болатын

{keyⁱⁿ^,vⁱⁿ}жұптар топтастырылады.

r r

Топтастырылған жұптарды төмендегідей белігілеулер түрінде беруге болады:

^{([key^new]ⁱⁿ,vⁱⁿ)^,([key^new]ⁱⁿ,vⁱⁿ)^,([key^new]ⁱⁿ,vⁱⁿ)^,...,([key^new]ⁱⁿ,vⁱⁿ)^},
{

1₁r r₁

1₁r r₂

1₁r r₃

1₁r r_a

([key^new]ⁱⁿ,vⁱⁿ)^,

([key^new^]ⁱⁿ^,vⁱⁿ⁾^,^([key^new]ⁱⁿ^,vⁱⁿ⁾^,...,

([key^new]ⁱⁿ,vⁱⁿ)}, {

2₁r r₁

2₁r r₂

2₁r r₃

2₁r r_a

([key^new]ⁱⁿ,vⁱⁿ)^,

([key^new^]ⁱⁿ^,vⁱⁿ⁾^,^([key^new]ⁱⁿ^,vⁱⁿ⁾^,...,

([key^new]ⁱⁿ,vⁱⁿ)},..., {

3₁r r₁

3₁r r₂

3₁r r₃

3₁r r_a

_([new_]in_,

in₎

newin in

key

new_]in_,in₎

_keynew_]in_,

k₂r

ⁱⁿnewin

vⁱⁿ),...,

r₃

([key^new]ⁱⁿ,

k₂r

_vinr_a

new_]in_,in₎

_key_new_]in_,

k₃r

new in

vⁱⁿ⁾,([key^new^]ⁱⁿ^,

r₂k₃r

in newin

vⁱⁿ),...,

r₃

([key^new]ⁱⁿ,

k₃r

new in

_vinr_a

([

^v₁^,([key_k₁

]_r,v_r₂)^,

([key_k₁

]_r,v

⁾^,...,

([key_k₁

]_r,v_r_a

)},..., {

key_k₂

([key_k₃

([key_k_n

r^vr₁

, ([

,([

,([key_k_n

v_r₂),

]_r,v_r₂),

([key_k₂

([key_k_n

]_r,

]_r,v_r₃),...,

([key_k_n

)},..., {

]_r,v_r_a)}, {

([key^newkey^new^]ⁱⁿ^,vⁱⁿ⁾,

([key^newkey^new]ⁱⁿ,vⁱⁿ),...,

1₁1₂r r₁

1₁1₂r r₂

1₁1₂r r₃

_([new

new_]in_,

in₎

new

newin in

new

newin in

key

v_a}, { ([key₁₁

key₂₂

]_r,v_r₁) ,

([key₁₁

key₂₂

]_r,v_r₂) ,

{([key^newkey^new]ⁱⁿ,vⁱⁿ)},...,([key^newkey^new]ⁱⁿ,vⁱⁿ)}, {^([^key^new^key^new^]ⁱⁿ^,^vⁱⁿ⁾,

1₁2₂r r₃

1₁2₂r r_a

1₁3₂r r₁

([key^newkey^new^]ⁱⁿ^,vⁱⁿ⁾,

([key^new^key^new^]ⁱⁿ^,vⁱⁿ⁾,...,

([key^newkey^new]ⁱⁿ,vⁱⁿ)},..., {

1₁3₂r r₂

1₁3₂r r₃

1₁3₂r r_a

([key^new

key

new_]in_,

k_j

_vin₎

^,([key^new

key

new

k_j

in_,_vin

]

)^,([key^new

key

new

k_j

in_,_vin

]

₎,...,

_([new

new_]in_,

in₎

new

newin in

new

newin in

key_k_i

key

k_j

r^vr_a

},..., {_([_key

key

]

k_n

]_r,v_r₁)^,

([key_k_j

key

k_n

]_r,v_r₂)^,

([key^new

key

new_]in_,

_v_in₎

,...,

([key^new

key

new

in_,_v_in

)^},^{^([^key

new

key

new

key

new

_]in

,vⁱⁿ),

j k_n

j k_na

1₁1₂

1₃r r₁

([key^newkey^newkey^new^]ⁱⁿ^,vⁱⁿ⁾^,^([key^new^key^new^key^new^]ⁱⁿ^,vⁱⁿ⁾^,...,^([key^newkey^newkey^new^]ⁱⁿ^,vⁱⁿ⁾

1₁1₂

1₃r r₂

1₁1₂

1₃r r₃

1₁1₂

1₃r r_a

^},
{([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)^,([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)^,([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)

1₁1₂

2₃r r₁

1₁1₂

2₃r r₂

1₁1₂

2₃_r r₃

^,...,([

new

new_]in_,

in₎

new

newin in

key₁₁

key₁₂

key₂₃

r^vr_a

^},
{([key

key₁₂

key₃₃

]_r,v_r₁)^,

([key^newkey^newkey^new]ⁱⁿ,vⁱⁿ)^,^([^key^new^key^new^key^new^]ⁱⁿ^,^vⁱⁿ⁾^,...,

1₁1₂

3₃r r₂

1₁1₂

3₃r r₃

_([new

new

new_]in_,

in₎

new

newin in

key₁₁

key₁₂

key₃₃

r^vr_a

^},...,
{([key

key_k_p

key_k_j

]_r,v_r₁)^,

_([new

new

new_]in_,

in₎

new

newin in

key_k_i

key_k_p

key_k_j

r^vr₂

^,([key_k_i

key_k_p

key_k_j

]_r,v_r₃)^,...,

_([new

new

new_]in_,

in₎

new

newin in

key_k_i

key_k_p

key_k_j

r^vr_a

^},...,
{([key

key_k_j

key_k_n

]_r,v_r₁)^,

_([new

new

new_]in_,

in₎

new

newin in

key_k_p

key_k_j

key_k_n

r^vr₂

^,([key_k_p

key_k_j

key_k_n

]_r,v_r₃)^,...,

_([new

new

new_]in_,

in₎

new

newin in

key_k_p

key_k_j

key_k_n

r^vr_a

},..., {([key_k₁

key_k₂

key_k₃

...key_k_n

]_r,v_r₁),

_([new

new

new_...

new_]in_,

in₎

new

newin in

key_k₁

key_k₂

key_k₃

key_k_n

r^vr₂

,([key_k₁

key_k₂

key_k₃

...key_k_n

]_r,v_r₃),...,

_([new new

new_...new_]in_,

in₎

key_k₁key_k₂

key_k₃key_k_n

_rv_r_a}.

Мұндағы, a – төменгі индексі əр бір кілтке сəйкес келетін жəне агрегацияланатын бірнеше мəндердің санын беретін айнымалымəн.

Кілт мəндері бірдей жұптарды біріктіру. Біріктіруді төмендегідей белгілеулер түрінде беругеболады:

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ})=>^reduce^([^key^new^]^out^,^v^agr⁾,

1₁r

r₁r₂r₃r_a

1₁r r

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ}) =>reduce([key^new]^out,v^agr) ,

2₁r

r₁r₂r₃r_a

2₁r r

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ})=>^reduce^([^key^new^]^out^,^v^agr⁾,

...

3₁r

r₁r₂r₃r_a

3₁r r

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ})=>^reduce^([^key^new^]^out^,^v^agr⁾,

...

k₁r

r₁r₂r₃r_a

k₁r r

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ})=>^reduce^([^key^new^]^out^,^v^agr⁾,

...

k₂r

r₁r₂r₃r_a

k₂r r

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ})=>reduce([key^new]^out,v^agr),

...

k₃r

r₁r₂r₃r_a

k₃r r

reduce([key^new]ⁱⁿ,{vⁱⁿ,vⁱⁿ,vⁱⁿ,...,vⁱⁿ})=>reduce([key^new]^out,v^agr),

k_nr

r₁r₂r₃r_a

k_nr r

_([new

new_]in_,{

in_,

ⁱⁿ,...,

in_})

reduce

key₁₁

key₁₂

r ^vr₁

v_r₂

v_r₃

v_r_a=>

reduce([key^newkey^new]^out,v^agr) ,

1₁1₂r r

new

reduce([key₁key₂^'^]ⁱⁿ^,{vⁱⁿ^,vⁱⁿ^,vⁱⁿ^,...,vⁱⁿ^})=>

1 2 ^r

r₁r₂r₃r_a

reduce([key^newkey^new]^out,v^agr) ,

1₁2₂r r

new new

^reduce^([^key₁^key₃^'^]ⁱⁿ^,{vⁱⁿ^,^vⁱⁿ^,^vⁱⁿ^,...,^vⁱⁿ^})^=>

1 2 ^r

r₁r₂r₃r_a

reduce([key^newkey^new]^out,v^agr) ,

...

1₁3₂r r

_([new

new'_]in_,{

in_,

ⁱⁿ,...,

in_})

reduce

key_k_i

key_k_j

r ^vr₁

v_r₂

v_r₃

^v_r_a=>

_([new

new_]out_,agr₎

reduce

...

key_k_i

key_k_j_rv_r^,

_([new

new'_]in_,{

in_,

ⁱⁿ^,...,

in_})

reduce

key_k_j

key_k_n

r ^vr₁

v_r₂

v_r₃

^v_r_a=>

_([new

new_]out_,

agr₎

reduce key_k_j

([

key_k_n

new

r ^vr ^,

new new_]in_,{

in_,

ⁱⁿ,...,

in_})

reduce

key₁₁

key₁₂key₁₃

r ^vr₁

v_r₂

v_r₃

v_r_a=>

reduce([key^newkey^newkey^new]^out,v^agr),

1₁1₂1₃r r

_([new new new_]in_,{_in_,

in_,

ⁱⁿ,...,

in_})

reduce key₁₁_key₁₂_key₂₃_rv_r₁

v_r₂

v_r₃

^v_r_a=>

reduce([key^newkey^newkey^new]^out,v^agr),

1₁1₂2₃r r

_([new new new_]in_,{in_,

in_,

ⁱⁿ,...,

in_})

reduce

key₁₁key₁₂_key₃₃_rv_r₁

v_r₂

v_r₃

v_r_a=>

reduce([key^newkey^newkey^new]^out,v^agr),

1₁1₂3₃r r

...,

_([new new new_]in_,{

in_,

ⁱⁿ,...,

in_})

reduce

([

key_k_i

new

key_k_p

new

key_k_j

new_]out_,

r ^vr₁

agr₎

v_r₂

v_r₃

v_r_a^=>

reduce key_k_i

...,

([

key_k_pkey_k_j

new new

r ^vr ^,

new_]in_,{in_,

in_,

ⁱⁿ^,...,

in_})

reduce

key_k_pkey_k_j

key_k_n_rv_r₁

v_r₂

v_r₃

^v_r_a=>

_([new

new new_]out_,

agr₎

reduce key_k_p

...,

([

key_k_jkey_k_n

new new

new_...

v_r_,

new_]in_,{

in_,

ⁱⁿ,...,

in_})

reduce

key_k₁

key_k₂

key_k₃

key_k_n_r

v_r₁

v_r₂

v_r₃

v_r_a=>

_([new

new

new_...

new_]out_,agr₎

reduce

key_k₁

key_k₂

key_k₃

key_k_n_rv_r.

Кілттердің мəндері бірдей болатын

{keyⁱⁿ,vⁱⁿ}жұптар бір түйін ішінде де

r r

кездесуі мүмкін. Сондықтан деректер көлемі үлкен болған жағадайда желі арқылы процессорлар арасына жіберілетін деректер көлемін азайту үшінəр

түйінде сəйкес

{keyⁱⁿ,vⁱⁿ} -жұптарды біріктіру, алынған нəтижені {key^out,v^out}

r r r r

барлық түйіндер бойынша есептелінетінreduce()-функцияға қайта жіберіп

_{out_,out_}

_{in_,_in_}

key_rv_r

key_rv_r

орындауға болады. Соңғыreduce()-функциядан

агрегациялық мəндерді аламыз (^{^keyⁱⁿ^,^vⁱⁿ^}^^{^key^out^,^v^agr^}).

r r r r

Reduce() функциясы нəтижесінде алынған соңғы шығыс деректері

₍out_,_agr₎

out

key_rv_r

деректер қоймасына жазылады. Деректер қоймасына

^key_r-

агрегациялық деректерге қатынау кілті болып жазылады, ал агрегациялық (преарегациялық мəн) мəндер болып жазылады.

^v^agr-бастапқы

Жоғарыда келтірілген əр түрлі ДБ-ларынан деректерді кілт-мəн түрінде

алу, алынған деректерді MapReduce параллелді моделі бойынша өңдеу арқылы бастапқы агрегациялық мəндерді есептеу сұлба түрінде 2.9-суретте көрсетілген.

Сурет 2.9 – Əр түрлі SQL жəне NoSQL ДБ-ларынан деректерді кілт-мəн түрінде алу, алынған деректерді MapReduce

параллелді моделі бойынша өңдеу арқылы бастапқы агрегациялық мəндерді есептеу сұлбасы

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2010 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20252.22 Mб0Kazak.docx
#
24.03.2015268.82 Кб66Kazakhskaya_zhurnalistika_sostav_Velitchenko.rtf
#
24.03.20151.15 Mб1853KAZAKSTAN_TARIKh.doc
#
01.07.2025652.8 Кб0kazaxtan_geografiasy_dayyn.doc
#
24.03.2015598.7 Кб9KAZJur.rtf
#
01.07.20252.61 Mб0kazntu.kz_031215_ND_MukazhanovNK.docx
#
01.07.2025155.14 Кб0kaznu.doc
#
01.07.202577.51 Кб0kaz_prava_shporgalka.docx
#
31.07.201956.78 Кб5kaz_yaz_30-45.docx
#
01.05.2025135.39 Кб0keden_-_kopia.docx
#
24.03.20151.38 Mб29Kentucky_fried_chicken.doc