
2-LEKCIYA_MDQI
.pdf2-Lekciya. Regressiya máselelerin sheshiw ushın maǵlıwmatlardı dáslepki qayta islew
JOBA
1.Data Mining wazıypasınıń táriyipi
2.Regressiya máselesi
1. Data Mining máselesiniń klassifikatsiyası
Data Mining - bul úlken kólemdegi maǵlıwmatlardı talqılaw tiykarında avtomatlastrılǵan maǵlıwmatlardı izlew.
Data Mining - bul úlken kólemdegi maǵlıwmatlarda aldınǵı belgisiz nızam sheńberinde izlew ushın arnalǵan maǵlıwmatlardı talqılaw usılı.
Data Mining - bul kompaniyanıń informaciya sistemalarında jıynalǵan, aldın belgisiz bolǵan, áhmiyetsiz bolmaǵan, ámeliy jaqtan paydalı hám insan xızmetiniń hár qıylı tarawlarında qararlar qabıl etiw ushın zárúr bolǵan bilimlerdi túsindiriw ushın ashıq bolǵan úlken kólemdegi maǵlıwmatlardı tabıw metodologiyası hám protsessi.
Data Mining usılları talqılawshı duwshar bolatuǵın kóplegen máselelerdi sheshiwge járdem beredi. Olardıń tiykarǵıları: klassifikatsiya, regressiya, assotsiatsiya qaǵıydaların izlew hám klasterlew. Keliń, maǵlıwmatlardı talqılawdıń tiykarǵı wazıypalarınıń qısqasha táriyipin kórip shıǵayıq.
-Klassifikatsiya wazıypası obekt klasın onıń qásiyetlerine qarap anıqlawǵa qısqartıladı. Sonı atap ótiw kerek, bul máselede obekttiń belgileniwi múmkin bolǵan klasslar jıyındısı aldın ala belgili.
-Regressiya máselesi, klassifikatsiya máselesi sıyaqlı, obekttiń belgili qásiyetlerinen onıń bazı parametrleriniń mánisin anıqlaw imkániyatın beredi. Klassifikatsiya máselesinen parıqlı, parametr mánisi sheklengen klasslar jıyındısı emes, al haqıyqıy sanlar jıyındısı bolıp tabıladı.
-Associaciya qaǵıydaların izlegende, maqset obektler yamasa waqıyalar arasındaǵı tez-tez baylanıslardı (yamasa associaciyalardı) tabıw bolıp tabıladı. Tabılǵan baylanıslar qaǵıydalar túrinde usınılǵan hám talqılanǵan maǵlıwmatlardıń mánin jaqsıraq túsiniw ushın da, waqıyalar júz beriwın boljalaw ushın da qollanılıwı múmkin.
1
- Klasterlew wazıypası talqılanatuǵın maǵlıwmatlardıń pútkil jıyındısında ǵárezsiz toparlar (klasterler) hám olardıń qásiyetlerin tabıw bolıp tabıladı. Usı máseleni sheshiw maǵlıwmatlardı jaqsıraq túsiniwge járdem beredi. Bunnan tısqarı, birdey obektlerdi toparlaw olardıń sanın azaytıwǵa hám nátiyjesinde talqılawdı ańsatlastrıwǵa imkániyat beredi.
Sanalǵan wazıypalar maqsetine qarap táriyiplewshi hám boljalaw túrlerine bólinedi.
Táriyiplewshi hám boljaslawshı máseleler
Táriyiplewshi máseleler - talqılanıp atırǵan maǵlıwmatlardı túsiniwdi jaqsılawǵa qaratılǵan. Bunday modellerdegi tiykarǵı noqat - nátiyjelerdiń adam sanası ushın qolaylılıǵı hám ashıqlıǵı. Bálkim, tabılǵan shablonlar anıq tekserilgen maǵlıwmatlardıń ózine tán qásiyeti boladı hám basqa hesh qanday jerde tabılmaydı, biraq bul ele de paydalı bolıwı múmkin hám sonıń ushın belgili bolıwı kerek. Usı túrdegi wazıypalarǵa klasterlew hám associaciya qaǵıydaların tabıw kiredi.
Boljawshı máseleler - máselelerdi sheshiw eki basqıshqa bólinedi. Birinshi qadam belgili nátiyjeleri bar maǵlıwmatlar toplamına tiykarlanǵan modeldi jaratıw. Ekinshi basqıshta ol jańa maǵlıwmatlar toplamına tiykarlanǵan nátiyjelerdı boljalaw ushın qollanıladı. Bunday jaǵdayda, álbette, qurılǵan modellerdıń ilajı barınsha anıq islewi talap etiledi. Usı túrdegi máseleler klassifikatsiya hám regressiya máselelerın óz ishine aladı. Bul assotsiatsiya qaǵıydaların tabıw máselesın óz ishine aladı, eger onı sheshiw nátiyjeleri belgili waqıyalardıń júzege keliwin boljalaw ushın qollanılıwı múmkin bolsa.
Máseleni sheshiw usıllarına kóre olar qadaǵalaw astında oqıtıw (oqıtıwshı menen oqıtıw) hám qadaǵalawsız tálim (oqıtıwshısız úyreniw) ge bólinedi. Bul at inglis tilindegi ádebiyatlarda tez-tez qollanılatuǵın hám barlıq Data Mining texnologiyaların bildiriwshi Machine Learning atamasınan kelip shıqqan.
Qadaǵalaw astındaǵı úyreniw jaǵdayında maǵlıwmatlardı talqılaw wazıypası bir neshe basqıshta sheshiledi. Birinshiden, bazı Data Mining algoritminen paydalanıp, talqılanǵan maǵlıwmatlardıń modeli - klassifikator qurıladı. Keyin klassifikator oqıtıladı. Basqasha aytqanda, onıń jumısınıń sapası tekseriledi, eger ol qanaatlandırarlı bolmasa, klassifikatordı qosımsha oqıtıw ámelge asırıladı. Bul talap etiletuǵın sapa dárejesine erisilgenine shekem yamasa tańlanǵan algoritm maǵlıwmatlar menen durıs islemeytuǵınlıǵı yamasa maǵlıwmatlardıń ózi anıqlanıwı múmkin bolǵan dúziliske iye emesligi anıq bolǵanına shekem dawam
2
etedi. Usı túrdegi máseleler klassifikaciya hám regressiya máselelerin óz ishine aladı. Qadaǵalawsız úyreniw táriyiplewshi patternlerdi anıqlaytug'ın wazıypalardı birlestiredi, mısalı, úlken dúkandaǵı klientlerden úlgilerdi satıp alıw. Sózsiz, eger bul patternler bar bolsa, onda model olardı sáwlelendiriwi kerek hám onı tayarlaw haqqında sóz etiw orınlı emes. Bunday wazıypalardıń artıqmashılıǵı talqılanǵan maǵlıwmatlar haqqında aldın ala maǵlıwmatqa iye bolmastan olardı sheshiw qábileti. Bul wazıypalar klasterlew hám associatsiya qaǵıydaların tabıwdı óz ishine aladı.
2. Regressiya máselesi
Zigmund Freyd tústiń mánin túsindiriw ushın (Die Traumdeutung, 1900) "Túsler talqılawı" na regressiya túsinigin kirgizdi: tústegi pikir tiykarınan subektti derlik gallyucinatsiya sıyaqlı quwıp júretuǵın sensorlı súwretler túrinde keledi.
Regressiya regressio - artqa háreketi, sheginiwi) menen itimallıq teoriyası hám matematikalıq statistika bir emes, bir jol dep, tosınnan ózgeriwshiler arasındaǵı jazısıwlardı ornatadı, ǵárezliligin baylanıslı ózgeriwshi hám ǵárezsiz ózgeriwshiler arasındaǵı qatnastı sáwlelendiriwshi matematikalıq ańlatpa, eger ańlatpa statistikalıq áhmiyetke iye bolsa.
Eki úzliksiz ózgeriwshini qarap shıǵamız |
|
, |
. |
Noqatlardı eki ólshemli grafikke jaylastıramız hám eger maǵlıwmatlar tuwrı |
|
sızıq penen ornatılǵan bolsa, biz sızıqlı qatnasqa iye bolamız. |
|
Eger y ti x ke baylanıslı dep esaplasaq hám y taǵı |
ózgerisler x daǵı |
ózgerislerden kelip shıqsa, bul eki ózgeriwshi arasındaǵı tuwrı sızıqlı qatnastı eń jaqsı táriyiplewshi regressiya sızıǵın (y niń x boyınsha regressiyası) anıqlawımız múmkin.
"Regressiya" sóziniń statistikalıq qollanılıwı Frensis Galton (1889) tárepinen aytılǵan ortashag'a regressiya dep atalatug'ın qubılıstan kelip shıqqan.
Ol “biyik boylı atalar” ádetde “uzın boylı ullarǵa” iye bolsa da, ullardıń ortasha boyı biyik boylı atalardikinen kishirek ekenligin kórsetti. Ullardıń ortasha boyı xalıqtıń barlıq atalarınıń ortasha boyı dárejesine "regress" hám "artqa kóshti". Solay etip, ortasha, biyik boylı atalardıń ulları pásirek (biraq bári bir uzın boylı), pás boylı atalardıń bolsa uzınıraq (biraq ele de biraz pás) ulları bar.
Regressiya sızıǵı. Ápiwayı (juplanǵan) sızıqlı regressiya sızıǵın esaplaytuǵın matematikalıq teńleme:
3
•x ǵárezsiz ózgeriwshi yamasa boljalawshı dep ataladı.
•y - ǵárezli ózgeriwshi yamasa juwap ózgeriwshisi. Bul biz kútken mánis (ortasha), eger biz shamanı bilsek, yaǵnıy bul "boljalanǵan mánis".
•a - bahalaw sızıǵınıń erkin aǵzası (kesispe);
•b - bahalanatuǵın sızıqtıń qıyalıǵı yamasa gradienti; eger biz birge kóbeytsek, y ortasha ósetuǵın muǵdardı ańlatadı.
•a hám b olar shama menen sızıqlı regressiya koeffitsientleri dep ataladı, yaǵnıy bul atama kóbinese tek ushın qollanıladı.
Juplaǵan sızıqlı regressiya bir neshe ǵárezsiz ózgeriwshilerdi qamtıw ushın keńeytiriliwi múmkin; bul jaǵdayda, ol kóp regressiya dep ataladı.
4