Kanoninės diskriminantinės funkcijos radimas

gruodžio 11, 2009

Aprašysime lygties

L=f_{im}=u_{0}+u_{1}x_{1im}+u_{2}x_{2im}+..+u_{p}x_{pim}  (1)

koeficientų u_{q} radimo eigą. Tiek klasterinėje, tiek diskriminantinėje analizėje viena iš fundamentaliausių yra atstumo tarp stebėjimų ir grupių sąvoka. Metodas, kurį nagrinėsime, pagrįstas kovariacinės matricos savybe atspindėti taškų išsibarstymą pagal atskirus kintamuosius. Panagrinėkime matricą R=\left ( r_{sq} \right )_{s,q=1}^{p}; čia: r_{sq}=\sum_{i=1}^{k}\sum_{m=1}^{n_{i}}(x_{sim}-x_{s..})(x_{qim}-x_{q..}), x_{s..}- s-ojo kintamojo bendrasis vidurkis (visose grupėse). Pastebėsime, kad \frac{r_{sq}}{(n-1)} yra kovariacijos tarp s-ojo ir q-ojo kintamųjų koeficientas. Reiškiniai skliausteliuose yra kintamųjų reikšmių nuokrypiai nuo bendrojo vidurkio. Įstrižainės elementai yra kvadratinių nuokrypių sumos, o kai s\neq q , turime nuokrypių pagal du skirtingus kintamuosius sandaugų sumas – šis dydis yra kintamųjų reikšmių suderinamumo matas ta prasme, kad parodo, kaip gerai didelis nuokrypis pagal vieną kintamąjį atitinka didelį nuokrypį pagal kitą kintamąjį. Analizuodami visą matricą R, gausime pilną informaciją apie stebėjimų pasiskirstymą kintamųjų erdvėje.

Sudarykime analogišką matricą W, charakterizuojančią nuokrypius grupių viduje:

w_{sq}=\sum_{i=1}^{k}\sum_{m=1}^{n_{i}}(x_{sim}-x_{si.})(x_{qim}-x_{qi.});

čia x_{si.} -s-ojo kintamojo vidurkis i-oje grupėje. Jeigu grupės yra pakankamai gerai atskiriamos, stebėjimų išsibarstymas grupės viduje yra mažesnis už bendrą išsibarstymą; kartu – matricos W elementai mažesni už atitinkamus matricos R elementus. Tegul B=R-W, t.y b_{sq}=r_{sq}-w_{sq}. Tai jau yra matas, tinkantis vertinti atstumą tarp grupių. Lygčių sistemos

\sum b_{1q}v_{q}=\lambda \sum w_{1q}v_{q},

………………………                                                (2)

\sum b_{pq}v_{q}=\lambda \sum w_{pq}v_{q}

sprendinys (\lambda, v_{1},...,v_{p}) tenkina (1) sąryšį; čia \lambda yra tikrinė reikšmė. Atlikę transformaciją

u_{q}=v_{q}\sqrt{n-k}, u_{0}=-\sum_{q=1}^{p}u_{q}x_{q}..,         (3)

gausime standartizuotus koeficientus u_{q}, taip pat tenkinančius (1) lygtį. (2) lygčių sistema maksimaliai turi z netrivialių sprendinių (kartu egzistuoja z tikrinių reikšmių \lambda), kurių kiekvienas atitinka vieną diskriminantinę funkciją. Pastebėsime, kad (3) koeficientų transformacija naudojama tam, kad naujoji koordinačių sistema būtų natūralesnė, t.y. jos pradžia sutaptų su pagrindiniu centroidu, matavimo vienetai sutaptų su atitinkamos diskriminantinės funkcijos visų stebėjimų reikšmių standartinio kvadratinio nuokrypio vienetais. Kiekviena ašis „ištempiama“ arba „suspaudžiama“ taip, kad atitinkama stebėjimo diskriminantinė reikšmė būtų lygi taško atstumui nuo pagrindinio centroido, išreikštam standartiniais nuokrypiais. Pavyzdžiui, reikšmė -2,5 reiškia, kad stebėjimas du su puse kvadratinio nuokrypio atstumu yra nutolęs nuo pagrindinio centroido priešinga diskriminantiniai ašiai kryptimi.

Tokiu būdu įvedame naują kanonių diskriminantinių funkcijų šeimos apibrėžtą, (k-1)-matę diskriminantinę erdvę.

Kanoninės diskriminantinės funkcijos

gruodžio 9, 2009

Esant patenkintoms minėtoms (mano post’e „Diskriminantinės analizės prielaidos“) prielaidoms, diskriminantinės analizės tikslams pasiekti dažnai yra naudojama kanoninė diskriminantinė funkcija (k.d.f.), tiksliau, keletas jų – tiesinė diskriminantinių kintamųjų kombinacija:

L=f_{im}=u_{0}+u_{1}x_{1im}+u_{2}x_{2im}+...+u_{p}x_{1pim}; (1)

čia f_{im} -m-ojo stebėjimo klasėje k.d.f. reikšmė, x_{qim}- m-ojo stebėjimo i-oje grupėje q-ojo diskriminantinio kintamojo x_{q} reikšmė, o u_{q} – koeficientai, tenkinantys tam tikras sąlygas. Būtent jie turi būti tokie, kad funkcijos L vidurkinės reikšmės atskirose grupėse tarpusavyje maksimaliai skirtųsi. Tai pirmoji k.d.f. L=L_{1}. Antrosios k.d.f. L_{2} koeficientai parenkami analogiškai – jos vidurkinės reikšmės turi maksimaliai skirtis grupėse ir,  be to, antrosios funkcijos reikšmės neturi koreliuoti su pirmosios funkcijos reikšmėmis. Trečioji funkcija L_{3} turi būti nekoreliuota su pirmomis dviem ir t.t. Maksimalus k.d.f. skaičius z lygus mažesniajam iš dviejų – grupių skaičiaus be vieneto ir diskriminantinių kintamųjų skaičiaus:

z=min{k-1;p}.   (2)

Geometrinė interpretacija. Tegul p diskriminantinių kintamųjų apibrėžia p-matės euklidinės erdvės ašis. Kiekvienas stebėjimas šioje erdvėje gali būti pavaizduotas tašku (jo koordinates atitiks stebėjimo kintamųjų reikšmės). Pavaizdavę visus turimus stebėjimus, gausime tam tikrą taškų p-matėje erdvėje konfigūraciją. Jeigu nagrinėjamos grupės yra atskiriamos diskriminantinių kintamųjų atžvilgiu (2 prielaida), taškai išsidėlios atskirais „debesėliais“. Jie gali būti visiškai atskiriami arba jų „teritorijos“ gali iš dalies persikirsti. Grupių padėtims apibrėžti patogu rasti jų centroidus – taškus, kurių koordinatės lygios vidutinėmis kintamųjų reišmėms tose grupėse. Naujų stebėjimų grupavimo diskriminantinė taisyklė iš pirmo žvilgsnio atrodytų gana paprasta ir natūrali: stebėjimą reikia priskirti tai grupei, kurios centroidas yra artimiausias šiam stebėjimui.

Tačiau tokią procedūrą atlikti pradinėje p-matėje erdvėje, ypač kai p didelis, yra labai sunku. Pasirodo, centroidams ir grupėms atskirti pakanka apsiriboti mažesnio – būtent k-1 – matavimo erdve. Tai plaukia iš tokio fakto, kad k taškų (centroidų), atitinkančių k grupių, apibrėžia k-1 matavimo erdvę, t.y. dviem klasėms atskirti pakanka tiesės, trims – plokštumos, keturioms – trimatės erdvės ir t.t. Todėl maksimalus k.d.f. skaičius yra nustatomas pagal (2) formulę.

Tokioje centroidų apibrėžtoje (k-1) – matėje erdvėje egzistuoja be galo daug galimų koordinačių sistemų (koordinačių ašių padėčių). Mums reikia parinkti vieną fiksuotą. Tegul koordinačių pradžia sutampa su pagrindiniu centroidu- tašku, kurio koordinatės pradinėje p-matėje erdvėje lygios visų stebėjimų vidurkiams pagal kiekvieną kintamąjį. Toliau reikia nustatyti ašių kryptis. Pirmąją ašį nukreipiame tokia kryptimi, kad vidurkinės stebėjimų projekcijų į tą ašį reikšmės grupėse skirtųsi labiausiai. Antrąją ašį brėžkime hiperplokštumoje, statmenoje pirmajai ašiai, vėl maksimizuodami skirtumus tarp projekcijų vidurkių grupėse. Ir taip toliau.

Ką tik aprašytas procesas analiziškai atitinka (1) lygtį – tai ir yra pradinių diskriminantinių kintamųjų apibrėžtos p-matės erdvės pervedimas į (k-1)-matę kanoninių diskriminantinių funkcijų apibrėžtą erdvę. Kiekvieną k.d.f. atitinka sava (1) išraiška, t.y. gauname k.d.f. šeimą {L_{1}, L_{2},…,L_{k-1}}. Pastebėsime, kad tuo atveju, kai z=p<k-1, erdvės matavimas išlieka toks pats (p); tik koordinačių sistema pakeičiama tokia, kurioje grupės yra labiausiai atskiriamos.

Panašumo matai klasterinėje analizėje

gruodžio 9, 2009

Sakykime, kad jau turime atsitiktinę stebėjimų (objektų) imtį ir norime juos suklasifikuoti pagal pasirinktus p kintamųjų. Kaip ir kituose daugiamatės matematinės statistikos metoduose, taip ir klasterinėje analizėje patogu stebėjimus įsivaizduoti p kintamųjų generuotos p-matės erdvės taškais. Kiekvieno taško koordinatės – tai tam tikro stebėjimo atitinkamų kintamųjų reikšmės. Du stebėjimai laikomi identiškais, arba tapačiais, jeigu jie atitinka tą patį erdvės tašką (visos jų koordinatės sutampa). Klasterizacijos tikslas – panašius stebėjimus (arba juos atitinkančius artimus taškus) sujungti į klasterius. Todėl vienas iš esminių klasterinės analizės etapų – pasirinkti stebėjimų panašumo matą (arba atstumo tarp atitinkamų taškų matą). Susipažinsime su pagrindiniais panašumo matais. Yra keturios jų grupės:

1) koreliacijos koeficientai,

2) metriniai atstumo matai,

3) asociatyvumo koeficientai,

4) tikimybiniai panašumo matai.

Pakalbėsime plačiau apie pirmų dviejų grupių matus  (jie dažniau naudojami socialiniuose moksluose).

Koreliacijos koeficientas, šiaip jau žinomas kaip kintamųjų priklausomumo matas, kartais panaudojamas siekiant įvertinti stebėjimų panašumą. Tada jis skaičiuojamas šitaip:

r_{x,y}=\frac{\sum_{q=1}^{p}(x_{q}-\overline{x})(y_{q}-\overline{y})}{\sqrt{\sum_{q=1}^{p}(x_{q}-\overline{x})^{2}\sum_{q=1}^{p}(y_{q}-\overline{y})^{2}}};  (1)

čia: x_{q} – stebėjimo x q-ojo kintamojo reikšmė, \overline{x} – stebėjimo x visų kintamųjų vidurkio reikšmė, p – kintamųjų skaičius. (1) formulė tinka tolydiems arba ranginiams duomenims. Binariųjų duomenų atveju (1) pakeičiama kontingencijos koeficiento \varphi analogu.

Koreliacijos keoficientas turi keletą pranašumų bei trūkumų. Visų pirma jis neturi aiškios statistinės prasmės, nes vidurkis skaičiuojamas pagal įvairius kintamuosius, o ne pagal stebėjimų aibę. Jis nejautrus kintamųjų reikšmių išsibarstymui bei poslinkiui, tačiau jautrus vadinamajai kintamųjų reikšmių profilio formai. (Profilis – tai objekto kintamųjų reikšmių grafinis vaizdavimas laužtės pavidalu). Kai kuriais atvejais tai yra koreliacijos koeficiento pranašumas, o kai kuriais – trūkumas. Neigiama koreliacijos koeficiento savybė yra ta, kad jis nėra metrika. Priminsime, kad metrika – tai skaitinė neneigiama dviejų objektų x ir y funkcija d, tenkinanti sąlygas:

1) simetriškumo: d(x,y)=d(y,x);

2) trikampio nelygybės: d(x,y)<=d(x,z)+d(y,z);

3) netapačių objektų atskiriamumo: jei x\neq y, tai d(x,y)\neq 0;

4) tapačių objektų neatskiriamumo: jei d(x,y)=0, tai x ir y identiški.

Nesunku pastebėti, jos (1) koreliacijos koeficientas netenkina trikampio nelygybės. Dėl minėtų ir kai kurių kitų koreliacijos koeficiento trūkumų labiau naudojami 2) grupės matai. Pastaruosius tikslingiau būtų vadinti ne panašumo,o skirtingumo matais, nes jie, priešingai negu koreliacijos koeficientas, artimiems (panašiems) objektams įgyja mažas, o tolimiems (nepanašiems) – dideles reikšmes. Be to, paprastai jie nėra aprėžti iš viršaus. (Primename, kad koreliacijos koeficiento absoliutusis didumas neviršija vieneto). Viena iš labiausiai populiarių metrikų yra euklidinė:

d(x,y)=\sqrt{\sum_{q=1}^{p}(x_{q}-y_{q})^{2}}.

Ji yra atsikiras Minkovskio metrikų atvejis

d(x,y)=\left ( \sum_{q=1}^{p}\left | x_{q}-y_{q} \right |^{r} \right )^{\frac{1}{r}}, r\geq 1.

Itin dažnai naudojamas Mahalanobiso atstumas (kuris, beje, labai populiarus diskriminantinėje analizėje)

d(x,y)={(x-y)}'V^{-1}(x-y);

čia V – bendroji arba klasės vidinė kovariacinė matrica. Skirtingai nuo euklidinės bei Minkovskio metrikų, pastaroji susijusi su kintamųjų koreliacijomis. Kai koreliacija lygi nuliui, Mahalanobiso atstumas sutampa su euklidinio atstumo kvadratu.

Tiesa, ir metrikos turi minusų. Vienas iš svarbiausių yra tai, kad panašumo įvertis labai priklauso nuo kintamųjų matavimo skalių. Kintamieji, įgyjantys dideles absoliučias reikšmes ir didelius standartinius nuokrypius, gali nustelbti kintamųjų su atitinkamai mažesnėmis reikšmėmis įtaką. Kaip jau minėjome, išvengti šio efekto galima iš anskto normuojant kintamųjų reikšmes.

Determinacijos koeficientas

gruodžio 9, 2009

Panašiai kaip ir koreliacijos, determinacijos koeficientas yra atsitiktinių dydžių tiesinio ryšio matas. Jis žymimas R^{2} ir vadinamas R kvadratu. Pažymėsime, kad vieno nepriklausomo kintamojo modelyje determinacijos koeficientas lygus Pirsono koreliacijos tarp priklausomo ir nepriklausomo kintamųjų koeficiento r kvadratui. Kitaip sakant, priklausomybė tarp koreliacijos koeficiento ir determinacijos koeficiento apibrėžiama formule r=\sqrt{R^{2}}; čia R^{2} – determinacijos koeficientas. Regresinio modelio determinacijos koeficientas apskaičiuojamas pagal formulę

R^{2}=1-\frac{\sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2}}{\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}};   (1)

čia \widehat{Y_{i}} – kintamojo Y įvertinimai, apskaičiuoti iš regresijos lygties, \overline{Y} yra kintamojo Y vidurkis, n-imties dydis.

Išraiška \sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2} atspindi kintamojo Y reikšmių išsibarstymą apie regresijos tiesę, o išraiška \sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2} – apie jo vidurkį.

Panagrinėkime keletą pavyzdžių. Įsitikinsime, kad R^{2} iš tikrųjų yra kintamųjų tiesinio ryšio matas. Tiesinės funkcinės priklausomybės tarp kintamųjų X ir Y pavyzdys pateiktas lentelėje.

Stebėjimas X Y
1 1 4
2 2 8
3 3 12
4 4 16
5 5 20
6 6 24
7 7 28
8 8 32

Aišku, kad regresijos tiesės formulė turėtų būti \widehat{Y}=4\cdot X ir visi stebėjimai išdėstyti toje tiesėje. Todėl \sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2}=0. Dabar apskaičiuosime išraiškos \sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2} reikšmę:

\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}=(4-18)^{2}+(8-18)^{2}+(12-18)^{2}+..+(32-18)^{2}=672.

Įstatę gautas reikšmes į (1) formulę, gausime

R^{2}=1-\frac{\sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2}}{\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}}=1-0=1.

Taigi R^{2}=1. Taip gali būt tik tuo atveju, kai stebėjimai išsidėstę regresijos tiesėje, t.y. kai tarp X ir Y yra tiesinė priklausomybė.

Kitas kraštutinis atvejis, kai stebėjimai išsidėstę vienodu atstumu į abi puses nuo regresijos tiesės. Šio pavyzdžio duomenys pateikti lentelėje:

Stebėjimas X Y
1 1 6
2 1 12
3 3 6
4 3 12
5 5 6
6 5 12
7 7 6
8 7 12

Apskaičiuosime kintamojo Y vidurkį:

\overline{Y}=\frac{\sum Y}{n}=\frac{72}{8}=9.

Mažiausių kvadratų metodu rasta regresijos lygtis yra \widehat{Y}=9. Paskaičiuosme išraiškos \sum (Y-\widehat{Y})^{2} reikšmę:

\sum (Y-\widehat{Y})^{2}=(6-9)^{2}+(12-9)^{2}+(6-9)^{2}+...+(12-9)^{2}=72.

Kadangi \overline{Y}=9 (taip pat kaip ir \widehat{Y}=9), nesunku pastebėti, kad \sum (Y-\overline{Y})^{2}=72. Pasinaudoję (1) formule, gausime, kad determinacijos koeficientas R^{2} lygus nuliui:

R^{2}=1-\frac{\sum (Y-\widehat{Y})^{2}}{\sum (Y_{i}-\overline{Y})^{2}}=1-\frac{72}{72}=0.

Determinacijos koeficientas R^{2} lygus nuliui, kai tarp kintamųjų nėra tiesinio ryšio. Koeficiento R^{2} reikšmė priklauso intervalui [0,1]. Kuo ji artimesnė vienetui, tuo stipresnis tiesinis ryšys tarp X ir Y, ir atvirkščiai, kuo ji artimesnė nuliui, tuo ryšys tarp X ir Y silpnesnis. Tačiau dar kartą atkreipkime dėmesį į tai, kad R^{2}, kaip ir Pirsono koreliacijos koeficientas, aprašo tik kintamųjų tiesinio ryšio stiprumą. Jeigu tarp X ir Y būtų kitokio pobūdžio ryšys, pavyzdžiui, stebėjimai atsitiktinai išsidėstę ant apskritimo, tai R^{2} būtų artimas nuliui, nors funkcinis ryšys tarp X ir Y egzistuotų.

Galima ir kita determinacijos koeficiento interpretacija. Į R^{2} galima žiūrėti kaip į kintamojo Y dispersijos dalį, kuri paaiškinama regresija. Kuo R^{2} artimesnis vienetui, tuo didesnė dispersijos dalis paaiškinama regresija, t.y. tuo geriau regresijos tiesė aprašo kintamąjį Y.

Daugialypė koreliacija

lapkričio 30, 2009

Daugialypės koreliacijos koeficientas 3-ų kintamųjų atveju, kai pirmasis kintamasis X_{1} – rezultatyvus, o du kiti X_{2} ir X_{3} – įtakojantys, randamas pagal formulę

R_{1,23}=\sqrt{\frac{r_{12}^{2}+r_{13}^{2}-2r_{23}r_{12}r_{13}}{1-r_{23}^{2}}};    (1)

čia r_{12},r_{13},r_{23} – atitinkamai kintamųjų X_{1},X_{2};X_{1},X_{3};X_{2},X_{3} Pirsono koreliacijos koeficientai.

Daugialypės koreliacijos koeficientas parodo tiesinio ryšio stiprumą tarp rezultatyvaus kintamojo ir įtakojančiųjų kintamųjų visumos. Šis koeficientas kinta intervale [0;1].

Daugialypės koreliacijos koeficiento reikšmingumas tikrinimas naudojantis vadinamąja Fišerio F kriterijaus statistika F_{f}. Kai yra du įtakojantys kintamieji, F_{f} apskaičiuojamas pagal formulę

F_{f}[2,n-3]=\frac{(n-3)R_{1,23}^{2}}{2(1-R_{1,23}^{2})}.   (2)

Gauta reikšmė lyginama su Fišerio skirstinio kritine reikšme F_{kr}[2,n-3], esant pasirinktam reikšmingumo lygmeniui bei 2 ir n-3 laisvės laipsniams. Pastaroji randama Fišerio skirstinio kritinių reikšmių lentelėje. Jei F_{f}>F_{kr}, tai sakome, kad daugialypės koreliacijos koeficientas reikšmingai skiriasi nuo nulio, esant pasirinktam reikšmingumo lygmeniui. Jei F_{f}<F_{kr}, tai hipotezė apie koreliacijos koeficiento lygybę nuliui negali būti atmesta.

Pavyzdys. Lentelėje pateikti duomenys apie 31 valstiečių ūkio pajamas (Y), gyvulių kainą ūkyje (X_{1}) bei ūkio žemės naudojimo lygį (X_{2}).

Ūkis Y X1 X2 Ūkis Y X1 X2
1 3612 178 2,1 17 3423 525 23,0
2 648 353 10,0 18 1309 146 10,0
3 1786 281 22,0 19 1731 405 13,0
4 1945 295 33,0 20 837 161 16,0
5 803 51 5,7 21 1437 570 21,0
6 513 6 6,7 22 724 287 5,9
7 828 189 12,0 23 647 6 7,2
8 706 237 12,0 24 1027 433 15,0
9 1893 413 30,0 25 1497 519 22,0
10 820 263 8,8 26 883 222 11,0
11 2035 474 9,0 27 4243 923 36,0
12 841 126 5,9 28 230 22 2,0
13 172 131 7,1 29 973 163 11,0
14 2531 131 4,4 30 541 100 4,5
15 1461 158 5,3 31 1410 380 16,0
16 2329 744 24,0

Apskaičiuojame Pirsono koreliacijos koeficientus:

r_{12} – tarp ūkio pajamų ir gyvulių kainos ūkyje;

r_{13} – tarp ūkio pajamų ir žemės naudojimo ūkyje lygio;

r_{23}  – tarp gyvulių kainos ir žemės naudojimo ūkyje lygio.

Apskaičiavę gauname : r_{12}\approx 0.62,r_{13}\approx 0.52,r_{23}\approx 0.79.

Apskaičiuosime daugialypės koreliacijos koeficientą tarp ūkio pajamų dydžio ir bendro gyvulių kainos bei žemės naudojimo lygio poveikio jam. Pasinaudosime (1) formule:

R_{1,23}=\sqrt{\frac{0.62^{2}+0.52^{2}-2\cdot 0.79\cdot 0.62\cdot 0.52}{1-0.79^{2}}}=0.622.

Patikrinsime koeficiento R_{1,23} reikšmingumą. Pasirinkime reikšmingumo lygmenį \alpha=0.05. Pagal (2) formulę apskaičiuosime Fišerio kriterijaus statistiką

F_{f}[2.28]=\frac{28\cdot 0.622^{2}}{2(1-0.622^{2})}=8.834.

Iš lentelių randame Fišerio skirstinio kritinę reikšmę F_{kr}=3.34. Taigi F_{f}>F_{kr}, todėl patvirtinama, kad tarp ūkio pajamų dydžio ir bendro gyvulių kainos bei žemės ūkio naudojimo lygio poveikio jam yra reikšmingas ryšys.

Dalinė koreliacija

lapkričio 30, 2009

Remdamiesi koreliacijos koeficientu, įvertiname tiesinį ryšį tarp dviejų kintamųjų, iš kurių vieną laikome rezultatyviu kintamuoju, o kitą – įtakojančiuoju. Bet dažnai praktiškai rezultatyvų kintamąjį veikia ne vienas, o keli požymiai. Dėl to iškyla 2-ų tipų uždaviniai:

  • kelių kintamųjų poveikio rezultatyviam kintamajam įvertinimas,
  • dviejų kintamųjų ryšio stiprumo įvertinimas, esant fiksuotoms likusių kintamųjų reikšmėms. Pirmo tipo uždaviniai sprendžiami naudojant daugialypę koreliaciją, antrojo – dalinės koreliacijos koeficientus.

Sakykime, turime 3 kintamuosius: X_{1},X_{2},X_{3}. Dviejų kintamųjų X_{1} ir X_{2} dalinės koreliacijos koeficientas, kai trečias kintamasis X_{3} yra fiksuotas, apskaičiuojamas pagal formulę

r_{12,3}=\frac{r_{12}-r_{13}r_{23}}{\sqrt{(1-r_{13}^{2})(1-r_{23}^{2})}};        (1)

čia r_{12},r_{13},r_{23} – atitinkamai kintamųjų X_{1},X_{2};X_{1},X_{3};X_{2},X_{3} Pirsono koreliacijos koeficientai.

Dalinės kintamųjų X_{1} ir X_{2} koreliacijos, eliminuojant kintamojo X_{3} poveikį, koeficientas r_{12,3} įvertina tiesinio ryšio tarp X_{1} ir X_{2} stiprumą, esant fiksuotai kintamojo X_{3} reikšmei. Dalinės koreliacijos koeficientas kinta tuose pačiuose rėžiuose kaip ir Pirsono koreliacijos koeficientas, t.y. intervale [-1;1]. Gautos koreliacijos koeficientų reikšmės interpretuojamos panašiai kaip ir Pirsono koreliacijos koeficientas.

Tačiau tam, kad galėtume daryti teisingas išvadas, reikia patikrinti hipotezę apie dalinės koreliacijos koeficientų reikšmingumą. Tikrinama hipotezė

H_{0}:r_{ij,k}=0

su alternatyva

H_{1}:r_{ij,k}\neq 0.

Apskaičiuojamas dydis

t_{f}=\frac{\left | r_{ij,k} \right |\sqrt{n-2-m}}{\sqrt{1-r_{ij,k}^{2}}};       (2)

čia r_{ij,k} – kintamųjų X_{i} ir X_{j} dalinės koreliacijos koeficientas, eliminavus kintamojo X_{k} poveikį, m – eliminuotų kinamųjų skaičius, n – stebėjimų skaičius.

Šis dydis lyginamas su Stjudento kriterijaus esant n-m-2 laisvės laipsniams ir pasirinktam reikšmingumo lygmeniui kritine reikšme t_{kr}(n-m-2). Jei t_{f}>t_{kr}, tai nulinė hipotezė atmetama, t.y. manome, kad dalinės koreliacijos koeficientas r_{ij,k} reikšmingai skiriasi nuo nulio. Jei atvirkščiai t_{f}<t_{kr}, tai sakome, kad nėra pagindo atmesti nulinę hipotezę.

Pavyzdys. Lentelėje pateikti duomenys apie 31 valstiečių ūkio pajamas (Y), gyvulių kainą ūkyje (X_{1}) bei ūkio žemės naudojimo lygį (X_{2}).

Ūkis Y X1 X2 Ūkis Y X1 X2
1 3612 178 2,1 17 3423 525 23,0
2 648 353 10,0 18 1309 146 10,0
3 1786 281 22,0 19 1731 405 13,0
4 1945 295 33,0 20 837 161 16,0
5 803 51 5,7 21 1437 570 21,0
6 513 6 6,7 22 724 287 5,9
7 828 189 12,0 23 647 6 7,2
8 706 237 12,0 24 1027 433 15,0
9 1893 413 30,0 25 1497 519 22,0
10 820 263 8,8 26 883 222 11,0
11 2035 474 9,0 27 4243 923 36,0
12 841 126 5,9 28 230 22 2,0
13 172 131 7,1 29 973 163 11,0
14 2531 131 4,4 30 541 100 4,5
15 1461 158 5,3 31 1410 380 16,0
16 2329 744 24,0

Reikia įvertinti, kuri iš šių veiklos rūšių – žemdirbystė ar gyvulininkystė – labiausiai lemia ūkio pajamų dydį. Tam tikslui apskaičiuosime Pirsono koreliacijos koeficientus:

r_{12} – tarp ūkio pajamų ir gyvulių kainos ūkyje;

r_{13} – tarp ūkio pajamų ir žemės naudojimo ūkyje lygio;

r_{23}  – tarp gyvulių kainos ir žemės naudojimo ūkyje lygio.

Apskaičiavę gauname : r_{12}\approx 0.62,r_{13}\approx 0.52,r_{23}\approx 0.79. Koeficientai r_{12}  ir r_{13} skiriasi nedaug. Tai leidžia daryti išvadą, kad nei viena, nei kita ūkininkavimo forma nėra lemianti. Tačiau ryšys tarp abiejų faktorinių požymių r_{23} yra pakankamai stiprus. Tai gali iškreipti tikrąjį ryšį tarp Y ir X_{1} bei Y ir X_{2}. To galima išvengti skaičiuojant dalinius koreliacijos koeficientus r_{12,3} ir r_{13,2} pagal (1) formulę:

r_{12,3}=\frac{0.62-0.52\cdot 0.79}{\sqrt{(1-0.52^{2})(1-0.79^{2})}}=\frac{0.2092}{\sqrt{0.2743}}\approx 0.4,

r_{13,2}=\frac{0.52-0.62\cdot 0.79}{\sqrt{(1-0.62^{2})(1-0.79^{2})}}=\frac{0.0302}{\sqrt{0.2314}}\approx 0.06.

Dalinės koreliacijos koeficientas tarp ūkio pajamų ir gyvulių kainos, esant pastoviam žemės ūkio naudojimo lygiui, yra mažesnis negu atitinkamas Pirsono koreliacijos koeficientas (0.4 vietoje o.62). Vadinasi, kintamųjų Y ir X_{1} tarpusavio ryšys iš dalies buvo sąlygojamas žemės naudojimo lygio (X_{2}).

Dalinė koreliacija tarp ūkio pajamų bei žemės naudojimo lygio yra visai maža (0.06), esant daug didesniam Pirsono koreliacijos koeficientui (0.52). Tai galima paaiškinti tuo, kad ūkio pajamų ir žemės naudojimo lygio ryšiui didelę įtaką darė antras požymis – gyvulių kaina ūkyje. Patikrinsime koeficientų r_{12,3} bei r_{13,2} reikšmingumą. Pasinaudosime (2) formule:

t_{1f}=\frac{\left | r_{12,3} \right |\sqrt{n-2-m}}{\sqrt{1-r_{12,3}^{2}}}=\frac{0.4\sqrt{31-2-1}}{\sqrt{1-0.4^{2}}}=\frac{2.117}{0.9165}\approx 2.31,

t_{2f}=\frac{\left | r_{13,2} \right |\sqrt{n-2-m}}{\sqrt{1-r_{13,2}^{2}}}=\frac{0.06\sqrt{31-2-1}}{\sqrt{1-0.06^{2}}}=\frac{0.3175}{0.9982}\approx 0.3181.

Pasirinkime reikšmingumo lygmenį \alpha =0.10. Laisvės laipsnių skaičius lygus 28. Atitinkama Stjudento t kriterijaus kritinė reikšmė lygi t_{kr}(28)=1.7. Kadangi t_{1f}>t_{kr}, hipotezė apie dalinio koreliacijos koeficiento r_{12,3} lygybę nuliui atmetama, tai tarp ūkio pajamų dydžio bei gyvulių kainos ūkyje yra ryšys.  Kadangi t_{2f}<t_{kr} hipotezės apie r_{13,2} lygybę nuliui atmesti negalima, t.y. galima daryti išvadą, kad tarp ūkio pajamų dydžio bei žemdirbystės lygio nėra tiesioginio ryšio.

Koreliacijos koeficiento paklaida

lapkričio 23, 2009

Kadangi koreliacijos koeficientas apskaičiuojamas naudojantis ne visa duomenų aibe, o tik atsitiktine tos aibės imtimi, neišvengiamai daroma tam tikra paklaida. Tai ypač aktualu mažoms imtims (n<50). Kyla klausimas, ar generalinėje visumoje koreliacijos koeficientas reikšmingai skiriasi nuo nulio, ar atvirkščiai – tik atsitiktinumo dėka buvo apskaičiuota, kad koreliacijos koeficientas nelygus nuliui (t.y. kai imtis neatspindėjo generalinės visumos savybių).

Norint patikrinti šį faktą, t.y. nulinę hipotezę

H_{0}:r=0

esant alternatyviai hipotezei

H_{1}:r\neq 0,

apskaičiuojamas dydis

t_{f}=\frac{\left | r \right |\sqrt{n-2}}{\sqrt{1-r^{2}}},    (1)

čia r – imties koreliacijos koeficientas, n – imties dydis.

Po to parenkamas reikšmingumo lygmuo \alpha. Reikšmingumo lygmuo – tai I rūšies klaidos tikimybė, t.y. tikimybė atmesti teisingą hipotezę. Paprastai šis dydis parenkamas 0,05 arba 0,01. Kai nulinė hipotezė yra teisinga, statistika t_{f} turi Stjudento skirstinį su n-2 laisvės laipsniais. Todėl sakome, kad nėra pagrindo atmesti hipotezę H_{0}, jei paskaičiuota t_{f} reikšmė yra mažesnė už Stjudento skirstinio su n-2 laisvės laipsniais ir tam tikru reikšmingumo lygmeniu kritinę reikšmę t_{kr}(n-2). Šią kritinę reikšmę galima rasti Stjudento kriterijaus kritinių reikšmių lentelėse. Jei apskaičiuota reikšmė yra didesnė už kritinę t_{kr}(n-2), tai hipotezė H_{0} yra atmetama.

Patikrinsime, ar koreliacijos koeficientas, apskaičiuotas lentelės duomenims, reikšmingai skiriasi nuo nulio.

Metai Kiemų skaičius (X) Žmonių skaičius (Y)
1648-1653 568296 4546368
1667-1673 312800 2346000
1690 378020 2835150
1717 264770 1853390
1772 604507 4836056

Pasinaudoję kokia nors statistine programa apskaičiuojame, kad r=0.99969.

Įstatę į (1) formulę r ir n reikšmes, gausime

t_{f}=\frac{0.99969\sqrt{3}}{\sqrt{1-0.99969^{2}}}\approx 69.25.

Pasirinkime \alpha=0.05. Esant šiam reikšmingumo lygmeniui ir 3 laisvės laipsniams, Stjudento kriterijaus kritinė reikšmė lygi t_{kr}(3)=3.18. Kadangi gauta t_{f} reikšmė yra didesnė už kritinę reikšmę t_{kr}, tai hipotezė H_{0} atmetama, t.y. r reikšmingai skiriasi nuo nulio.

Koreliacinė analizė. Koreliacija ir priežastingumas

lapkričio 23, 2009

Nagrinėjant koreliacinę analizę, reikia atkreipti dėmesį į keletą jos taikymo apribojimų. Pirmiausia, iš koreliacijos koeficiento negalima nustatyti koreliacijos priežasties. Du kintamieji X ir Y didelę koreliaciją gali turėti dėl trijų priežasčių:

  1. kintamasis X daro  poveikį kintamajam Y;
  2. kintamasis Y daro poveikį kintamajam X;
  3. abu kintamieji X ir Y yra veikiami kažkokio trečio kintamojo.

Todėl koreliacinės analizės metu nustatytas ryšys negali būti interpretuojamas kaip priežastingumas, o tik kaip asociacijos arba ryšio matas. Kitaip galima gauti klaidingas išvadas. Pavyzdžiui, buvo nustatytas reikšmingas koreliacinis ryšys tarp vaikų gimstamumo Europos miestuose ir gandrų skaičiaus juose. Neskubant patvirtinti mito apie vaikus ir gandrus, buvo atlikti tolesni tyrimai. Žinoma, kad gandrai krauna lizdus šalia kaminų, ant namų stogų. Iš to daroma išvada, kad ryšys tarp gandrų skaičiaus ir vaikų gimimo sąlygojamas trečio kintamojo – miesto dydžio. Kuo didesnis miestas, tuo daugiau jame kaminų ir gandrų. Kita vertus, kuo didesnis miestas, tuo daugiau jame gimsta kūdikių.

Pažymėkime kintamųjų X ir Y koreliacijos koeficientą r_{XY}. Koreliacijos koeficientas (dar vadinamas Pirsono koreliacijos koeficientu) apskaičiuojamas pagal formulę:

r_{XY}=\frac{\sum_{i=1}^{n}(X_{i}-\overline{X})(Y_{i}-\overline{Y})}{N\sigma _{X}\sigma _{Y}},    (1)

čia \overline{X},\overline{Y} – atitinkamai kintamųjų  X ir Y vidurkiai, \sigma _{X},\sigma _{Y} – jų vidutiniai kvadratiniai nuokrypiai, N – imties dydis.

Pertvarkę šią formulę, gausime kitą r_{XY} pavidalą, patogesnį naudoti praktikoje:

r_{XY}=\frac{N\sum_{i=1}^{N}X_{i}Y_{i}-\sum_{i=1}^{N}X_{i}\sum_{i=1}^{N}Y_{i}}{\sqrt{[N\sum_{i=1}^{N}X_{i}^{2}-(\sum_{i=1}^{N}X_{i})^{2}][N\sum_{i=1}^{N}Y_{i}^{2}-(\sum_{i=1}^{N}Y_{i})^{2}]}}            (2)

Koreliacijos koeficiento reikšmės priklauso intervalui [-1;1]. Kuo didesnė koreliacijos koeficiento absoliuti reikšmė (t.y. kuo jis artimesnis 1 arba -1), tuo stipresnis tiesinis ryšys tarp kintamųjų. Suprantama, kai r_{XY} yra teigiamas, kintamieji X ir Y yra teigiamai koreliuoti, o kai r_{XY} yra neigiamas – neigiamai koreliuoti. Remdamiesi lentelės duomenimis, apskaičiuosime koreliacijos koeficientą tarp užsiėmimų trukmės (X) ir gautų pažymių vidurkio (Y).

Stebėjimas 1 2 3 4 5 6 7 8 9
Užsiėmimų trukmė (min.) 10 20 30 30 50 0 40 30 60
Pažymio vidurkis 5 6 8 7 10 5 9 9 10

Pirmiausia apskaičiuosime sumas

\sum_{i=1}^{N}X_{i}=10+20+30+30+50+0+40+30+60=270,

\sum_{i=1}^{N}Y_{i}=5+6+8+7+10+5+9+9+10=69,

\sum_{i=1}^{N}X_{i}^{2}=100+400+900+900+2500+1600+900+3600=10900

\sum_{i=1}^{N}Y_{i}^{2}=25+36+64+49+100+25+81+81+100=561

\sum_{i=1}^{N}X_{i}Y_{i}=5*10+6*20+8*30+7*30+10*50+9*40+9*30+10*60=2350.

Dabar gautas skaitines reikšmes įstatę į (2) fornulę, gausime

r_{XY}=\frac{9*2350-270*69}{\sqrt{[9*10900-270^{2}][9*561-69^{2}]}}=0.9354.

Matome, kad tarp užsiėmimų trukmės ir gautų pažymių yra gana stiprus teigiamas ryšys.

Ranginės koreliacijos koeficientų reikšmingumas

lapkričio 19, 2009

Panašiai kaip ir Pearsono, ranginės koreliacijos koeficientai apskaičiuojami naudojant tik imtį iš generalinės visumos, o ne visą visumą, todėl reikia patikrinti hipotezę apie jų reikšmingumą, t.y. hipotezę

H_{0}:\, \rho =0

esant alternatyviai hipotezei

H_{0}:\, \rho \neq 0.

Tarkime, kad imtis pakankamai didelė (n>20). Spearmano koreliacijos koeficiento reikšmingumui patikrinti reikia apskaičiuoti statistiką

t_{p}=\frac{\rho }{\sqrt{n-1}}

ir palyginti ją su normaliojo skirstinio kvantiliu t_{kr}, atitinkančiu iš anksto pasirinktą reikšmingumo lygmenį \alpha . Šis kvantilis randamas iš normaliojo skirstinio lentelių. Jei t_{p}>t_{kr}, tai hipotezė, kad koeficientas \rho reikšmingai skiriasi nuo nulio, atmetama. Jei t_{p}<t_{kr}, sakysime, kad nėra pagrindo nulinę hipotezę atmesti.

Kendallo \tau koeficiento reikšmingumui patikrinti, kai n>20, ta pati procedūra atliekama surandant  statistiką

t_{t}=\frac{S^{+}-S^{-}}{\sqrt{n(n-1)(2n+5)/18}}.

Kai stebėjimų yra nedaug (n<20), koreliacijos koeficientų reikšmingumas tikrinamas pagal specialias lenteles, naudojant kitus, sudėtingesnius statistinius kriterijus.

Ranginės koreliacijos koeficientai gali būti taikomi ryšio stiprumui įvertinti tarp dviejų ranginių kintamųjų, tarp ranginio ir kiekybinio kintamojo, tam tikrais atvejais gali būti naudojami ir kaip dviejų kiekybinių kintamųjų ryšio matai. Tais atvejais, kai kiekybinio kintamojo skirstinys labai skiriasi nuo normaliojo, kai jis įgyja nedaug reikšmių arba kai ryšys tarp kiekybinių kintamųjų nėra tiesinis, tikslinga taikyti ranginės koreliacijos koeficientus.

 

Ranginių kintamųjų sąryšio matai

lapkričio 19, 2009

Ranginiais vadinami kokybiniai kintamieji, įgyjantys tarpusavyje palyginamas reikšmes, t.y. tokias, kurios gali  būti sunumeruotos. Tačiau negalima kiekybiškai išmatuoti, kiek viena reikšmė skiriasi nuo kitos. Pavyzdžiui, luomo kintamasis įgyja reikšmes: dvarininkas, pirklys, miestietis, valstietis. Juos atitinkamai sunumeruosime: 1,2,3,4. Kuo didesnis rangas (numeris), tuo žemesniam luomui priklauso žmogus.

Dviejų ranginių kintamųjų ryšio matas vadinamas rangine koreliacija. Sakykime turime dvi rangų sekas. Ranginės koreliacijos koeficientas \tau turi tenkinti tokias savybes:

  1. Jeigu kiekvienas stebėjimas abiejose sekose turi tą patį rangą (arba numerį), tai ranginės koreliacijos koeficientas lygus +1; yra pilnoji teigiama koreliacija.
  2. Jeigu vienoje sekoje stebėjimai išdėstyti priešingai negu kitoje, ranginės koreliacijos koeficientas lygus -1; yra pilnoji neigiama koreliacija.
  3. Visais kitais atvejais \tau \in (-1,1).

Išnagrinėsime du ranginės koreliacijos koeficientus: Spearmano \rho ir Kendallo \tau. Ranginės koreliacijos koeficientas \rho apskaičiuojamas pagal formulę:

\rho =1-\frac{6\sum_{i=1}^{n}d_{i}^{2}}{n(n^{2}-1)};                                   (1)

čia d_{i} – i-ojo stebėjimo rangų skirtumas, n – rangų porų skaičius (objektų skaičius).

Apskaičiuosime Spearmano koeficientą \rho lentelėje pateiktiems duomenims apie metinių pajamų ir luomo tarpusavio priklausomybę.

Luomas Metinės pajamos Rangai Si+ Si- di di2
I II
Dvarininkai 500 1 2 2 1 -1 1
Pirkliai 550 2 1 2 0 1 1
Miestiečiai 200 3 3 1 0 0 0
Valstiečiai 50 4 4 0 0 0 0

 

Trečiame stulpelyje pateikti rangai pagal luomą, o ketvirtame – pagal metinių pajamų dydį. Tada

\rho =1-\frac{6*2}{4(4^{2}-1)}=0.8

Kendallo \tau ranginės koreliacijos koeficientas apskaičiuojamas pagal formulę:

\tau =\frac{S^{+}-S^{-}}{\frac{1}{2}n(n-1)}=\frac{S}{\frac{1}{2}n(n-1)};                            (2)

čia

S^{+}=\sum_{i=1}^{n}S_{i}^{+},                             (3)

S^{-}=\sum_{i=1}^{n}S_{i}^{-}                                 (4)

Dydžių S^{+} ir S^{-} prasmę paaiškinsime konkrečiu pavyzdžiu. Remdamiesi lentelės duomenimis apskaičiuosime koeficientą \tau. Tam, kad galėtume apskaičiuoti S, rangai pagal I kintamąjį (luomą) turi būti išdėstyti didėjančia tvarka (mūsų atveju taip ir yra). Dabar nagrinėsime rangų stulpelį pagal II kintamąjį (metines pajamas). Pirmoje eilutėje šis rangas lygus 2. Iš žemesnėse eilutėse esančių rangų 2 viršija šį skaičių (rangai 3 ir 4) ir 1 yra mažesnis už jį (rangas 1). Todėl atitinkamai S^{+} reikšmė lygi 2, o S^{-} reikšmė lygi 1. Antroje eilutėje rangas pagal II kintamąjį lygus 1. Abu likusieji rangai yra didesni už 1 ir, aišku, nėra nė vieno, mažesnio už 1. Todėl S^{+} lygus 2, 0 S^{-} lygus 0. Analogiškai randamos ir kitos S^{+} ir S^{-} reikšmės.  Naudodamiesi (1), (2) ir  (3) formulėmis, gausime:

S^{+}=5,

S^{-}=1,

\tau = \frac{5-1}{\frac{1}{2}4(4-1)}=0.67.

Taigi Kendallo koreliacijos koeficientas yra mažesnis už Spearmano. Reikia pastebėti, kad \tau visuomet būna mažesnis už \rho. Praktiškai daug lengviau apskaičiuoti koeficientą \rho negu \tau.

 

 


Follow

Get every new post delivered to your Inbox.