gruodžio, 2009 archyvas

Kanoninės diskriminantinės funkcijos radimas

gruodžio 11, 2009

Aprašysime lygties

L=f_{im}=u_{0}+u_{1}x_{1im}+u_{2}x_{2im}+..+u_{p}x_{pim}  (1)

koeficientų u_{q} radimo eigą. Tiek klasterinėje, tiek diskriminantinėje analizėje viena iš fundamentaliausių yra atstumo tarp stebėjimų ir grupių sąvoka. Metodas, kurį nagrinėsime, pagrįstas kovariacinės matricos savybe atspindėti taškų išsibarstymą pagal atskirus kintamuosius. Panagrinėkime matricą R=\left ( r_{sq} \right )_{s,q=1}^{p}; čia: r_{sq}=\sum_{i=1}^{k}\sum_{m=1}^{n_{i}}(x_{sim}-x_{s..})(x_{qim}-x_{q..}), x_{s..}- s-ojo kintamojo bendrasis vidurkis (visose grupėse). Pastebėsime, kad \frac{r_{sq}}{(n-1)} yra kovariacijos tarp s-ojo ir q-ojo kintamųjų koeficientas. Reiškiniai skliausteliuose yra kintamųjų reikšmių nuokrypiai nuo bendrojo vidurkio. Įstrižainės elementai yra kvadratinių nuokrypių sumos, o kai s\neq q , turime nuokrypių pagal du skirtingus kintamuosius sandaugų sumas – šis dydis yra kintamųjų reikšmių suderinamumo matas ta prasme, kad parodo, kaip gerai didelis nuokrypis pagal vieną kintamąjį atitinka didelį nuokrypį pagal kitą kintamąjį. Analizuodami visą matricą R, gausime pilną informaciją apie stebėjimų pasiskirstymą kintamųjų erdvėje.

Sudarykime analogišką matricą W, charakterizuojančią nuokrypius grupių viduje:

w_{sq}=\sum_{i=1}^{k}\sum_{m=1}^{n_{i}}(x_{sim}-x_{si.})(x_{qim}-x_{qi.});

čia x_{si.} -s-ojo kintamojo vidurkis i-oje grupėje. Jeigu grupės yra pakankamai gerai atskiriamos, stebėjimų išsibarstymas grupės viduje yra mažesnis už bendrą išsibarstymą; kartu – matricos W elementai mažesni už atitinkamus matricos R elementus. Tegul B=R-W, t.y b_{sq}=r_{sq}-w_{sq}. Tai jau yra matas, tinkantis vertinti atstumą tarp grupių. Lygčių sistemos

\sum b_{1q}v_{q}=\lambda \sum w_{1q}v_{q},

………………………                                                (2)

\sum b_{pq}v_{q}=\lambda \sum w_{pq}v_{q}

sprendinys (\lambda, v_{1},...,v_{p}) tenkina (1) sąryšį; čia \lambda yra tikrinė reikšmė. Atlikę transformaciją

u_{q}=v_{q}\sqrt{n-k}, u_{0}=-\sum_{q=1}^{p}u_{q}x_{q}..,         (3)

gausime standartizuotus koeficientus u_{q}, taip pat tenkinančius (1) lygtį. (2) lygčių sistema maksimaliai turi z netrivialių sprendinių (kartu egzistuoja z tikrinių reikšmių \lambda), kurių kiekvienas atitinka vieną diskriminantinę funkciją. Pastebėsime, kad (3) koeficientų transformacija naudojama tam, kad naujoji koordinačių sistema būtų natūralesnė, t.y. jos pradžia sutaptų su pagrindiniu centroidu, matavimo vienetai sutaptų su atitinkamos diskriminantinės funkcijos visų stebėjimų reikšmių standartinio kvadratinio nuokrypio vienetais. Kiekviena ašis “ištempiama” arba “suspaudžiama” taip, kad atitinkama stebėjimo diskriminantinė reikšmė būtų lygi taško atstumui nuo pagrindinio centroido, išreikštam standartiniais nuokrypiais. Pavyzdžiui, reikšmė -2,5 reiškia, kad stebėjimas du su puse kvadratinio nuokrypio atstumu yra nutolęs nuo pagrindinio centroido priešinga diskriminantiniai ašiai kryptimi.

Tokiu būdu įvedame naują kanonių diskriminantinių funkcijų šeimos apibrėžtą, (k-1)-matę diskriminantinę erdvę.

Kanoninės diskriminantinės funkcijos

gruodžio 9, 2009

Esant patenkintoms minėtoms (mano post’e “Diskriminantinės analizės prielaidos”) prielaidoms, diskriminantinės analizės tikslams pasiekti dažnai yra naudojama kanoninė diskriminantinė funkcija (k.d.f.), tiksliau, keletas jų – tiesinė diskriminantinių kintamųjų kombinacija:

L=f_{im}=u_{0}+u_{1}x_{1im}+u_{2}x_{2im}+...+u_{p}x_{1pim}; (1)

čia f_{im} -m-ojo stebėjimo klasėje k.d.f. reikšmė, x_{qim}- m-ojo stebėjimo i-oje grupėje q-ojo diskriminantinio kintamojo x_{q} reikšmė, o u_{q} – koeficientai, tenkinantys tam tikras sąlygas. Būtent jie turi būti tokie, kad funkcijos L vidurkinės reikšmės atskirose grupėse tarpusavyje maksimaliai skirtųsi. Tai pirmoji k.d.f. L=L_{1}. Antrosios k.d.f. L_{2} koeficientai parenkami analogiškai – jos vidurkinės reikšmės turi maksimaliai skirtis grupėse ir,  be to, antrosios funkcijos reikšmės neturi koreliuoti su pirmosios funkcijos reikšmėmis. Trečioji funkcija L_{3} turi būti nekoreliuota su pirmomis dviem ir t.t. Maksimalus k.d.f. skaičius z lygus mažesniajam iš dviejų – grupių skaičiaus be vieneto ir diskriminantinių kintamųjų skaičiaus:

z=min{k-1;p}.   (2)

Geometrinė interpretacija. Tegul p diskriminantinių kintamųjų apibrėžia p-matės euklidinės erdvės ašis. Kiekvienas stebėjimas šioje erdvėje gali būti pavaizduotas tašku (jo koordinates atitiks stebėjimo kintamųjų reikšmės). Pavaizdavę visus turimus stebėjimus, gausime tam tikrą taškų p-matėje erdvėje konfigūraciją. Jeigu nagrinėjamos grupės yra atskiriamos diskriminantinių kintamųjų atžvilgiu (2 prielaida), taškai išsidėlios atskirais “debesėliais”. Jie gali būti visiškai atskiriami arba jų “teritorijos” gali iš dalies persikirsti. Grupių padėtims apibrėžti patogu rasti jų centroidus – taškus, kurių koordinatės lygios vidutinėmis kintamųjų reišmėms tose grupėse. Naujų stebėjimų grupavimo diskriminantinė taisyklė iš pirmo žvilgsnio atrodytų gana paprasta ir natūrali: stebėjimą reikia priskirti tai grupei, kurios centroidas yra artimiausias šiam stebėjimui.

Tačiau tokią procedūrą atlikti pradinėje p-matėje erdvėje, ypač kai p didelis, yra labai sunku. Pasirodo, centroidams ir grupėms atskirti pakanka apsiriboti mažesnio – būtent k-1 – matavimo erdve. Tai plaukia iš tokio fakto, kad k taškų (centroidų), atitinkančių k grupių, apibrėžia k-1 matavimo erdvę, t.y. dviem klasėms atskirti pakanka tiesės, trims – plokštumos, keturioms – trimatės erdvės ir t.t. Todėl maksimalus k.d.f. skaičius yra nustatomas pagal (2) formulę.

Tokioje centroidų apibrėžtoje (k-1) – matėje erdvėje egzistuoja be galo daug galimų koordinačių sistemų (koordinačių ašių padėčių). Mums reikia parinkti vieną fiksuotą. Tegul koordinačių pradžia sutampa su pagrindiniu centroidu- tašku, kurio koordinatės pradinėje p-matėje erdvėje lygios visų stebėjimų vidurkiams pagal kiekvieną kintamąjį. Toliau reikia nustatyti ašių kryptis. Pirmąją ašį nukreipiame tokia kryptimi, kad vidurkinės stebėjimų projekcijų į tą ašį reikšmės grupėse skirtųsi labiausiai. Antrąją ašį brėžkime hiperplokštumoje, statmenoje pirmajai ašiai, vėl maksimizuodami skirtumus tarp projekcijų vidurkių grupėse. Ir taip toliau.

Ką tik aprašytas procesas analiziškai atitinka (1) lygtį – tai ir yra pradinių diskriminantinių kintamųjų apibrėžtos p-matės erdvės pervedimas į (k-1)-matę kanoninių diskriminantinių funkcijų apibrėžtą erdvę. Kiekvieną k.d.f. atitinka sava (1) išraiška, t.y. gauname k.d.f. šeimą {L_{1}, L_{2},…,L_{k-1}}. Pastebėsime, kad tuo atveju, kai z=p<k-1, erdvės matavimas išlieka toks pats (p); tik koordinačių sistema pakeičiama tokia, kurioje grupės yra labiausiai atskiriamos.

Panašumo matai klasterinėje analizėje

gruodžio 9, 2009

Sakykime, kad jau turime atsitiktinę stebėjimų (objektų) imtį ir norime juos suklasifikuoti pagal pasirinktus p kintamųjų. Kaip ir kituose daugiamatės matematinės statistikos metoduose, taip ir klasterinėje analizėje patogu stebėjimus įsivaizduoti p kintamųjų generuotos p-matės erdvės taškais. Kiekvieno taško koordinatės – tai tam tikro stebėjimo atitinkamų kintamųjų reikšmės. Du stebėjimai laikomi identiškais, arba tapačiais, jeigu jie atitinka tą patį erdvės tašką (visos jų koordinatės sutampa). Klasterizacijos tikslas – panašius stebėjimus (arba juos atitinkančius artimus taškus) sujungti į klasterius. Todėl vienas iš esminių klasterinės analizės etapų – pasirinkti stebėjimų panašumo matą (arba atstumo tarp atitinkamų taškų matą). Susipažinsime su pagrindiniais panašumo matais. Yra keturios jų grupės:

1) koreliacijos koeficientai,

2) metriniai atstumo matai,

3) asociatyvumo koeficientai,

4) tikimybiniai panašumo matai.

Pakalbėsime plačiau apie pirmų dviejų grupių matus  (jie dažniau naudojami socialiniuose moksluose).

Koreliacijos koeficientas, šiaip jau žinomas kaip kintamųjų priklausomumo matas, kartais panaudojamas siekiant įvertinti stebėjimų panašumą. Tada jis skaičiuojamas šitaip:

r_{x,y}=\frac{\sum_{q=1}^{p}(x_{q}-\overline{x})(y_{q}-\overline{y})}{\sqrt{\sum_{q=1}^{p}(x_{q}-\overline{x})^{2}\sum_{q=1}^{p}(y_{q}-\overline{y})^{2}}};  (1)

čia: x_{q} – stebėjimo x q-ojo kintamojo reikšmė, \overline{x} – stebėjimo x visų kintamųjų vidurkio reikšmė, p – kintamųjų skaičius. (1) formulė tinka tolydiems arba ranginiams duomenims. Binariųjų duomenų atveju (1) pakeičiama kontingencijos koeficiento \varphi analogu.

Koreliacijos keoficientas turi keletą pranašumų bei trūkumų. Visų pirma jis neturi aiškios statistinės prasmės, nes vidurkis skaičiuojamas pagal įvairius kintamuosius, o ne pagal stebėjimų aibę. Jis nejautrus kintamųjų reikšmių išsibarstymui bei poslinkiui, tačiau jautrus vadinamajai kintamųjų reikšmių profilio formai. (Profilis – tai objekto kintamųjų reikšmių grafinis vaizdavimas laužtės pavidalu). Kai kuriais atvejais tai yra koreliacijos koeficiento pranašumas, o kai kuriais – trūkumas. Neigiama koreliacijos koeficiento savybė yra ta, kad jis nėra metrika. Priminsime, kad metrika – tai skaitinė neneigiama dviejų objektų x ir y funkcija d, tenkinanti sąlygas:

1) simetriškumo: d(x,y)=d(y,x);

2) trikampio nelygybės: d(x,y)<=d(x,z)+d(y,z);

3) netapačių objektų atskiriamumo: jei x\neq y, tai d(x,y)\neq 0;

4) tapačių objektų neatskiriamumo: jei d(x,y)=0, tai x ir y identiški.

Nesunku pastebėti, jos (1) koreliacijos koeficientas netenkina trikampio nelygybės. Dėl minėtų ir kai kurių kitų koreliacijos koeficiento trūkumų labiau naudojami 2) grupės matai. Pastaruosius tikslingiau būtų vadinti ne panašumo,o skirtingumo matais, nes jie, priešingai negu koreliacijos koeficientas, artimiems (panašiems) objektams įgyja mažas, o tolimiems (nepanašiems) – dideles reikšmes. Be to, paprastai jie nėra aprėžti iš viršaus. (Primename, kad koreliacijos koeficiento absoliutusis didumas neviršija vieneto). Viena iš labiausiai populiarių metrikų yra euklidinė:

d(x,y)=\sqrt{\sum_{q=1}^{p}(x_{q}-y_{q})^{2}}.

Ji yra atsikiras Minkovskio metrikų atvejis

d(x,y)=\left ( \sum_{q=1}^{p}\left | x_{q}-y_{q} \right |^{r} \right )^{\frac{1}{r}}, r\geq 1.

Itin dažnai naudojamas Mahalanobiso atstumas (kuris, beje, labai populiarus diskriminantinėje analizėje)

d(x,y)={(x-y)}'V^{-1}(x-y);

čia V – bendroji arba klasės vidinė kovariacinė matrica. Skirtingai nuo euklidinės bei Minkovskio metrikų, pastaroji susijusi su kintamųjų koreliacijomis. Kai koreliacija lygi nuliui, Mahalanobiso atstumas sutampa su euklidinio atstumo kvadratu.

Tiesa, ir metrikos turi minusų. Vienas iš svarbiausių yra tai, kad panašumo įvertis labai priklauso nuo kintamųjų matavimo skalių. Kintamieji, įgyjantys dideles absoliučias reikšmes ir didelius standartinius nuokrypius, gali nustelbti kintamųjų su atitinkamai mažesnėmis reikšmėmis įtaką. Kaip jau minėjome, išvengti šio efekto galima iš anskto normuojant kintamųjų reikšmes.

Determinacijos koeficientas

gruodžio 9, 2009

Panašiai kaip ir koreliacijos, determinacijos koeficientas yra atsitiktinių dydžių tiesinio ryšio matas. Jis žymimas R^{2} ir vadinamas R kvadratu. Pažymėsime, kad vieno nepriklausomo kintamojo modelyje determinacijos koeficientas lygus Pirsono koreliacijos tarp priklausomo ir nepriklausomo kintamųjų koeficiento r kvadratui. Kitaip sakant, priklausomybė tarp koreliacijos koeficiento ir determinacijos koeficiento apibrėžiama formule r=\sqrt{R^{2}}; čia R^{2} – determinacijos koeficientas. Regresinio modelio determinacijos koeficientas apskaičiuojamas pagal formulę

R^{2}=1-\frac{\sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2}}{\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}};   (1)

čia \widehat{Y_{i}} – kintamojo Y įvertinimai, apskaičiuoti iš regresijos lygties, \overline{Y} yra kintamojo Y vidurkis, n-imties dydis.

Išraiška \sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2} atspindi kintamojo Y reikšmių išsibarstymą apie regresijos tiesę, o išraiška \sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2} – apie jo vidurkį.

Panagrinėkime keletą pavyzdžių. Įsitikinsime, kad R^{2} iš tikrųjų yra kintamųjų tiesinio ryšio matas. Tiesinės funkcinės priklausomybės tarp kintamųjų X ir Y pavyzdys pateiktas lentelėje.

Stebėjimas X Y
1 1 4
2 2 8
3 3 12
4 4 16
5 5 20
6 6 24
7 7 28
8 8 32

Aišku, kad regresijos tiesės formulė turėtų būti \widehat{Y}=4\cdot X ir visi stebėjimai išdėstyti toje tiesėje. Todėl \sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2}=0. Dabar apskaičiuosime išraiškos \sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2} reikšmę:

\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}=(4-18)^{2}+(8-18)^{2}+(12-18)^{2}+..+(32-18)^{2}=672.

Įstatę gautas reikšmes į (1) formulę, gausime

R^{2}=1-\frac{\sum_{i=1}^{n}(Y_{i}-\widehat{Y_{i}})^{2}}{\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}}=1-0=1.

Taigi R^{2}=1. Taip gali būt tik tuo atveju, kai stebėjimai išsidėstę regresijos tiesėje, t.y. kai tarp X ir Y yra tiesinė priklausomybė.

Kitas kraštutinis atvejis, kai stebėjimai išsidėstę vienodu atstumu į abi puses nuo regresijos tiesės. Šio pavyzdžio duomenys pateikti lentelėje:

Stebėjimas X Y
1 1 6
2 1 12
3 3 6
4 3 12
5 5 6
6 5 12
7 7 6
8 7 12

Apskaičiuosime kintamojo Y vidurkį:

\overline{Y}=\frac{\sum Y}{n}=\frac{72}{8}=9.

Mažiausių kvadratų metodu rasta regresijos lygtis yra \widehat{Y}=9. Paskaičiuosme išraiškos \sum (Y-\widehat{Y})^{2} reikšmę:

\sum (Y-\widehat{Y})^{2}=(6-9)^{2}+(12-9)^{2}+(6-9)^{2}+...+(12-9)^{2}=72.

Kadangi \overline{Y}=9 (taip pat kaip ir \widehat{Y}=9), nesunku pastebėti, kad \sum (Y-\overline{Y})^{2}=72. Pasinaudoję (1) formule, gausime, kad determinacijos koeficientas R^{2} lygus nuliui:

R^{2}=1-\frac{\sum (Y-\widehat{Y})^{2}}{\sum (Y_{i}-\overline{Y})^{2}}=1-\frac{72}{72}=0.

Determinacijos koeficientas R^{2} lygus nuliui, kai tarp kintamųjų nėra tiesinio ryšio. Koeficiento R^{2} reikšmė priklauso intervalui [0,1]. Kuo ji artimesnė vienetui, tuo stipresnis tiesinis ryšys tarp X ir Y, ir atvirkščiai, kuo ji artimesnė nuliui, tuo ryšys tarp X ir Y silpnesnis. Tačiau dar kartą atkreipkime dėmesį į tai, kad R^{2}, kaip ir Pirsono koreliacijos koeficientas, aprašo tik kintamųjų tiesinio ryšio stiprumą. Jeigu tarp X ir Y būtų kitokio pobūdžio ryšys, pavyzdžiui, stebėjimai atsitiktinai išsidėstę ant apskritimo, tai R^{2} būtų artimas nuliui, nors funkcinis ryšys tarp X ir Y egzistuotų.

Galima ir kita determinacijos koeficiento interpretacija. Į R^{2} galima žiūrėti kaip į kintamojo Y dispersijos dalį, kuri paaiškinama regresija. Kuo R^{2} artimesnis vienetui, tuo didesnė dispersijos dalis paaiškinama regresija, t.y. tuo geriau regresijos tiesė aprašo kintamąjį Y.


Follow

Gaukite kiekvieną naują įrašą į savo dėžutę.