Diskriminantinės analizės prielaidos

lapkričio 12, 2009

Norint pasinaudoti diskriminantine analize, reikia, kad būtų tenkinamos tam tikros sąlygos. Pagrindinės iš jų:

  1. Stebėjimai (objektai) turi priklausyti tik vienai iš nagrinėjamų grupių (klasių), t.y. grupės turi būti nesikertančios.
  2. Nagrinėjamos grupės turi būti atskiriamos pagal diskriminantinius kintamuosius, t.y. pastarieji tose grupėse turi įgyti pakankamai skirtingas reikšmes.
  3. Stebėjimų skaičius bent 2 vienetais turi viršyti diskriminantinių kintamųjų skaičių.
  4. Nė vienas diskriminantinis kintamasis negali būti kitų kintamųjų tiesinė kombinacija. Todėl negalima tuo pat metu naudoti keleto diskriminantinių kintamųjų sumos arba jų aritmetinio vidurkio kartu su tais kintamaisiais, taip pat nepatartina naudoti vienu metu kintamųjų, kurių koreliacijos koeficientas artimas vienetui.
  5. Daugumai diskriminantinės analizės metodų generalinės aibės grupių kovariacinės matricos laikomos tarpusavyje lygiomis.
  6. Kiekvienas diskriminantinis kintamasis kiekvienoje klasėje yra normaliai pasiskirstęs arba jo skirstinys yra artimas normaliajam.

Labiausiai griežtos ir ne visada praktiškai patenkintos yra 5 bei 6 sąlygos. Tiesa, dauguma diskriminantinės analizės metodų yra gana stabilūs ir nedideli nuokrypiai nuo minėtų reikalavimų yra leistini. Normališkumo prielaida labiausiai reikalinga rezultatų statistiniam patikimumui patikrinti įvairiais testais. Kita vertus, egzistuoja patikimumo kriterijai, nepriklausantys nuo pasiskirstymo dėsnio, ir normališkumo sąlygos netenkinimo atvejais patartina naudotis būtent jais. Esant itin dideliems nuokrypiams nuo normalaus skirstinio, geriausia alternatyva diskriminantinei analizei yra logistinė regresija, dispersinė analizė arba kai kurie neparametriniai metodai.

Beje, prieš atliekant diskriminantinę analizę, visada pravartu pasinaudoti dispersine, parodančia, kurie diskriminantiniai kintamieji statistiškai patikimai skiriasi grupėse, o kurie – ne. Jei kintamasis grupėse nesiskiria, tai reiškia, kad jis nėra informatyvus stebėjimų į grupes skirstymo požiūriu – gali nebūti prasmės įtraukti jį į diskriminantinę analizę.

Taigi, diskriminantinės analizės uždavinys – remiantis pradine individų klasifikacija sudaryti taisyklę, leidžiančią individą priskirti vienai iš keleto populiacijų (klasių, grupių), t.y. klasifikuoti individus. O tai manau yra labai svarbu statistikoje, todėl žinoti kas aplamai yra ta diskriminantinė analizė ir kada ją galima naudoti yra pravartu ir naudinga.

Diskriminantinė analizė

lapkričio 11, 2009

Diskriminantinė analizė- tai matematinės statistikos metodas, analizuojantis skirtumus tarp dviejų ar daugiau stebėjimų (objektų) grupių (klasių) ir padedantis rasti taisyklę kaip, atsižvelgiant į keleto kiekybinių (diskriminantinių) kintamųjų reikšmes, priskirti naują stebėjimą (objektą) tai ar kitai grupei (klasei). Su tokio tipo uždaviniais susiduriame gan dažnai. Tai ir gyventojų priskyrimas vienam ar kitam luomui, rasei, tautai; valstybės socialinės – ekonominės santvarkos įvardijimas ir pan. Diskriminantinė analizė dažnai taikoma archeologijoje. Pavyzdžiui, tyrinėjant kapavietes, pagal išlikusių kaulų matmenis ji padeda išaiškinti, kuriai lyčiai priklauso rasti palaikai.

Diskriminantinės analizės nereikia painioti su klasterine analize. Nors tiek vienur, tiek kitur stebėjimai skirstomi į grupes, tačiau klasterizacijos procese iš anksto nieko nežinome apie grupių struktūrą, tuo tarpu diskriminantinėje analizėje turime vadinamąją mokymo imtį, kurioje yra žinomas stebėjimų priklausomumas grupėms.

Diskriminantinės analizės tikslas yra panašus į regresinės analizės. Čia taip pat kaip ir pastarojoje rūpi: pirma, išsiaiškinti, nuo kurių (diskriminantinių) kintamųjų priklauso mus dominantis grupės kintamasis, antra, priklausomai nuo diskriminantinių kintamųjų reikšmių numatyti grupės kintamojo reikšmes. Skirtumas yra tas, kad regresinėje analizėje priklausomas kintamasis paprastai yra tolydus, o diskriminantinėje – kategorinis.

Rangų sumų kriterijai

lapkričio 6, 2009

Dažnai tenka tikrinti hipotezes apie tai, kad kintamojo vidurkiai keliose populiacijose yra lygūs. Jeigu šis kintamasis populiacijoje yra pasiskirstęs pagal normalųjį dėsnį su vienodomis dispersijomis, tai galima taikyti dispersinę analizę (ANOVA) šiai hipotezei tikrinti. Tačiau kai sąlygos apie normališkumą arba dispersijų sutapimą nėra patenkintos, naudojami neparametriniai kriterijai. Dviem populiacijoms, naudojamas Manno-Whitney kriterijus, o kai populiacijų yra daugiau nei dvi – Kruskallo-Walliso kriterijus. Šie kriterijai tikrina hipotezę, ar sutampa kintamojo vidurkiai imtyse iš kelių populiacijų, be to, ar imtys paimtos iš tos pačios populiacijos.

Manno- Whitney kriterijus. Tarkime, turime dvi imtis. Pažymėkime:

n1 – pirmos imties narių skaičių,

n2 – antros imties narių skaičių,

R1 – pirmos imties narių rangų sumą,

R2 – antros imties narių rangų sumą.

Čia n1 ir n2 nebūtinai turi sutapti. Hipotezei apie skirstinių sutapimą dvejose populiacijose tikrinti naudojama statistika U

U=n_{1}n_{2}+\frac{n_{1}(n_{1}+1)}{2}-R_{1}                 (1)

Tarkime reikšmingumo lygmuo yra \alpha , tada iš lentelių randame n1 ir n2 atitinkančias dvipusio kriterijaus kritines reikšmes. Jeigu U ne mažesnis už didesniąją reikšmę arba U ne didesnis už mažesniąją reikšmę, tai nulinė hipotezę apie skirstinių vienodumą atmetama. Priešingu atveju H0 neatmetama.

Jeigu nulinė hipotezė, kad visi n1+n2 stebėjimai turi tą patį skirstinį, yra teisinga, tai statistika U turi normalųjį skirstinį su vidurkiu

\mu _{U}=\frac{n_{1}n_{2}}{2}

ir standartiniu nuokrypiu

\sigma =\sqrt{\frac{n_{1}n_{2}(n_{1}+n_{2}+1)}{12}}

Kartais, kai imčių didumas labai skiriasi ir n1 daug didesnis už n2, nepatogu statistikos U reikšmę skaičiuoti pagal (1) formulę. Tuomet patogesnė yra kita formulė:

U'=n_{1}n_{2}+\frac{n_{2}(n_{2}+1)}{2}-R_{2}              (2)

Skaičiuojant pagal (2) formulę, rezultatas bus tas pats, kaip ir pagal (1).

Kruskallo-Walliso kriterijus. Tai apibendrintas Manno-Whitney kriterijaus atvejis didesniam negu 2 imčių skaičiui. Pažymėkime:

n_{j} – j-osios imties narių skaičių,

R_{j} – j-osios imties narių rangų sumą,

k-imčių skaičių,

n=n1+n2+..nk – bendrą visų imčių stebėjimų skaičių.

Statistika, naudojama tikrinant hipotezę apie tai, kad visos imtys yra iš visumų, kuriose tiriamas kintamasis turi tą patį vidurkį (skirstinį), apskaičiuojama taip:

K=\frac{12}{n(n+1)}\sum_{j=1}^{k}\frac{R_{j}}{n_{j}}-3(n+1)

Kai hipotezė yra teisinga, statistika K turi apytiksliai \chi ^{2} skirstinį su k-1 laisvės laipsnių. Tačiau norint taikyti Kruskallo-Walliso kriterijų, reikia, kad visų imčių didumas būtų ne mažesnis už 5. \chi ^{2} kriterijaus esant įvairiems reikšmingumo lygmenims kritinės reikšmės randamos iš lentelių.

Pavyzdys. Mokykloje pamokos vyksta rytais ir popiet. Atsitiktinai parinkus 7 mokinius, lankiusius mokyklą rytais, jų semestro vidurkiai buvo – 9,3; 6,4; 7,4; 8; 9,7; 5,8; 8,3. O atsitiktinai parinkus 5 popiet besimokančiuosius, jų vidurkiai buvo – 6,7; 8,4; 8,7;9,2;7,7. Ar paros laikas turėjo įtakos mokymosi rezultatui? (alpha=0,05).

Sprendimas. Tarkime, X yra ryte besimokančių vidurkiai, o Y – popietinės grupės vidurkiai. Hipotezė:

\left\{\begin{matrix}H_{0}: X\, ir\, Y\, skirstiniai\, vienodi,\\ H_{1}:X\, ir\,Y\, skirstiniai\, nevienodi\end{matrix}\right.

Variacinė eilutė 5,8  6,4  6,7  7,4 7,7 8  8,3 8,4  8,7  9,2  9,3  9,7
Imtis 1     1     2     1     2   1    1    2     2     2     1     1
Rangas 1     2     3     4     5   6    7    8     9    10   11   12

Apskaičiuojame:

R1=1+2+4+6+7+11+12=43,

U=7*5+\frac{7*8}{2}-43=20

Iš lentelės randame kritines reikšmes (5,30). Kadangi 20<30 ir 20>5 tai nulinės hipotezės atmest negalime. Vadinasi, paros laikas mokymuisi įtakos neturėjo.

Naudojant neparametrinius kriterijus prarandama dalis informacijos. Tačiau, palyginus su ženklų kriterijumi, naudojant rangų sumų kriterijus informacijos prarandama mažiau.

Vienpusės ir dvipusės neparametrinių hipotezių alternatyvos

lapkričio 6, 2009

Neparametrinių hipotezių atveju dažniausiai lyginami skirstiniai.  Beveik visi neparametriniai kriterijai galingiausi, kai stebimų kintamųjų skirstiniai skiriasi tik padėties parametru (vidurkiu, mediana), t.y. X turi tokį pat skirstinį kaip ir Y+a (čia a nelygus nuliui skaičius), bet tai nereiškia, kad X=Y+a. Kintamieji X ir Y nepriklausomi, taigi X gali įgyti įvairias reikšmes nepriklausomai nuo to, kokias įgyja Y. Tačiau tikimybė, kad X įgis reikšmę, mažesnę už t, yra lygi tikimybei, kad Y+a įgis reikšmę, mažesnę už t, t.y. X ir Y+a “valdo” tas pats atsitiktinumas.

Dabar apie pačias alternatyvas.

Dvipusės alternatyvos:

Dvipusės alternatyvos statistinė hipotezė atrodo taip:

Ho: X ir Y skirstiniai nesiskiria,

H1: X ir Y skirstiniai skiriasi.

Matematiškai galime užrašyti taip:

Picture1

Bet toks užrašas nėra itin patogus naudoti, todėl dažniau naudojamas pirmasis užrašymas.

Vienpusės alternatyvos:

Matematiškai vienpusių alternatyvų statistines hipotezes rašysime taip:

Picture2(žodžiais H1: kintamasis X linkęs įgyti didesnes reikšmes už Y.)

arba

Picture3

Pastaba. Jei X skirstinys yra toks pat kaip Y+a, tai alternatyva “skirstiniai skiriasi” ekvivalenti teiginiui a nelygus 0; alternatyva “X linkęs įgyti didesnes reikšmes už Y” ekvivalenti teiginiui a>0; alternatyva “X” linkęs įgyti mažesnes reikšmes už Y” ekvivalenti teiginiui a<0.

Pvz:. Tiriamas naujų migdomųjų vaistų efektyvumas. Atsitiktinai parenkama 10 “savanorių”. Pirmą naktį jie gavo migdomųjų, antrąją – neveiksnaus preparato. Stebimas jų užmigimo laikas minutėmis ir norima sužinoti ar šie vaistai tinkami vartoti. Statistinė hipotezė :

Ho: vaistai užmigimo greičiui neturi įtakos,

H1: vaistai padeda greičiau užmigti.

Taigi matome, kad alternatyva yra vienpusė. Mes nurodėme, ko tikimės iš vaistų. Jie turi padėti greičiau užmigti. Taigi užmigimo su vaistais trukmės turi būti apskritai mažesnės nei be vaistų.

Yra tokių neparametrinių kriterijų (Vilkoksono ženklų kriterijus ir pan.), kuriuose sprendimo priėmimo taisyklės vienpusių ir dvipusių alrernatyvų atveju skiriasi, todėl svarbu suvokt ir patį skirtumą tarp šių alternatyvų.

 

Bajeso formulė

spalio 29, 2009

Visi turbūt dar iš tikimybių teorijos paskaitų atsimenat (ar bent jau turėtumėt) Bajeso formulę :

Tegul:

2

Tuomet

3

Dabar ją pritaikysim statistikoje.

Pavyzdys:

Kaime atsitiktinai parinkta 40 gyventojų : 25 mokantys naudotis internetu ir 15 nemokančių. Tyrimui atlikti sudaroma dviejų žmonių grupė. Jeigu abu gyventojai mokės naudotis internetu, tai tyrimas bus atliktas sėkmingai; jeigu abu nemokės, tyrimas nesėkmingas; jeigu vienas mokės, o kitas ne-galimybės, kad jis sėkmingas ar nesėkmingas, vienodos. Tyrimas buvo sėkmingas. Kokia tikimybė, kad grupę sudarė vienas mokantis naudotis internet, o kitas ne?

Pažymime A={tyrimas sėkmingas}, H1={abu moka naudotis}, H2={vienas moka, vienas ne}, H3={abu nemoka}. Tuomet P(A|H1)=1, P(A|H2)=0,5, P(A|H3)=0. Pasinaudoję tikimybių teorijos formulėmis turim

1

Mus domina P(H2|A). Taigi

4

Komentaras. Žinoma toki tyrimai, kaip nurodyta pavyzdyje  gal ir labai retai atliekami, tačiau Bajeso formulė taikoma nežinomų skirstinio parametrų vertinimui Bajeso metodu.

Dažnis

spalio 26, 2009

Dažnis

Teorija. Kintamojo reikšmės dažnis fj- tai skaičius, nusakantis, kiek kartų reikšmė xj pasikartojo statistinėje eilutėje.

Kintamojo reikšmės santykinis dažnis fj/n – tai skaičius, nusakantis, kurią statistinės eilutės dalį sudaro xj.

Santykinių dažnių lentelė dar vadinama kintamojo dažnių (empiriniu) skirstiniu.

Pvz:. Ilgalaikės stacionarios reabilitacijos bendruomenės prieinamumo vertinimas.

Dažnis(fj)

(fj/n)%

Sunkiai prieinama

18

14.9

Prieinama

28

23.1

Lengvai prieinama

7

5.8

Viso

53

43.8

Nenurodė

68

56.2

Viso tiriamųjų

121

100.0

Iš lentelės  matome, kad ilgalaikės stacionarios reabilitacijos bendruomenės programos pagal prieinamumą yra įvertintos 43.8% tiriamųjų, kurie teigia buvę arba esą ilgalaikės stacionarios reabilitacijos bendruomenės programos paslaugų vartotojais.

Vertinę tiriamieji programą dažniausiai vertina kaip prieinamą (23.1%) arba kaip sunkiai prieinamą (14.9%). Tik 5.8% tiriamųjų ilgalaikės stacionarios reabilitacijos bendruomenės paslaugas vertina kaip lengvai prieinamas. Taigi ilgalaikės stacionarios reabilitacijos bendruomenės paslaugos Lietuvoje yra vertinamos kaip prieinamos arba sunkiai prieinamos.

Mano komentaras: matome, kad ir naudojantis tokia paprasta sąvoka kaip dažnis, galime daryti visai svarbias ir svarias išvadas apie tiriamąjį objektą.


Follow

Gaukite kiekvieną naują įrašą į savo dėžutę.