Tunnuse jaotuse illustreerimine
Graafikult on näha, kui paljudes proovides esines üht või teist liiki põhjalooma. Statistilisi järeldusi siit teha ei anna, see on valimit kirjeldav illustratsioon. Kommenteerida saab, kas on ühtlane jaotus (H0 - igat liiki esineb samapalju), missugust liiki oli rohkem, millist vähem. Antud näite korral ilmselt ei ole ühtlane jaotus.
R käsk (andmed failis BADOM_V6rts.csv)
barplot käsu sulgudes on alati tunnuse või tunnuste sagedustabel!
barplot(table(BADOM),col=1:3,ylab="proovide arv",ylim=c(0,100), names=c("liik1","liik2","liik3"),main="Arvukuse poolest domineerivate liikide esinemise sagedus")
Parameetrite seletusi (proovi järele, milline tuleb joonis ilma parameetreid ette andmata). Jäta need meelde:
names - andmestikus esinevate nimetuste asendamine enda jaoks sobivatega
main - joonise pealkiri
ylab - y-telje tekst
ylim - y-telje skaala
col - värvide määramine. Jäta meelde, et kui tellid värvide numbreid vähem, kui faktoril on nivoosid, hakkavad värvid otsast peale! Kui värve ei määra, teeb R vaikimisi joonise hallides toonides.
Igal värvil on R süsteemis oma number, esimesed kolm ongi joonisel näha, Värvid võib ka ise nimetada, vaata täpsemalt R värvide kohta link
Tulpdiagramm kahemõõtmelise jaotuse iseloomustamiseks
Kui me tahame leida seoseid, siis on meil vaja kindlasti fikseerida kaks jaotust kujundavat faktorit, antud näites on nendeks bentose liik ja sesoonsus. Tulpade kõrgus näitab, kui palju üht või teist liiki esines ja eri värvid omakorda, missugusel aastaajal kui palju igat liiki proovides leiti. H0 - liike on ühepalju nii kokku, kui ka aastaajati. Seose korral jagunevad proovid ebaühtlaselt just eri aastaaegadel, näiteks talvel on just üks liik domineeriv, suvel jälle teine liik. Meie näite korral järeldus: kõige rohkem on Pot.hamm liiki, sesoonselt on kahe esimese liigi jaoks domineeriv suveperiood, Stict. Ros on ühtlasem, seda esineb pigem rohkem talvel. Statistilisi järeldusi jällegi teha ei saa, joonis on illustreeriv.
R käsk (andmed failis BADOM_V6rts.csv)
barplot(table(sesoon,BADOM),col=1:3,legend=T)
legend - T või F, vastavalt sellele, kas tahame esitada ka faktori nivoode nimetused joonisel (=T). Kahemõõtmelisel juhul on legend vaikimisi sagedustabeli 1.faktori kohta, sealjuures tavaliselt hädavajalik, et graafikust paremini aru saada.
Eelmise joonise koopia, ainult selle erinevusega, et legendil on nimed ingliskeelsed. Selle asemel, et algandmetes csv-tabel muuta, saab vajaliku muutuse teha lihtsalt R abil. Teeme uue faktori olemasoleva põhjal:
sesF <-factor(sesoon,labels= c("spring","summer","winter"))
Värvid tulevad vastavalt loetelule järjekorras.
barplot(table(sesF,BADOM), col=1:3,legend=T)
sesF <-factor(sesoon,labels= c("spring","summer","winter"))
Värvid tulevad vastavalt loetelule järjekorras.
barplot(table(sesF,BADOM), col=1:3,legend=T)
Graafiku aluseks on sama sagedustabel mis eelmise korral, erinevus on selles, et tellimisel anname parameetrile beside=T, misjärel sesoonsed sagedused asetatakse mitte üksteise kohale vaid kõrvale. selline joonis on parem, kui me tahame täpsemalt y-teljelt vastava numbri välja lugeda, soovitan kasutada seda. Statistiliste järelduste tegemisel on veel paremad aga järgmise alalõigu joonised.
barplot(table(sesF,BADOM), beside=T,col=1:3,legend=T,ylab="proovide arv")
barplot(table(sesF,BADOM), beside=T,col=1:3,legend=T,ylab="proovide arv")