Andmete sisestamine R vahenditega
1. Kui andmeid on vähe, võib sisestada tunnused eraldi vektoritena ja ühendada üheks andmestikuks kasutades käske rbind,cbind. Kui järgneb mingi test, mis eeldab paarikaupa võrdlusi vms, tuleb hoolas olla, et andmed õiges järjekorras sisestatud saavad.
Näide1:
#tunnused, mida tahame võrrelda
esimene=c(1,2,2,6,3,4,2,6,5,2);teine=c(4,3,5,2,4); kolmas=c(2,4,3,2,4)
Võimalused selliste andmetega analüüse või graafikuid teha on minimaalsed,ainult boxplot,plot.
Vaja oleks andmed kokku panna, soovitavalt klassikalisse andmetabeli vormi, kus faktorid ja tunnused on kõrvuti
Selleks liidame tunnuseid üksteise alla ning lisame faktori, mille nivood on näiteks "esimene", "teine", "kolmas"
faktor=c(rep("esimene",10),rep("teine",5),rep("kolmas",5))
arv=c(esimene,teine,kolmas) #paigutab ]ksteise alla
andmestik1=data.frame(faktor,arv)
> andmestik
faktor arv
1 esimene 1
2 esimene 2
3 esimene 2
4 esimene 6
5 esimene 3
6 esimene 4
7 esimene 2
8 esimene 6
9 esimene 5
10 esimene 2
11 teine 4
12 teine 3
13 teine 5
14 teine 2
15 teine 4
16 kolmas 2
17 kolmas 4
18 kolmas 3
19 kolmas 2
20 kolmas 4
2.Sisestada saab ka maatriksina, andes tunnustele nimed (üldiselt ei soovita, v.a sagedustabeli sisestamisel, vt.järgnev näide.
Näide2.
bentos<-matrix(c(36, 34, 24,6,12,25),
byrow=T,nrow=3,dimnames =list(c("Liik A", "Liik B","Liik C"),c( "suvi","talv")))
Sisestatud maatriks on töödeldav kui sagedustabel.
> bentos
suvi talv
Liik A 36 34
Liik B 24 6
Liik C 12 25
Sisestasime ridade kaupa, ridade arv on 3,andsime nimed kõigepealt ridadele (esimese faktori nivood) ja siis veergudele.Tabel sai nime bentos.
Joonise tellimine:
t2=prop.table(bentos,2)*100
barplot(t2,legend=T,col=1:3,xlim=c(0,3),ylab="Liikide esinemine eri aastaaegadel, % ")
3. R andmestiku sisestamine. Siin pea meeles, et annad tingimata andmestikule nime ning salvestad selle hiljem kohe!
andmestik2=edit(data.frame())
write.table(andmestik2,"proov.csv",col.names=T,row.names=F,sep=",")
Ma ei soovita eelpooltoodut, pigem järgmist varianti.
Näide1:
#tunnused, mida tahame võrrelda
esimene=c(1,2,2,6,3,4,2,6,5,2);teine=c(4,3,5,2,4); kolmas=c(2,4,3,2,4)
Võimalused selliste andmetega analüüse või graafikuid teha on minimaalsed,ainult boxplot,plot.
Vaja oleks andmed kokku panna, soovitavalt klassikalisse andmetabeli vormi, kus faktorid ja tunnused on kõrvuti
Selleks liidame tunnuseid üksteise alla ning lisame faktori, mille nivood on näiteks "esimene", "teine", "kolmas"
faktor=c(rep("esimene",10),rep("teine",5),rep("kolmas",5))
arv=c(esimene,teine,kolmas) #paigutab ]ksteise alla
andmestik1=data.frame(faktor,arv)
> andmestik
faktor arv
1 esimene 1
2 esimene 2
3 esimene 2
4 esimene 6
5 esimene 3
6 esimene 4
7 esimene 2
8 esimene 6
9 esimene 5
10 esimene 2
11 teine 4
12 teine 3
13 teine 5
14 teine 2
15 teine 4
16 kolmas 2
17 kolmas 4
18 kolmas 3
19 kolmas 2
20 kolmas 4
2.Sisestada saab ka maatriksina, andes tunnustele nimed (üldiselt ei soovita, v.a sagedustabeli sisestamisel, vt.järgnev näide.
Näide2.
bentos<-matrix(c(36, 34, 24,6,12,25),
byrow=T,nrow=3,dimnames =list(c("Liik A", "Liik B","Liik C"),c( "suvi","talv")))
Sisestatud maatriks on töödeldav kui sagedustabel.
> bentos
suvi talv
Liik A 36 34
Liik B 24 6
Liik C 12 25
Sisestasime ridade kaupa, ridade arv on 3,andsime nimed kõigepealt ridadele (esimese faktori nivood) ja siis veergudele.Tabel sai nime bentos.
Joonise tellimine:
t2=prop.table(bentos,2)*100
barplot(t2,legend=T,col=1:3,xlim=c(0,3),ylab="Liikide esinemine eri aastaaegadel, % ")
3. R andmestiku sisestamine. Siin pea meeles, et annad tingimata andmestikule nime ning salvestad selle hiljem kohe!
andmestik2=edit(data.frame())
write.table(andmestik2,"proov.csv",col.names=T,row.names=F,sep=",")
Ma ei soovita eelpooltoodut, pigem järgmist varianti.
Andmete import Excelist
Excelis sisetame andmed klassikalisel kujul, esimeses reas tunnuste nimed, järgnevad andmed iga üksiku objekti kohta.
Näide Excelis:
Näide Excelis:
excel.pdf | |
File Size: | 19 kb |
File Type: |
Excelist salvestame faili komadega eraldatud andmestiku formaati (Comma Delimited), laiendiga csv. Enne salvestamist tuleb kindlasti kontrollida, et alates teisest reast algaksid andmed, igasugune lisainfo mõõtühikute jms kohta pole andmetöötluses enam vajalik. Samas, alati on mõtet hoida alles ka xls-fail, kus on algne info, kommentaarid jms olemas.
CSV-fail on tegelikult üks tekstfaili tüüpe, mille avab tavaliselt automaatselt Notepad vms. programm. Olenevalt arvuti regiooni (Exceli korral on põhiline erinevus künmendarvu komakoha eraldajas, Eesti seadete korral on see koma, teistel juhtudel punkt).
siit ka oluline erinevus andmete sisselugemisel ehk importimisel:
Näide Eesti seadetega
andmed=read.csv("failiteekond.failinimi",header=T,dec=",",sep=";")
Mitte Eesti seadetega (Ameerika näiteks)
andmed=read.csv("failiteekond.failinimi",header=T,dec=".",sep=",")
Eelmine Järgmine
CSV-fail on tegelikult üks tekstfaili tüüpe, mille avab tavaliselt automaatselt Notepad vms. programm. Olenevalt arvuti regiooni (Exceli korral on põhiline erinevus künmendarvu komakoha eraldajas, Eesti seadete korral on see koma, teistel juhtudel punkt).
siit ka oluline erinevus andmete sisselugemisel ehk importimisel:
Näide Eesti seadetega
andmed=read.csv("failiteekond.failinimi",header=T,dec=",",sep=";")
Mitte Eesti seadetega (Ameerika näiteks)
andmed=read.csv("failiteekond.failinimi",header=T,dec=".",sep=",")
Eelmine Järgmine