Sagedustabeli analüüs
Selles peatükis vaatleme nominaalseid (kvalitatiivseid) tunnuseid, diskreetseid väheste väärtustega arvtunnuseid. Lisaks tunnuseid, mis tekivad moel "esineb-ei esine" - nimetatakse binaarseteks tunnusteks.
Binaarsete tunnuste töötlemisel oleks ideaalne variant, kui andmebaasi on sisestatud tunnuse väärtused 0-1 süsteemis. Paraku on tihti sellise sisestamise juures tegemist suure tööga, lihtsam on üle lugeda korrad, millal tunnus esines ja hoopis see andmetabelisse kanda. Sellise lähenemise juures on vaja meeles pidada, et kindlasti peab säiluma ja kasutatav olema ka informatsioon valimi suuruse kohta, ehk siis mitmel mitmest vaadeldud juhtumist tunnus esines (kaudselt on siis tegemist protsendiga, ainult protsendi enda kasutamine on info kaotamine).
0-1 tüüpi tunnuste korral uuritakse kas tunnuse esinemise tõenäosust, või siis faktorite eri nivoodel (eri populatsioonides) tunnuse esinemise šanssi - selle kohta jäävad antud õppematerjalides graafikud tegemata.
Seose uurimiseks vaadeldakse tunnuse jaotust kahe erineva faktori korral. Seost näitab see, kui jaotus faktorite eri tasemete vahel ei ole ühtlane, ehk selline, nagu oleks oodatav seose puudumise korral. Aluseks on kahemõõtmeline sagedustabel.
Sagedustabeli illustreerimiseks on kõige parem tulpdiagramm, sobib ka sektordiagramm, mis ei ole kahemõõtmelisel juhul nii sobiv, kui eelpoolnimetatu. Tulpdiagramm sobib hästi küsitluste juures, kus konkreetsed vastusevariandid on ette antud.
Viimatinimetatud tunnused on kaudselt ka binaarsed, ehk siis kas objektil oli konkreetne väärtus või mitte.
Eelmine Järgmine
Binaarsete tunnuste töötlemisel oleks ideaalne variant, kui andmebaasi on sisestatud tunnuse väärtused 0-1 süsteemis. Paraku on tihti sellise sisestamise juures tegemist suure tööga, lihtsam on üle lugeda korrad, millal tunnus esines ja hoopis see andmetabelisse kanda. Sellise lähenemise juures on vaja meeles pidada, et kindlasti peab säiluma ja kasutatav olema ka informatsioon valimi suuruse kohta, ehk siis mitmel mitmest vaadeldud juhtumist tunnus esines (kaudselt on siis tegemist protsendiga, ainult protsendi enda kasutamine on info kaotamine).
0-1 tüüpi tunnuste korral uuritakse kas tunnuse esinemise tõenäosust, või siis faktorite eri nivoodel (eri populatsioonides) tunnuse esinemise šanssi - selle kohta jäävad antud õppematerjalides graafikud tegemata.
Seose uurimiseks vaadeldakse tunnuse jaotust kahe erineva faktori korral. Seost näitab see, kui jaotus faktorite eri tasemete vahel ei ole ühtlane, ehk selline, nagu oleks oodatav seose puudumise korral. Aluseks on kahemõõtmeline sagedustabel.
Sagedustabeli illustreerimiseks on kõige parem tulpdiagramm, sobib ka sektordiagramm, mis ei ole kahemõõtmelisel juhul nii sobiv, kui eelpoolnimetatu. Tulpdiagramm sobib hästi küsitluste juures, kus konkreetsed vastusevariandid on ette antud.
Viimatinimetatud tunnused on kaudselt ka binaarsed, ehk siis kas objektil oli konkreetne väärtus või mitte.
Eelmine Järgmine