414 konglar er meir enn nok
Statistikarar in spe i fri dressur.
Kjelde: Nera Networks
«Bor du på Bønes?» Høgskulen på Vestlandet har elevar frå vidaregåande på vitjing, og eg opnar for spørsmål etter reklamen. Guten som spør, hadde hatt meg som gjest på barneskulen for meir enn ti år sidan. Han hugsar enno store tals lov og normalfordelinga.
«Me skal læra ungane statistikk. Kan du hjelpa oss?» To lærarinner og eg sit og planlegg kva me skal gjera saman under forskingsdagane i 2010. Eg går heim og tenkjer så det knakar. Kva er viktig å skjøna i statistikk, og korleis skal eg gje borna innsikt i emnet?
Eg møter opp på skulen med nokre bytter og ei noggrann vekt. «No, ungar, skal de gå ut i skogen og plukka konglar», seier eg. Dei jublar av glede for å sleppa ut av klasserommet.
Dei fyk vilkårleg rundt i skogen og plukkar konglar hist og her. Umedvite tilfredsstiller dei statistikkens grunnføresetnad, nemleg å plukka eit tilfeldig utval blant alle konglar i skogen. Tek me statistikkbriller på, er alle konglane i skogen den såkalla populasjonen.
Store tals lov fortel oss at dersom noko er tilfeldig fordelt, vil ein få eit godt estimat av populasjonsgjennomsnittet ved å sjå på eit passe stort utval. Til dømes kunne ein brukt valprognose med utval på nokre tusen i staden for ei dyrt stortingsval med same resultat.
Ungane går etter kvart lei. Det passar bra. «Kor mykje trur de ein kongle veg i gjennomsnitt», spør eg. Svara varierer frå 2 til 10 gram. Me byrjar å måla. Ein elev tek ein etter ein kongle og legg på vekta. Ein annan elev les av vekta, og eg puttar talet inn i eit Excel-ark.
På tavla kjem det fram eit plott som viser variasjonen i vekt på konglane og korleis gjennomsnittsvekta stabiliserer seg. Gjennomsnittsvekta er underlagd lova om store tal. Tek vi berre mange nok konglar, så har me med stort sannsyn gjennomsnittsvekta.
No når kurva for gjennomsnittsvekta har flata fullstendig ut, gidd ikkje ungane måla meir, og det er heller ikkje nødvendig. Me ser at å måla vekta på meir enn to hundre konglar ikkje gjev oss meir informasjon. Me måler 414 konglar før me gjev oss. Gjennomsnittleg konglevekt er og vert 4 gram.
Er det meir me kan leika oss med? Ja, me kan sjå på fordelinga av konglevekt. Kor mange lette konglar har me og kor mange tunge? Me ser at fordelinga minner om kyrkjeklokka og kan kallast anten normalfordelinga eller Gauss-kurva.
Mykje i naturen og andre stader er normalfordelt. Dersom du tvilar på det, er det berre å finna fram terningar og kasta og telja auge. Di fleire terningar og kast di nærare kjem summen normalfordelinga.
Dersom me hadde gått ut i skogen igjen og plukka ein tilfeldig kongle, kunne me med 95 prosent sannsyn (konfidens) måla ei vekt på mellom 0,8 og 7,2 gram. Det ville difor vera 5 prosent sannsyn for at vekta var større eller mindre enn det (signifikans).
Éin ting er at konglevekta varierer mykje innanfor utvalet vårt, men korleis ville gjennomsnittsverdien variera dersom me plukka mange tilfeldige utval? Store tals lov vil sørgja for mykje mindre spreiing i gjennomsnittet enn spreiinga i konglevekta. Dersom ein tek mange utval og finn gjennomsnittet av gjennomsnitta, vil det verta likt gjennomsnittet til populasjonen.
Er det mogleg å seia noko statistisk om kor nære me er populasjonsgjennomsnittet? Ja, det kan me ved å bruka slutningsstatistikk. Gjennomsnitta frå mange utval er også normalfordelt dersom ein tek nok konglar med i kvart utval.
Ein populær test er t-testen. Verdien av t er gjeve av avstanden mellom målt gjennomsnitt og populasjonsgjennomsnitt delt på standardfeilen til målinga vår. Standardfeilen er avhengig av standardavviket i konglemålinga og talet på konglar. Når standardavviket er lite og talet på konglar stort, vert standardfeilen liten.
Det er berre å rekna ut kva avstand mellom vårt og det ukjende gjennomsnittet som gjev ein t-verdi mellom –2 og 2. Då kan me med 95 prosent sannsyn seia er at vårt gjennomsnitt på 4 gram er +/–0,15 gram unna populasjonsgjennomsnittet.
Som me ser, fylgjer fordelinga av vekta om lag normalfordelinga. Standardavvik i dette tilfellet er eit mål på spreiinga av konglevekta. Dess mindre det er, dess fleire konglar har omtrent gjennomsnittsvekta. For våre konglar er spreiinga stor.
Kvifor vert t-testen kalla test? Vel, statistikarar er som andre vitskapsfolk. Dei elskar å falsifisera. Dei lagar ein såkalla 0-hypotese, H0, og prøver å falsifisera ho, slik at ein alternative hypotese H1 kan aksepterast. Lat oss ta eit døme. H0: Populasjonens gjennomsnittsvekt for konglar er 3,8 gram. H1: Populasjonens gjennomsnittsvekt er forskjellig frå 3,8 gram. 3,8 gram gjev t = 2,54, som er meir enn to standardavvik unna, så H0 må forkastast og H1 er sannsynleg.
Føreslår me derimot ein H0 der gjennomsnittsvekta for populasjonen er ein stad mellom 3,85 og 4,15 gram, kan me ikkje forkasta H0 og kan akseptera H0 med 95 prosent konfidens.
Meir å læra? Ja, me kan til dømes sjå på samanhengar. Er det nokon samanheng mellom vekta til konglar og lengda? Truleg kan med finna ut det med regresjonsanalyse, men ungane er leie av å måla, så det vert spørjetime i staden. Dei veit eg har studert astronomi, så det haglar spørsmål om svarte hòl og mørk materie. Plutseleg ser eg handa til den stillaste guten i klassen. Eg vert glad, og han spør: «Har du berre eitt par sko?» Ja, utvalet mitt i sko er lite, men eg lovar at det vert meir statistikk.
Per Thorvaldsen
pth@hvl.no
Er du abonnent? Logg på her for å lese vidare.
Digital tilgang til DAG OG TID – heilt utan binding
Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.
«Bor du på Bønes?» Høgskulen på Vestlandet har elevar frå vidaregåande på vitjing, og eg opnar for spørsmål etter reklamen. Guten som spør, hadde hatt meg som gjest på barneskulen for meir enn ti år sidan. Han hugsar enno store tals lov og normalfordelinga.
«Me skal læra ungane statistikk. Kan du hjelpa oss?» To lærarinner og eg sit og planlegg kva me skal gjera saman under forskingsdagane i 2010. Eg går heim og tenkjer så det knakar. Kva er viktig å skjøna i statistikk, og korleis skal eg gje borna innsikt i emnet?
Eg møter opp på skulen med nokre bytter og ei noggrann vekt. «No, ungar, skal de gå ut i skogen og plukka konglar», seier eg. Dei jublar av glede for å sleppa ut av klasserommet.
Dei fyk vilkårleg rundt i skogen og plukkar konglar hist og her. Umedvite tilfredsstiller dei statistikkens grunnføresetnad, nemleg å plukka eit tilfeldig utval blant alle konglar i skogen. Tek me statistikkbriller på, er alle konglane i skogen den såkalla populasjonen.
Store tals lov fortel oss at dersom noko er tilfeldig fordelt, vil ein få eit godt estimat av populasjonsgjennomsnittet ved å sjå på eit passe stort utval. Til dømes kunne ein brukt valprognose med utval på nokre tusen i staden for ei dyrt stortingsval med same resultat.
Ungane går etter kvart lei. Det passar bra. «Kor mykje trur de ein kongle veg i gjennomsnitt», spør eg. Svara varierer frå 2 til 10 gram. Me byrjar å måla. Ein elev tek ein etter ein kongle og legg på vekta. Ein annan elev les av vekta, og eg puttar talet inn i eit Excel-ark.
På tavla kjem det fram eit plott som viser variasjonen i vekt på konglane og korleis gjennomsnittsvekta stabiliserer seg. Gjennomsnittsvekta er underlagd lova om store tal. Tek vi berre mange nok konglar, så har me med stort sannsyn gjennomsnittsvekta.
No når kurva for gjennomsnittsvekta har flata fullstendig ut, gidd ikkje ungane måla meir, og det er heller ikkje nødvendig. Me ser at å måla vekta på meir enn to hundre konglar ikkje gjev oss meir informasjon. Me måler 414 konglar før me gjev oss. Gjennomsnittleg konglevekt er og vert 4 gram.
Er det meir me kan leika oss med? Ja, me kan sjå på fordelinga av konglevekt. Kor mange lette konglar har me og kor mange tunge? Me ser at fordelinga minner om kyrkjeklokka og kan kallast anten normalfordelinga eller Gauss-kurva.
Mykje i naturen og andre stader er normalfordelt. Dersom du tvilar på det, er det berre å finna fram terningar og kasta og telja auge. Di fleire terningar og kast di nærare kjem summen normalfordelinga.
Dersom me hadde gått ut i skogen igjen og plukka ein tilfeldig kongle, kunne me med 95 prosent sannsyn (konfidens) måla ei vekt på mellom 0,8 og 7,2 gram. Det ville difor vera 5 prosent sannsyn for at vekta var større eller mindre enn det (signifikans).
Éin ting er at konglevekta varierer mykje innanfor utvalet vårt, men korleis ville gjennomsnittsverdien variera dersom me plukka mange tilfeldige utval? Store tals lov vil sørgja for mykje mindre spreiing i gjennomsnittet enn spreiinga i konglevekta. Dersom ein tek mange utval og finn gjennomsnittet av gjennomsnitta, vil det verta likt gjennomsnittet til populasjonen.
Er det mogleg å seia noko statistisk om kor nære me er populasjonsgjennomsnittet? Ja, det kan me ved å bruka slutningsstatistikk. Gjennomsnitta frå mange utval er også normalfordelt dersom ein tek nok konglar med i kvart utval.
Ein populær test er t-testen. Verdien av t er gjeve av avstanden mellom målt gjennomsnitt og populasjonsgjennomsnitt delt på standardfeilen til målinga vår. Standardfeilen er avhengig av standardavviket i konglemålinga og talet på konglar. Når standardavviket er lite og talet på konglar stort, vert standardfeilen liten.
Det er berre å rekna ut kva avstand mellom vårt og det ukjende gjennomsnittet som gjev ein t-verdi mellom –2 og 2. Då kan me med 95 prosent sannsyn seia er at vårt gjennomsnitt på 4 gram er +/–0,15 gram unna populasjonsgjennomsnittet.
Som me ser, fylgjer fordelinga av vekta om lag normalfordelinga. Standardavvik i dette tilfellet er eit mål på spreiinga av konglevekta. Dess mindre det er, dess fleire konglar har omtrent gjennomsnittsvekta. For våre konglar er spreiinga stor.
Kvifor vert t-testen kalla test? Vel, statistikarar er som andre vitskapsfolk. Dei elskar å falsifisera. Dei lagar ein såkalla 0-hypotese, H0, og prøver å falsifisera ho, slik at ein alternative hypotese H1 kan aksepterast. Lat oss ta eit døme. H0: Populasjonens gjennomsnittsvekt for konglar er 3,8 gram. H1: Populasjonens gjennomsnittsvekt er forskjellig frå 3,8 gram. 3,8 gram gjev t = 2,54, som er meir enn to standardavvik unna, så H0 må forkastast og H1 er sannsynleg.
Føreslår me derimot ein H0 der gjennomsnittsvekta for populasjonen er ein stad mellom 3,85 og 4,15 gram, kan me ikkje forkasta H0 og kan akseptera H0 med 95 prosent konfidens.
Meir å læra? Ja, me kan til dømes sjå på samanhengar. Er det nokon samanheng mellom vekta til konglar og lengda? Truleg kan med finna ut det med regresjonsanalyse, men ungane er leie av å måla, så det vert spørjetime i staden. Dei veit eg har studert astronomi, så det haglar spørsmål om svarte hòl og mørk materie. Plutseleg ser eg handa til den stillaste guten i klassen. Eg vert glad, og han spør: «Har du berre eitt par sko?» Ja, utvalet mitt i sko er lite, men eg lovar at det vert meir statistikk.
Per Thorvaldsen
pth@hvl.no
Statistikarar er som andre vitskapsfolk. Dei elskar å falsifisera.
Fleire artiklar
Una og Diddi er to storforelska studentar som må halde forholdet skjult, fordi Diddi alt har ein kjærast.
Foto: Arthaus
Gjennombrotet
Elín Hall herjar i dette vakre, velskrivne dramaet av Rúnar Rúnarsson.
Greil Marcus er musikkskribent og kulturanalytikar.
Foto: Thierry Arditti / Courtesy of Yale University Press
Kvifor Marcus skriv
Den nye boka til Greil Marcus er ein kamuflert sjølvbiografi.
Foto: Gorm Kallestad / NTB
Erling Kittelsen er blant dei mest mangsidige av norske poetar, skriv Jan Erik Vold.
Rondanecupen på Otta er ei bridgetevling stinn av tradisjon.
Foto: Otta bridgeklubb
«Det finst bridgespelarar i kvar ein avkrok.»
Jill Stein på eit valkampmøte i Dearborn i Michigan 6. oktober. I vippestaten Michigan fryktar demokratane at Stein skal ta mange røyster frå Harris.
Foto: Rebecca Cook / Reuters / NTB
Stein kan velte lasset
Jill Stein, kandidaten til Dei grøne, er valjokeren demokratane gjerne skulle vore forutan.