Tampere
04 May, Saturday
6° C

Proakatemian esseepankki

Näin minä huijaan teitä tilastoilla



Kirjoittanut: Kaisa Ojaniemi - tiimistä Revena.

Esseen tyyppi: Yksilöessee / 2 esseepistettä.

KIRJALÄHTEET
KIRJA KIRJAILIJA
Kuinka tilastoilla valehdellaan
Darell Huff
Esseen arvioitu lukuaika on 3 minuuttia.

Ihmisiin vaikuttavat monet eri asiat. Toisiin tunteisiin vetoaminen toimii, toiset kiinnostuvat enemmän luvuista ja datasta. Itse kuulun tähän jälkimmäiseen. Meihin vedotaan lähes päivittäin erilaisilla tilastoilla ja tutkimustuloksilla. Niitä harvoin tulee kyseenalaistettua. Olemme datatiimin kanssa myös alkaneet kerätä tietoa akatemiasta ja tehdä tilastoja. Se on yllättävän vaikeaa. Kysymysten täytyy olla oikeanlaisia, ne eivät saa johdatella ja vastausvaihtoehtojenkin tulee olla sopivia. Myös vastauksia pitää osata tulkita oikealla tavalla.

Keskiarvo merkitsee usein – oli sitten kyseessä aritmeettinen tai mediaaninen keskiarvo – tosiasioiden yksinkertaistamista niin pitkälle että keskiarvon käyttäminen tietyissä asiayhteyksissä tekee pelkkää hallaa. Usein on parempi, ettei tiedä asiasta mitään, kuin että tietää siitä väärin. Myös liian niukat tiedot saattavat olla vaarallisia. (Huff 1974, 40)

Olemme alkaneet keräämään dataa myös pajojen laadusta Revenassa. Olemme käyttäneet tilastoinnissa keskiarvoa. Itse kirjaa lukiessani ja muistiinpanoja tehdessäni en edes tiennyt, mitä eroa on aritmeettisella ja mediaanilla keskiarvolla, joten päätin katsoa Googlesta ja kertoa sen myös teille. Aritmeettinen keskiarvo lasketaan summaamalla luvut ja sitten jakamaan summa niiden lukumäärällä. Kun puhumme keskiarvosta, puhumme siis aritmeettisesta keskiarvosta. Mediaanilla tarkoitetaan järjestetyn joukon keskimmäistä alkiota eli lukua. Jos lukuja on parillinen määrä, on alkio kahden keskimmäisen luvun keskiarvo. Eli luvut laitetaan järjestykseen ja valitaan keskimmäinen.

Yhdysvaltain asunnoista esimerkiksi liian suuri osa on suunniteltu 3,6 hengen tilastollisille keskiarvoperheelle (v.1974) Todellisuudessa tällainen perhe ei ole Yhdysvalloissa tavallisin, vaikka se onkin ’keskiarvoperhe’. Rakentajat jättävät huomiotta enemmistön, jonka muodostavat yhdessä tätä suuremmat ja tätä pienemmät perheet. ”Kun lakkaamme tuijottamasta tuohon aritmeettiseen keskiarvoon, ja otamme huomioon ne perheet, joiden olemassaoloa luku ei paljasta, huomaamme, että kolmen tai neljän hengen perheet muodostavat vain 45 prosenttia kaikista perheistä. 35 prosenttia on yhden tai kahden hengen perheitä, 20 prosenttia taas on vähintään viisi henkeä käsittäviä.” (Huff 1974, 40)

On siis olemassa kolme erilaista tapaa mitata asioita: Aritmeettinen keskiarvo, mediaani ja moodi. Moodi on tyyppiarvo, eli se kertoo mitä lukua on kaikista eniten. Kun näitä opeteltiin lukiossa, ne eivät selvästikään tuntuneet tärkeitä tai jääneet mieleen. Nyt kun näkee, miten helposti vääriä lukuja seuraamalla asiat voidaan saada mönkään, näitä lukuja osaa arvostaa ihan eri tavalla. Edellä oleva tapaus on mielestäni loistava esimerkki tästä. Rakennusyrityksessä joku viisas on lukenut, että keskiarvoperheessä on näin paljon väkeä, joten sellaisia asuntoja tulee rakentaa. Mitä jos tulokset olisivat olleet vaikka 50% 2 hengen talouksia ja 50% yli 5 hengen talouksia? Silloin ”keskiarvoperheen” 3,6 hengen asunnot eivät olisi sopineet kellekään.

Näitä samoja esimerkkejä voi käyttää myös esimerkiksi myynti- ja markkinointitilastojen tutkimukseen. Jos esimerkiksi keskiostos yrityksessä on 100e. Tarkoittaako se sitä, 100e kauppoja on eniten vai että puolet kaupoista on alle 10e arvoisia ja puolet lähemmäs 200e arvoisia? Jos verkkosivuilla vieraillaan keskimäärin 1min, tarkoittaako se sitä, että useimmat vierailijat vierailevat yhden minuutin ajan, vai sitä, että 90% kävijöistä vierailee 10sek ja 10% vierailijoista katselee sivuja yli 10 minuuttia. Siksi käyttämällä kaikkia lukuja: keskiarvo, mediaani ja moodi, päästään paljon tutustumaan paljon syvällisemmin todelliseen tilanteeseen, ja saadaan myös selville se, onko tilastoissa esimerkiksi paljon äärilukuja.

Eri savukelaatujen myrkkymäärät olivat miltei tarkalleen samat, mutta jonkinhan täytyi olla myrkyttömin. Ja se laatu sattui olemaan Old Gold. Sanomalehtiin ilmestyivät mahtavat mainokset, joissa sanottiin kakistelematta, että suuren aikakausilehden testaamista kaikista eri savukelaaduista Old Gold savussa oli kaikkein vähiten haitallisia aineita. Mitään lukuja ei sen sijaan esitetty eikä tietysti mainittu sitä, että havaittu ero oli niin vähäpätöinen. (Huff 1974, 53)

Erästä mehulinkoa mainostettiin keksintönä, joka ”ladoratorikoikeiden mukaan linkoaa 26 prosenttia enemmän mehua”. Me kysyimme, mitä prosenttiluku loppujen lopuksi merkitsee. Kaksikymmentä prosenttia enemmän kuin mikä tai mitä? Vastausta ruvettiin oikein tivaamaan valmistajalta ja silloin kävi ilmi, että prosenttiluku tarkoitti kyseisen lingon linkoavan 26% enemmän mehua kuin vanhanaikainen sitruunapuserrin. (Huff 1974, 70)

Markkinointi ja tilastot, mikä loistava yhdistelmä. Tässä pari hyvää esimerkkiä siitä, miten markkinoida tuotteita tehokkaasti: vertailemalla niitä markkinoiden muihin tuotteisiin. Useissa tuotteissa näkee esimerkiksi 30% vähemmän sokeria, 20% vähemmän päästöjä tai kestää kaksi kertaa kauemmin. Tuotteessa harvemmin lukee, että mihin prosenttiluku perustuu. Itse ajattelisin, että se tarkoittaa samaa tuotetta ennen uudistusta. Usein on näin, mutta kun sinulle myydään jotain, pidä mielessä se, mihin lukua verrataan. Itse lukuintoilijana menen helposti ansaan, jos esimerkiksi joku tarjoaa ratkaisua, jolla säästän 50 prosenttia. Niin 50% mistä? Mitä verrataan ja mihinkin? Ja tärkein, mihin vertaamiseen käytetyt luvut perustuvat?

Eräs tutkija kerran selvitti, menestyvätkö tupakoitsijat yliopistossa huonommin kuin tupakoimattomat. Kävi ilmi, että he menestyvät huonommin. Uskotaan, että jos B tulee A:n jälkeen, A on aiheuttanut B:n. Koska tupakoiminen ja huonot todistukset esiintyvät yhtä aikaa, oletetaan paikkansapitämättömästi, että tupakointi johtaa huonoihin arvosanoihin. Eikö tämä asia voisi olla myös päinvastoin? Ehkä huonot arvosanat saavat opiskelijat juomaan ja tupakoimaan. Tämä johtopäätös on yhtä todennäköinen, ja tutkimustulokset tukevat sitä aivan yhtä lailla. Todennäköisesti kumpikaan kahdesta tekijästä ei aiheuta toista, vaan molemmat ovat kolmannen tekijän aiheuttamia. (Huff 1974, 79)

Tämä esimerkki on hyvä pitää mielessämme, kun teemme datatiimin kanssa tilastoja akatemiasta. Pystymme vuoden aikana selvittämään, esimerkiksi sitä, paljonko projektoreissa on käynyt porukkaa tai millaisia rahasummia tiimit ovat tehneet. Kun tilastoja tulee enemmän, pystymme näkemään erilaisia trendejä. Silloin alamme automaattisesti miettimään, että mistä nämä trendit johtuvat. On hyvä pitää mielessä, että kaikki muutokset tai tapahtumat, jotka tapahtuvat yhtä aikaa, eivät välttämättä liity toisiinsa. Onko projektorien osallistujamäärillä, liikevaihtotilastoilla tai kielen muuttamisella suomesta lähes englantipainotteiseksi jotain yhteneväisyyksiä? Voi olla, mutta myös olla, että tilastoihin vaikuttaa joku muu ulkopuolinen tekijä, eivätkä nämä liity toisiin mitenkään.

Kuinka tilastoilla valehdellaan Darell Huff, Kustannusosakeyhtiö Otavan painolaitokset, Keuruu 1974

Kommentit
  • Oona Salo

    Hei Kaisa.
    Teksti on helppolukuinen ja sisältää todella hyvät viittaukset kirjaan, ja näin ollen ne vievät tekstiä sujuvasti ja loogisesti eteenpäin. Esseen aihe on mielenkiintoinen ja herättää huomiota, varsinkin otsikko on houkutteleva. Teksti on psykologinen ja sisältää selityksiä syy-seuraussuhteille, jotka ovat mielenkiintoisia. Esimerkit luvuista ovat hyviä ja tuovat esille mielenkiintoisia esimerkkejä. Teksti saa ajattelemaan lukujen merkitystä ja sanomaa. Miten ihmiset näkevät luvut eri näkökulmista esim. yritykset. Kerrot myös, että datatiimi on alkanut keräämään dataa, mitä ennen ei ole kerätty. Nyt datatiimillä on dataa viimevuodelta, ja tämä tarkoittaa sitä, että meillä on mahdollinen vertailukohde. Näin ollen voimme nähdä tilastoja siitä, millaista on ollut ja tulevilla kyselyillä voimme luoda uutta dataa, hyödyntäen vanhaa tietoa. Käsitteet moodi, mediaani ja keskiarvo ovat tuttuja jo yläasteelta, mutta nykyään en ole näitä hyödyntänyt. Näitä kannattaisi tuoda takaisin eri tilastoihin ja katsoa, millaisia vastauksia tulisi. Näitä voisi myös tulevaisuudessa hyödyntää.

    8.3.2021
Kommentoi