Variantieanalyse, of ANOVA (variantieanalyse), zijn multivariate afhankelijkheidsanalysetechnieken die worden gebruikt om te bepalen of er significante verschillen zijn tussen de gemiddelden van drie of meer bevolkingsgroepen.
Daarom gaan we met deze analyse na of er verschillen zijn tussen bepaalde groepen wanneer we een of meer kenmerken wijzigen. Om erachter te komen, gebruiken we de waarde van het gemiddelde van de gegevens.
Het gebruik ervan is zeer frequent op gebieden zoals economie of geneeskunde.
Eerdere aannames van de variantieanalyse
Er zijn een aantal voorwaarden voor het uitvoeren van de ANOVA die bekend moeten zijn. Deze zijn essentieel voor een adequaat resultaat.
- Ten eerste moet de populatie een normale verdeling volgen. We hebben dus te maken met een soort parametrisch contrast, aangezien de populatieparameters van het gemiddelde en de standaarddeviatie bekend zijn.
- Bovendien moeten de gebruikte monsters onafhankelijk van elkaar zijn. Dit betekent dat een wijziging in een van hen geen invloed hoeft te hebben op de waarde van de andere.
- Anderzijds moeten de varianties van de onderzochte populaties gelijk zijn. Dit wordt homoscedasticiteit genoemd.
Classificatie van de analyse van variantiemodellen
Voor de analyse van variantiemodellen kunnen de drie onderstaande classificaties worden gebruikt:
- Model met vaste effecten: De populaties zijn normaal en verschillen alleen in de waarde van hun respectievelijke gemiddelden.
- Willekeurig effectmodel: In dit geval hebben de gegevens een hiërarchie en zijn de populatieverschillen daarvan afhankelijk.
- Model met gemengde effecten: We zouden geconfronteerd worden met een model dat een mengsel is van de vorige twee.
ANOVA-voorbeeld: belangrijke concepten
Er zijn wiskundige vergelijkingen van enige complexiteit om de ANOVA uit te voeren. Bij Economy-Wiki.com kiezen we echter voor de eenvoudige economie en daarom, en profiterend van technologie, gaan we laten zien hoe het kan in een spreadsheet.
Stel dat we willen weten of er significante verschillen zijn tussen de lezers van Economy-Wiki.com, gebaseerd op de affiniteit van hun studie met economie.
Waarschuwing: de gegevens die we gebruiken zijn fictief.
We moeten naar Gegevens, Gegevensanalyse gaan en we zullen de variantieanalyse van een factor kiezen.
De rangorde zou de matrix van de drie groepen zijn. Wellicht is het interessanter om de kopjes achteraf mee te nemen en de gewenste opmaak te geven. In ons geval met het logo en de kleur blauw.
We zien dat er enkele concepten zijn zoals vrijheidsgraden en waarschijnlijkheid of significantie. De eerste wordt automatisch berekend en is het aantal groepen min één. De tweede vertelt ons of de verschillen significant zijn of niet.
Meestal ga je uit van een geaccepteerd vertrouwensniveau. In de economie is dat meestal 95% (0,95), wat gerelateerd is aan een significantie van 0,05 (1-0,095). Dus als die kans of p-waarde lager is dan de geaccepteerde significantie, zijn de verschillen significant.
In dit geval lijkt het erop dat de graad geen invloed heeft op het aantal lezers (significantie > 0,05). Daarom lijkt de variantieanalyse erop te wijzen dat Economy-Wiki.com iedereen interesseert, niet alleen gespecialiseerde lezers. Natuurlijk zijn het fictieve gegevens of niet?