De variatiecoëfficiënt, ook bekend als de variatiecoëfficiënt van Pearson, is een statistische maatstaf die ons informeert over de relatieve spreiding van een dataset.
Dat wil zeggen, het informeert ons, net als andere spreidingsmaten, of een variabele veel, weinig, meer of minder beweegt dan een andere.
Variatiecoëfficiënt formule
De berekening wordt verkregen door de standaarddeviatie te delen door de absolute waarde van het gemiddelde van de set en wordt meestal uitgedrukt als een percentage voor een beter begrip.
- X: variabele waarop de variantie moet worden berekend
- σX: Standaarddeviatie van variabele X.
- | x̄ |: Het is het gemiddelde van de variabele X in absolute waarde met x̄ ≠ 0
De variatiecoëfficiënt wordt uitgedrukt met de letters CV of r, afhankelijk van de handleiding of het gebruikte lettertype. De formule is de volgende:
De variatiecoëfficiënt wordt gebruikt om datasets van verschillende populaties te vergelijken. Als we naar de formule kijken, zien we dat deze rekening houdt met de waarde van het gemiddelde. Daarom stelt de variatiecoëfficiënt ons in staat om een spreidingsmaat te hebben die de mogelijke vervormingen van de gemiddelden van twee of meer populaties elimineert.
RangVoorbeelden van het gebruik van de variatiecoëfficiënt in plaats van de standaarddeviatie
Hier zijn enkele voorbeelden van deze spreidingsmaat:
Vergelijking van datasets van verschillende dimensies
We willen de spreiding kopen tussen de lengte van 50 leerlingen in een klas en hun gewicht. Om de lengte te vergelijken, kunnen we meters en centimeters gebruiken als maateenheid en de kilogram voor gewicht. Het zou niet logisch zijn om deze twee verdelingen te vergelijken met behulp van de standaarddeviatie, aangezien we twee verschillende kwalitatieve variabelen proberen te meten (een maat voor lengte en een maat voor massa).
Vergelijk sets met een groot verschil tussen de gemiddelden
Stel je voor dat we bijvoorbeeld het gewicht van kevers en nijlpaarden willen meten. Het gewicht van kevers wordt gemeten in gram of milligram en het gewicht van nijlpaarden wordt meestal gemeten in tonnen. Als we voor onze meting het gewicht van de kevers omrekenen naar tonnen, zodat beide populaties op dezelfde schaal staan, zou het niet gepast zijn om de standaarddeviatie als een spreidingsmaat te gebruiken. Het gemiddelde kevergewicht gemeten in tonnen zou zo klein zijn dat als we de standaarddeviatie zouden gebruiken, er nauwelijks spreiding in de gegevens zou zijn. Dit zou een vergissing zijn aangezien het gewicht tussen verschillende soorten kevers aanzienlijk kan variëren.
Voorbeeld van berekening van de variatiecoëfficiënt
Denk aan een populatie olifanten en een andere aan muizen. De olifantenpopulatie heeft een gemiddeld gewicht van 5.000 kilogram en een standaarddeviatie van 400 kilogram. De muizenpopulatie heeft een gemiddeld gewicht van 15 gram en een standaarddeviatie van 5 gram. Als we de spreiding van beide populaties vergelijken met de standaarddeviatie, zouden we kunnen denken dat er een grotere spreiding is voor de populatie olifanten dan voor die van muizen.
Wanneer we echter de variatiecoëfficiënt voor beide populaties berekenen, zouden we ons realiseren dat het precies het tegenovergestelde is.
Olifanten: 400/5000 = 0,08
Muizen: 5/15 = 0,33
Als we beide gegevens met 100 vermenigvuldigen, zien we dat de variatiecoëfficiënt voor olifanten slechts 8% is, terwijl die voor muizen 33% is. Als gevolg van het verschil tussen de populaties en hun gemiddelde gewicht zien we dat de populatie met de grootste spreiding niet degene is met de grootste standaarddeviatie.
BetrouwbaarheidsintervalLineaire correlatiecoëfficiënt