Een uitbijter is een abnormale en extreme waarneming in een statistische steekproef of tijdreeks van gegevens die de schatting van de parameters ervan kan beïnvloeden.
In eenvoudiger bewoordingen zou een uitbijter een waarneming zijn binnen een steekproef of een tijdreeks van gegevens die niet consistent is met de rest. Stel je bijvoorbeeld voor dat we de lengte van de leerlingen in een klas meten.
Laten we ons een steekproef van 10 studenten voorstellen. De hoogte van elk is als volgt:
Voorbeeld 1 | |
Leerling | Hoogte in meters |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
De gemiddelde lengte van de klas zou 1,73 zijn. Als we rekening houden met de maximale hoogte (1,85) en de minimale hoogte (1,62) en de afstand daartussen tot het gemiddelde, zien we dat het respectievelijk 0,113 en 0,117 is. Zoals we kunnen zien, ligt het gemiddelde ongeveer in het midden van het interval en kan het als een redelijk goede schatting worden beschouwd.
Het uitbijtereffect
Laten we nu eens kijken naar een ander voorbeeld van 10 studenten, met de volgende lengtes:
Voorbeeld 1 | |
Leerling | Hoogte in meters |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
In dit geval zou de gemiddelde hoogte van de klas 1,81 zijn. Als we nu kijken naar de maximale hoogte (2,20) en de minimale hoogte (1,62) en de afstand daartussen tot het gemiddelde, dan zien we dat deze respectievelijk 0,39 en 0,18 is. In dit geval ligt het gemiddelde niet meer ongeveer in het midden van het bereik.
Door het effect van de 2 meest extreme waarnemingen (2.18 en 2.20) is het rekenkundig gemiddelde verschoven naar de maximale waarde van de verdeling.
Met dit voorbeeld zien we welk effect uitbijters hebben en hoe ze de berekening van een gemiddelde kunnen verstoren.
Hoe uitschieters detecteren?Hoe het effect van uitbijters te corrigeren?
In situaties als deze waarin er abnormale waarden zijn die substantieel verschillen van de rest, is de mediaan een betere schatting om te weten op welk punt een groter aantal waarnemingen geconcentreerd is.
In het geval van beide verdelingen en aangezien we een even aantal waarden hebben, kunnen we niet precies de waarde nemen die de verdeling halveert om de mediaan te berekenen. Waarmee we na het ordenen van de waarden van laag naar hoog de vijfde en zesde waarneming zouden nemen (beiden laten 4 waarnemingen aan elke kant over) en we zouden de mediaan als volgt berekenen:
Voorbeeld 1:
1,75+1,72/2 = 1,73
Voorbeeld 2:
1,79+1,71/2 = 1,75
Zoals we kunnen zien, is in steekproef nummer 1, aangezien er geen uitbijters of abnormale waarnemingen zijn, de mediaan 1,73 en valt deze samen met het gemiddelde. Integendeel, voor steekproef 2 is het gemiddelde 1,75. Zoals we kunnen zien, ligt deze waarde verder weg van de gemiddelde hoogte, die 1,81 was en geeft ons een puntschatting van hogere kwaliteit om ongeveer te weten op welk punt een groter aantal waarnemingen is geconcentreerd.
Puntschatting