Uitbijters detecteren met behulp van de normale verdeling

Inhoudsopgave:

Uitbijters detecteren met behulp van de normale verdeling
Uitbijters detecteren met behulp van de normale verdeling
Anonim

Het detecteren van uitbijters via de normale verdeling is een proces waarbij een standaarddeviatiedrempel wordt gedefinieerd en waarmee het de bedoeling is om extreme waarden van een steekproef te vinden.

Met andere woorden, uitbijters detecteren via de normale verdeling is het vinden van extreme waarden van een dataset via de gestandaardiseerde normale formule.

  • De waarden uitersten worden genoemd uitbijters in Engels.
  • De waarden intern worden genoemd insiders in Engels.

Het visueel detecteren van uitbijters kan een optie zijn als je heel weinig gegevens hebt. Bij het werken met databases is het erg onpraktisch om handmatig uitschieters te moeten zoeken. Om dit probleem op te lossen, kunnen we berekenen welke waarden als extreem worden beschouwd door te vergelijken met een drempelwaarde voor afwijkingen.

In het geval van de normale verdeling wordt een waarde als extreem beschouwd als deze 3 standaarddeviaties verwijderd is van het gemiddelde. Aangezien de normale verdeling 2 staarten heeft, moeten we er rekening mee houden dat deze zowel aan de negatieve als aan de positieve kant kan worden uitgezoomd.

Formule om uitbijters te detecteren met behulp van de normale verdeling

Een reeks waarnemingen kan op de vorige manier worden uitgedrukt, waarbij x de gemiddelde waarde is waarover de waarden oscilleren en sigma de spreiding van de oscillatie van genoemde waarden. Met andere woorden, sigma is de afstand van de waarnemingen tot de gemiddelde waarde.

De multiplicatieve factor bepaalt of het een uitbijter of een insider is. Als z de waarden 3 of -3 aanneemt, dan is volgens de normale verdeling de waarneming y een uitbijter.

Om de waarde van te kennen z we gebruiken de vorige vergelijking:

  • Als z> = 3 of z = <-3, dan kunnen we volgens de normale verdeling zeggen dat Y het is een extreme waarde of uitbijter.
  • Als z <3 of z <-3, dan kunnen we volgens de normale verdeling zeggen dat Y is een interne waarde of insider.

Normale standaard

Komt bovenstaande vergelijking u bekend voor?

Precies, het is de uitdrukking van een waarneming die een normale verdeling volgt, eenmaal gestandaardiseerd of getypeerd. Het wordt zo genoemd omdat bij het delen door de standaard of standaarddeviatie het verschil van de teller wordt uitgedrukt in termen van afwijkingen.

Om deze reden kunnen we afwijkingswaarden koppelen aan: z en dus in staat zijn om het te kopen met de drempel van 3 afwijkingen.

Voorbeeld

Vind de extreme waarden van de volgende waarnemingen volgens de normale verdeling:

We geven de waarnemingen weer in een grafiek:

Vanaf het begin kunnen we al zien dat de waarde die het verst van de rest afligt, hoogstwaarschijnlijk een uitbijter kan zijn.

Eerst berekenen we het gemiddelde en de standaarddeviatie:

x = gemiddelde = 5,8

sigma = standaarddeviatie = 10,51

Vervolgens vervangen we de waarden in de formule en berekenen we de waarde van z voor elke waarneming:

De bovenstaande waarden zijn de multiplicatieve factoren van sigma, dat wil zeggen, z. Alles dat groter is dan 3 of kleiner dan -3 is een extreme waarde.

We kunnen zien dat de waarde van z die 3 standaarddeviaties overschrijdt, is degene die overeenkomt met waarneming 49.

Daarom zou de extreme of uitbijterwaarde van de dataset 49 zijn.