Uitbijters detecteren met behulp van de normale verdeling

Het detecteren van uitbijters via de normale verdeling is een proces waarbij een standaarddeviatiedrempel wordt gedefinieerd en waarmee het de bedoeling is om extreme waarden van een steekproef te vinden.

Met andere woorden, uitbijters detecteren via de normale verdeling is het vinden van extreme waarden van een dataset via de gestandaardiseerde normale formule.

  • De waarden uitersten worden genoemd uitbijters in Engels.
  • De waarden intern worden genoemd insiders in Engels.

Het visueel detecteren van uitbijters kan een optie zijn als je heel weinig gegevens hebt. Bij het werken met databases is het erg onpraktisch om handmatig uitschieters te moeten zoeken. Om dit probleem op te lossen, kunnen we berekenen welke waarden als extreem worden beschouwd door te vergelijken met een drempelwaarde voor afwijkingen.

In het geval van de normale verdeling wordt een waarde als extreem beschouwd als deze 3 standaarddeviaties verwijderd is van het gemiddelde. Aangezien de normale verdeling 2 staarten heeft, moeten we er rekening mee houden dat deze zowel aan de negatieve als aan de positieve kant kan worden uitgezoomd.

Formule om uitbijters te detecteren met behulp van de normale verdeling

Een reeks waarnemingen kan op de vorige manier worden uitgedrukt, waarbij x de gemiddelde waarde is waarover de waarden oscilleren en sigma de spreiding van de oscillatie van genoemde waarden. Met andere woorden, sigma is de afstand van de waarnemingen tot de gemiddelde waarde.

De multiplicatieve factor bepaalt of het een uitbijter of een insider is. Als z de waarden 3 of -3 aanneemt, dan is volgens de normale verdeling de waarneming y een uitbijter.

Om de waarde van te kennen z we gebruiken de vorige vergelijking:

  • Als z> = 3 of z = <-3, dan kunnen we volgens de normale verdeling zeggen dat Y het is een extreme waarde of uitbijter.
  • Als z <3 of z <-3, dan kunnen we volgens de normale verdeling zeggen dat Y is een interne waarde of insider.

Normale standaard

Komt bovenstaande vergelijking u bekend voor?

Precies, het is de uitdrukking van een waarneming die een normale verdeling volgt, eenmaal gestandaardiseerd of getypeerd. Het wordt zo genoemd omdat bij het delen door de standaard of standaarddeviatie het verschil van de teller wordt uitgedrukt in termen van afwijkingen.

Om deze reden kunnen we afwijkingswaarden koppelen aan: z en dus in staat zijn om het te kopen met de drempel van 3 afwijkingen.

Voorbeeld

Vind de extreme waarden van de volgende waarnemingen volgens de normale verdeling:

We geven de waarnemingen weer in een grafiek:

Vanaf het begin kunnen we al zien dat de waarde die het verst van de rest afligt, hoogstwaarschijnlijk een uitbijter kan zijn.

Eerst berekenen we het gemiddelde en de standaarddeviatie:

x = gemiddelde = 5,8

sigma = standaarddeviatie = 10,51

Vervolgens vervangen we de waarden in de formule en berekenen we de waarde van z voor elke waarneming:

De bovenstaande waarden zijn de multiplicatieve factoren van sigma, dat wil zeggen, z. Alles dat groter is dan 3 of kleiner dan -3 is een extreme waarde.

We kunnen zien dat de waarde van z die 3 standaarddeviaties overschrijdt, is degene die overeenkomt met waarneming 49.

Daarom zou de extreme of uitbijterwaarde van de dataset 49 zijn.

Populaire Berichten

Waarom heeft de OPEC besloten de olieproductie te verminderen?

Gezien de forse daling van de olieprijs heeft de OPEC besloten de productie met 1,2 miljoen vaten per dag te verminderen. Zo zullen de kartellanden verantwoordelijk zijn voor het verminderen van de productie met 800.000 vaten per dag, waaraan nog eens 400.000 vaten per dag moeten worden toegevoegd uit niet-lidstaten van de Lees meer…

Hoeveel kost het om een ​​boek uit te geven?

Uitgevers ontvangen dagelijks tal van werken. Geconfronteerd met zo'n stortvloed aan literaire voorstellen, wijzen de grote uitgevers een groot aantal manuscripten af ​​of reageren niet eens op de auteurs. Zo ontstond als alternatief voor de traditionele manier van het uitgeven van een boek, zelfpublicatie. Self-publishing is zonder twijfel een geheel gewordenLees meer…

Het reële BBP van Colombia groeit al 18 jaar op rij gestaag

Sinds 2000 is het reële bruto binnenlands product van Colombia (het reële BBP) niet gestopt met groeien. Evenzo is de groei sinds 2012 veel groter dan die van het Zuid-Amerikaanse gemiddelde. Hoewel er nog veel moet gebeuren, is Colombia een van de meest veelbelovende economieën in Latijns-Amerika geworden. Lees verder…

Jeugdwerkloosheid: een kruispunt voor de Spaanse economie

De jeugdwerkloosheid in Spanje boekt nog steeds verre resultaten in vergelijking met de rest van de landen van de Europese Unie. Ondanks de grote toewijding van het land aan de figuur van de ondernemer, zou de rest van het gevoerde beleid de situatie kunnen verergeren. In Spanje is de laatste jaren veel nadruk gelegd opLees meer…