Kolmogorov-test - Smirnoff (K-S)

Inhoudsopgave:

Kolmogorov-test - Smirnoff (K-S)
Kolmogorov-test - Smirnoff (K-S)
Anonim

De Kolmogorov-Smirnoff (K-S) test is een niet-parametrische test die tot doel heeft te bepalen of de frequentie van twee verschillende datasets dezelfde verdeling rond hun gemiddelde volgen.

Met andere woorden, de Kolmogorov-Smirnoff (K-S)-test is een test die zich aanpast aan de vorm van de gegevens en wordt gebruikt om te controleren of twee verschillende steekproeven dezelfde verdeling volgen.

Waarom is het een niet-parametrische test?

Het mooie van het "niet-parametrische" kenmerk is dat het past bij de gegevens en bijgevolg bij de verdelingen die de frequentie van de gegevens kunnen volgen. Bovendien zorgt deze functie ervoor dat we niet hoeven aan te nemen dat: a priori welke verdeling volgt de steekproef.

Belang van de K-S-test

Hoe vaak hebben we twee steekproeven gekregen en de correlatiecoëfficiënt van Pearson berekend zonder er twee keer over na te denken? Met andere woorden, als we de lineaire relatie tussen twee datasets willen zien, zou het eerlijk zijn om de correlatie te berekenen, toch?

Deze aftrek zou waar zijn als de verdelingen van de twee steekproeven een normale verdeling volgen. De correlatiecoëfficiënt gaat ervan uit dat de verdelingen normaal zijn, als we deze aanname overslaan, is het resultaat van de correlatiecoëfficiënt verkeerd. Voor de hypothesetoetsen en de betrouwbaarheidsintervallen nemen we ook aan dat de populatie normaal verdeeld is.

Zoals bij alle hypothesetests waarbij statistiek betrokken is, is het belangrijk om een ​​grote hoeveelheid gegevens te hebben om statistisch significante resultaten te krijgen. We kunnen ten onrechte een nulhypothese verwerpen omdat de steekproef klein is. Verder is het ook belangrijk dat deze steekproef enkele extreme gevallen heeft (uitbijters, in het Engels) om consistentie te geven aan het testresultaat.

Test procedure

De procedure van de volgende stappen.

Hypothese

De eerste stap is om te controleren of beide steekproeven dezelfde verdeling hebben. Om dit te doen, voeren we een hypothesetest uit in de veronderstelling dat beide steekproeven dezelfde verdeling hebben tegen de alternatieve hypothese dat ze verschillend zijn.

Statistisch

We werken met de cumulatieve verdelingsfuncties van twee steekproeven, F1(x) en F2(X):

Geen paniek! We analyseren de bovenstaande formule rustig:

  • Het belangrijkste deel van de formule is de verschil teken (-). We zoeken naar verticale verschillen in de verdelingen. We zullen dus beide cumulatieve verdelingsfuncties aftrekken.
  • De bediener "max". We zijn geïnteresseerd in het vinden van het grootste of maximale verschil om te zien hoe verschillend de twee distributies kunnen zijn.
  • De absolute waarde. We gebruiken de absolute waarde zodat de volgorde van de operatoren het resultaat niet verandert. Met andere woorden, het maakt niet uit welke F (x) het minteken heeft:

Kritische waarde

Voor grote steekproeven is er een benadering van de kritische waarde voor K-S die afhangt van het significantieniveau (%):

Waar1 en N2 zijn de steekproefomvang voor de F-sample1(x) en F2(x) respectievelijk.

Enkele berekende kritische waarden:

afwijzing regel

App

Heel vaak willen we testen of twee distributies voldoende van elkaar verschillen wanneer we voorspellingsscenario's willen bouwen (we werken met twee steekproeven) of wanneer we willen evalueren welke verdeling het beste bij de data past (we werken met slechts één steekproef).