Kolmogorov-test - Smirnoff (K-S)

De Kolmogorov-Smirnoff (K-S) test is een niet-parametrische test die tot doel heeft te bepalen of de frequentie van twee verschillende datasets dezelfde verdeling rond hun gemiddelde volgen.

Met andere woorden, de Kolmogorov-Smirnoff (K-S)-test is een test die zich aanpast aan de vorm van de gegevens en wordt gebruikt om te controleren of twee verschillende steekproeven dezelfde verdeling volgen.

Waarom is het een niet-parametrische test?

Het mooie van het "niet-parametrische" kenmerk is dat het past bij de gegevens en bijgevolg bij de verdelingen die de frequentie van de gegevens kunnen volgen. Bovendien zorgt deze functie ervoor dat we niet hoeven aan te nemen dat: a priori welke verdeling volgt de steekproef.

Belang van de K-S-test

Hoe vaak hebben we twee steekproeven gekregen en de correlatiecoëfficiënt van Pearson berekend zonder er twee keer over na te denken? Met andere woorden, als we de lineaire relatie tussen twee datasets willen zien, zou het eerlijk zijn om de correlatie te berekenen, toch?

Deze aftrek zou waar zijn als de verdelingen van de twee steekproeven een normale verdeling volgen. De correlatiecoëfficiënt gaat ervan uit dat de verdelingen normaal zijn, als we deze aanname overslaan, is het resultaat van de correlatiecoëfficiënt verkeerd. Voor de hypothesetoetsen en de betrouwbaarheidsintervallen nemen we ook aan dat de populatie normaal verdeeld is.

Zoals bij alle hypothesetests waarbij statistiek betrokken is, is het belangrijk om een ​​grote hoeveelheid gegevens te hebben om statistisch significante resultaten te krijgen. We kunnen ten onrechte een nulhypothese verwerpen omdat de steekproef klein is. Verder is het ook belangrijk dat deze steekproef enkele extreme gevallen heeft (uitbijters, in het Engels) om consistentie te geven aan het testresultaat.

Test procedure

De procedure van de volgende stappen.

Hypothese

De eerste stap is om te controleren of beide steekproeven dezelfde verdeling hebben. Om dit te doen, voeren we een hypothesetest uit in de veronderstelling dat beide steekproeven dezelfde verdeling hebben tegen de alternatieve hypothese dat ze verschillend zijn.

Statistisch

We werken met de cumulatieve verdelingsfuncties van twee steekproeven, F1(x) en F2(X):

Geen paniek! We analyseren de bovenstaande formule rustig:

  • Het belangrijkste deel van de formule is de verschil teken (-). We zoeken naar verticale verschillen in de verdelingen. We zullen dus beide cumulatieve verdelingsfuncties aftrekken.
  • De bediener "max". We zijn geïnteresseerd in het vinden van het grootste of maximale verschil om te zien hoe verschillend de twee distributies kunnen zijn.
  • De absolute waarde. We gebruiken de absolute waarde zodat de volgorde van de operatoren het resultaat niet verandert. Met andere woorden, het maakt niet uit welke F (x) het minteken heeft:

Kritische waarde

Voor grote steekproeven is er een benadering van de kritische waarde voor K-S die afhangt van het significantieniveau (%):

Waar1 en N2 zijn de steekproefomvang voor de F-sample1(x) en F2(x) respectievelijk.

Enkele berekende kritische waarden:

afwijzing regel

App

Heel vaak willen we testen of twee distributies voldoende van elkaar verschillen wanneer we voorspellingsscenario's willen bouwen (we werken met twee steekproeven) of wanneer we willen evalueren welke verdeling het beste bij de data past (we werken met slechts één steekproef).

Populaire Berichten

Analyse: Banxico zet zich in om door te gaan met een interbancaire rente van 8,25%

Veel analisten hadden er al op geanticipeerd. De Centrale Bank van Mexico heeft de beslissing genomen om de interbancaire marktrente op 8,25% te handhaven. Laten we, om deze vastberadenheid te begrijpen, eens kijken naar het Mexicaanse economische landschap. De wereldeconomie maakt een vertraging door en registreert niet alleen lagere groeicijfersLees meer…

Hoe maak je een effectieve verkoopbrief

Een verkoopbrief is een document dat bedoeld is om de verkoop van producten en diensten te promoten. Weet jij hoe je het kunt gebruiken om meer omzet te genereren? In dit type document wordt de te verkopen dienst of het te verkopen product gepresenteerd en worden gewoonlijk copywriting-technieken gebruikt om de ontvanger aan te moedigen deze te verwerven. Het is beschikbaarLees meer…

Hoe maak je een nieuwsbrief die converteert?

Elke zichzelf respecterende digitale communicatiestrategie moet onder meer e-mailmarketing omvatten, of wat hetzelfde is, het verzenden van berichten via e-mail met een commercieel doel. Deze tool wordt een krachtige communicatietechniek waarmee een bedrijf, merk of individu kan worden aangetrokken Lees meer…

Relevante variabele weggelaten

✅ Weglaten van relevante variabele | Wat het is, betekenis, concept en definitie. Het weglaten van een relevante variabele is het niet opnemen van een belangrijke verklarende variabele ...…