Een statistische steekproef is een subset van gegevens die behoren tot een populatie van gegevens. Statistisch gezien moet het bestaan uit een aantal waarnemingen die de totale gegevens adequaat weergeven.
Statistiek is als tak van de wiskunde verantwoordelijk voor het verzamelen, ordenen en analyseren van gegevens. Met andere woorden, wanneer we een bepaald fenomeen willen bestuderen, wenden we ons tot statistieken. Een goed voorbeeld van een fenomeen dat door statistieken wordt bestudeerd, is het gemiddelde salaris van de burgers van een land
In die zin kunnen we om redenen van tijd en kosten niet alle gegevens verzamelen. Deze totaliteit van gegevens is wat bekend staat als een gegevenspopulatie of gewoon een populatie.
Waarom werk je met statistische steekproeven?
Om uit te leggen waarom een statistische steekproef wordt gebruikt in plaats van de totale populatie, zullen we onze toevlucht nemen tot het hierboven genoemde voorbeeld.
Stel dat we een fenomeen willen bestuderen. In ons geval is dit fenomeen het gemiddelde salaris van de burgers van een land. De gegevenspopulatie bestaat uit elke werknemer in het land. Natuurlijk zou het om redenen van tijd en kosten onmogelijk zijn om elke werknemer te vragen wat hun jaarsalaris is. Het zou veel tijd kosten of we zouden veel middelen nodig hebben.
Op dit punt verschijnt het concept van statistische steekproef. In plaats van de miljoenen werknemers in een land of regio te vragen, verzamelen we slechts een kleine hoeveelheid gegevens. We vroegen het bijvoorbeeld aan 100.000 mensen. Deze taak is nog steeds ingewikkeld, maar het is veel betaalbaarder om 100.000 mensen te vragen dan om 30 miljoen te vragen.
Deze kleine hoeveelheid gegevens moet representatief zijn. Dat wil zeggen, het moet de bevolking adequaat vertegenwoordigen. Als de 100.000 mensen die we hebben gevraagd geconcentreerd zijn in welvarende buurten, krijgen we gegevens die niet representatief zijn. Het gemiddelde salaris zou veel hoger zijn dan het in werkelijkheid is.
Kenmerken van een representatieve statistische steekproef
Als je goed onderzoek wilt doen, is de kwaliteit van de statistische steekproef essentieel. Het is nutteloos om de meest complexe statistische metrieken uit te voeren met de meest geavanceerde modellen als de statistische steekproef vertekend is. Dat wil zeggen, als de steekproef niet representatief is.
Bij het verkrijgen van een representatieve steekproef zijn er bepaalde aspecten die de onderzoeker vooraf moet weten. Tot deze aspecten behoren de kenmerken van een representatieve steekproef. De kenmerken van een representatieve steekproef zijn als volgt:
- Groot genoeg maat: Wanneer we met steekproeven werken, werken we normaal gesproken met een hoeveelheid gegevens die kleiner is dan de populatie. Om representatief te zijn, moet een statistische steekproef echter groot genoeg zijn om als representatief te worden beschouwd. Als onze populatie bijvoorbeeld uit 10 miljoen gegevens bestaat en we kiezen er 10, dan is het moeilijk om representatief te zijn. Natuurlijk, hoe groter de steekproef is niet altijd representatiever.
- Willekeurigheid: De selectie van gegevens uit een statistische steekproef moet willekeurig zijn. Dat wil zeggen, het moet volkomen willekeurig zijn. Als we in plaats van het willekeurig te doen, een gepland gegevensselectieproces uitvoeren, introduceren we een vertekening in de gegevensverzameling. Om te voorkomen dat de steekproef bevooroordeeld is en er dus een representatieve steekproef van te maken, moeten we een willekeurige selectie maken.
statistische gevolgtrekking in
Eenmaal verkregen hebben we de representatieve steekproef, dan is het noodzakelijk om bepaalde statistieken af te leiden. Vaak zijn we geïnteresseerd in het kennen van een bepaalde mate van een variabele. In het eerste voorbeeld zou de variabele het salaris van de burgers van een land zijn. In die zin is de statistiek die we willen analyseren het gemiddelde salaris van de burgers van een land.
Met andere woorden, we hebben een gegevenspopulatie die bestaat uit alle werknemers in Mexico. Uit deze populatie krijgen we een variabele, namelijk het jaarsalaris. Met behulp van de juiste technieken verkrijgen we een representatief monster. En tot slot, als we eenmaal een dataset hebben waarmee we kunnen werken, gebruiken we statistische inferentietechnieken om het gemiddelde salaris te berekenen.
Zodra we de dataset hebben, kunnen we natuurlijk andere maatregelen afleiden. Bijvoorbeeld hoe het salaris wordt verdeeld, welk percentage van de werknemers onder een bepaald salaris zit of hoe groot de salariskloof is.
Statistisch voorbeeld voorbeeld
Stel dat we een onderzoek willen doen naar de gemiddelde uitgaven van Colombiaanse gezinnen in de maand januari. Hiervoor hebben we twee opties:
- Voer de bankrekeningen in van alle gezinnen in Colombia
- Vraag een representatief aantal mensen
De eerste optie is om verschillende redenen niet haalbaar. Ten eerste dat de families hun gegevens niet zullen opgeven en ten tweede dat we ook niet familie voor familie kunnen gaan kijken naar de gegevens. Vooral omdat de bevolking van Colombia bijna 50 miljoen is. Ondertussen is de tweede optie de mogelijkheid om een statistische steekproef te nemen.
Wat we zullen doen, volgens de bovengenoemde kenmerken, is 100.000 gezinnen vragen. Het is wat ingewikkeld, maar veel gemakkelijker dan 50 miljoen Colombianen te vragen. Het verschil is aanzienlijk. Op basis van die steekproef van 100.000 gezinnen zullen we dus proberen de gemiddelde uitgaven van gezinnen in januari te berekenen.
De geëxtraheerde gegevens zullen min of meer betrouwbaar zijn volgens een reeks metrieken die in statistisch onderzoek in aanmerking worden genomen. Natuurlijk zijn dit soort statistieken geavanceerder en daarom zullen we ze hier niet bespreken.