Survival bias is een bias die optreedt bij het verzamelen van gegevens wanneer gegevens worden uitgesloten van de analyse omdat deze vandaag niet meer bestaan.
Deze vooringenomenheid ontstaat in een breed scala van contexten waarin we ons alleen richten op die 'overlevende' gegevens. Een voorbeeld hiervan is te zien wanneer bedrijven hun klanten enquêteren over een van hun producten. Maar ze laten hun niet-klanten, in dit geval de 'niet-overlevenden', in de vergetelheid.
In dat geval zou het verkeerd zijn om conclusies te trekken uit dat onderzoek. Omdat de resultaten alleen bevooroordeeld zouden zijn voor de "overlevende" populatie. En het zouden geen representatieve resultaten zijn.
Survival bias in de praktijk
Een duidelijk voorbeeld van deze bias is te zien in het onderzoek naar de resultaten van beleggingsfondsen. Waar de meeste databases alleen fondsen bevatten die vandaag bestaan. Ongeacht de fondsen die er in het verleden waren.
De reden waarom ze vandaag niet bestaan, is omdat hun prestaties slechter waren dan die van de 'overlevenden'. Of er zijn zelfs meerdere fondsen samengevoegd tot één. Daarom wordt de analyse uitgevoerd op die fondsen met de beste resultaten. En deze vooringenomenheid heeft de neiging om de prestaties van de steekproef van deze fondsen te overschatten.
Het grootste probleem hierbij is niet langer alleen de overschatting van de prestaties van het fonds. In plaats daarvan zou de geselecteerde steekproef geen willekeurige steekproef van de totale populatie zijn. En daarom zijn de resultaten van het onderzoek mogelijk niet representatief voor de populatie. Dat is uiteindelijk waar we naar op zoek zijn bij het selecteren van een willekeurige steekproef uit de populatie.
Oplossing voor overlevingsvooroordeel
Stel dat we een beleggingsfonds willen selecteren om in te beleggen, op basis van zijn gedrag in het verleden. Om deze overlevingsbias te voorkomen en die selectie te optimaliseren, moeten we de volgende stappen uitvoeren:
- Kies de tijdshorizon waarmee we willen werken. Bijvoorbeeld tien, vijftien of twintig jaar geschiedenis.
- Neem alle bestaande fondsen vanaf het begin van de tijdshorizon, of ze nu bestaan of niet.
- Van daaruit selecteert u de steekproef uit die populatie voor de studie van gedrag.
Het idee hiervan is uiteindelijk om die willekeurige steekproef van de populatie te krijgen. En van daaruit werden de conclusies getrokken, als ze representatief zouden kunnen zijn voor die populatie.