Determinatiecoëfficiënt (R kwadraat)

Inhoudsopgave:

Determinatiecoëfficiënt (R kwadraat)
Determinatiecoëfficiënt (R kwadraat)
Anonim

De determinatiecoëfficiënt is het aandeel van de totale variantie van de variabele die door de regressie wordt verklaard. De determinatiecoëfficiënt, ook wel R-kwadraat genoemd, weerspiegelt de mate waarin een model goed past bij de variabele die het wil verklaren.

Het is belangrijk om te weten dat het resultaat van de determinatiecoëfficiënt oscilleert tussen 0 en 1. Hoe dichter de waarde bij 1 ligt, hoe beter het model past bij de variabele die we proberen te verklaren. Omgekeerd, hoe dichter bij nul, hoe minder strak het model zal zijn en dus hoe minder betrouwbaar het zal zijn.

In de vorige uitdrukking hebben we een breuk. Dus laten we het op onderdelen doen. Eerst zullen we de teller analyseren, dat wil zeggen het bovenste gedeelte.

Voor degenen die de uitdrukking van variantie niet kennen, raad ik je aan het artikel erover te lezen. Voor degenen die het wel weten, realiseren ze zich misschien dat het de uitdrukking is van de variantie, maar met twee fundamentele verschillen.

Het eerste verschil is dat de Y een circonflex heeft of wat leraren didactisch een "hoed" noemen. Wat die hoed details is, is dat die Y de schatting is van een model van wat volgens de verklarende variabelen Y waard is, maar het is niet de echte waarde van Y, maar een schatting van Y.

Ten tweede zou het nodig zijn om te delen door T. Wat in andere gevallen wordt genoteerd als N of aantal waarnemingen. Omdat de noemerformule deze echter ook zou dragen, verwijderen we de noemers (onder) uit beide formules om de uitdrukking te vereenvoudigen. Op deze manier is het makkelijker om ermee te werken.

Vervolgens gaan we dezelfde analyse uitvoeren met het noemergedeelte (onderste gedeelte).

In dit geval is het enige verschil met de oorspronkelijke variantieformule de afwezigheid van de noemer. Dat wil zeggen, we delen niet door T of N. Op deze manier gaan we, zodra de twee delen van de generieke uitdrukking van het R-kwadraat of de determinatiecoëfficiënt zijn uitgelegd, een voorbeeld zien.

VariatiecoëfficiëntLineaire correlatiecoëfficiëntRegressie analyse

Interpretatie van de determinatiecoëfficiënt

Stel dat we het aantal doelpunten dat Cristiano Ronaldo scoort willen verklaren op basis van het aantal wedstrijden dat hij speelt. We gaan ervan uit dat hoe meer wedstrijden er gespeeld worden, hoe meer doelpunten hij zal scoren. De gegevens hebben betrekking op de laatste 8 seizoenen. Dus, na het extraheren van de gegevens, levert het model de volgende schatting op:

Zoals we in de grafiek kunnen zien, is de relatie positief. Hoe meer wedstrijden er gespeeld werden, hoe meer doelpunten hij natuurlijk scoorde in het seizoen. De fit, gebaseerd op de R-kwadraat berekening, is 0,835. Dit betekent dat het een model is waarvan de schattingen redelijk goed passen bij de reële variabele. Hoewel het technisch gezien niet correct zou zijn, zouden we zoiets kunnen zeggen dat het model 83,5% van de reële variabele verklaart.

Het probleem van de bepalingscoëfficiënt

Het probleem van de determinatiecoëfficiënt, en de reden waarom de aangepaste determinatiecoëfficiënt ontstaat, is dat het de opname van niet-significante verklarende variabelen niet benadeelt. Dat wil zeggen, als vijf verklarende variabelen aan het model worden toegevoegd die weinig verband houden met de doelpunten die Cristiano Ronaldo in een seizoen scoort, zal het R-kwadraat toenemen. Dat is de reden waarom veel econometrische, statistici en wiskundige experts zich verzetten tegen het gebruik van R-kwadraat als een representatieve maatstaf voor de goedheid van de echte fit.

De aangepaste determinatiecoëfficiënt

De aangepaste determinatiecoëfficiënt (aangepaste R-kwadraat) is de maatstaf die het percentage definieert dat wordt verklaard door de variantie van de regressie in relatie tot de variantie van de verklaarde variabele. Dat wil zeggen, hetzelfde als de R-kwadraat, maar met een verschil: de aangepaste determinatiecoëfficiënt bestraft het opnemen van variabelen.

Zoals we eerder hebben gezegd, neemt de determinatiecoëfficiënt van een model toe, zelfs als de variabelen die we opnemen niet relevant zijn. Aangezien dit een probleem is, om het op te lossen, is het aangepaste R-kwadraat zodanig dat:

In de formule is N de steekproefomvang en is k het aantal verklarende variabelen. Door wiskundige aftrek, hoe hoger de waarden van k, hoe verder het aangepaste R-kwadraat zal zijn van het normale R-kwadraat. Omgekeerd, bij lagere waarden van k, hoe dichter de centrale breuk bij 1 ligt en daarom zullen het aangepaste R-kwadraat en het normale R-kwadraat meer op elkaar lijken.

Onthouden dat k het aantal verklarende variabelen is, leiden we af dat dit niet nul kan zijn. Als het nul was, zou er geen model zijn. We zullen op zijn minst de ene variabele moeten verklaren in termen van een andere variabele. Aangezien k minimaal 1 moet zijn, kunnen de aangepaste R-kwadraat en de normale R-kwadraat niet dezelfde waarde hebben. Bovendien zal het aangepaste R-kwadraat altijd kleiner zijn dan het normale R-kwadraat.