Multicollineariteit is de sterke lineaire afhankelijkheidsrelatie tussen meer dan twee verklarende variabelen in een meervoudige regressie die de Gauss-Markov-aanname schendt wanneer deze exact is.
Met andere woorden, multicollineariteit is de hoge correlatie tussen meer dan twee verklarende variabelen.
We benadrukken dat de lineaire relatie (correlatie) tussen verklarende variabelen sterk moet zijn. Het is heel gebruikelijk dat de verklarende variabelen van de regressie gecorreleerd zijn. Er moet dus op worden gewezen dat deze relatie sterk, maar nooit perfect moet zijn, om als een geval van multicollineariteit te worden beschouwd. De lineaire relatie zou perfect zijn als de correlatiecoëfficiënt 1 was.
Wanneer deze sterke lineaire (maar niet perfecte) relatie alleen tussen twee verklarende variabelen voorkomt, spreken we van collineariteit. Er zou sprake zijn van multicollineariteit wanneer de sterke lineaire relatie optreedt tussen meer dan twee onafhankelijke variabelen.
De veronderstelling van Gauss-Markov over exacte niet-multicollineariteit definieert dat de verklarende variabelen in een steekproef niet constant kunnen zijn. Verder mogen er geen exacte lineaire relaties zijn tussen verklarende variabelen (geen exacte multicollineariteit). Gauss-Markov laat ons geen exacte multicollineariteit toe, maar benadert multicollineariteit.
Regressie analyseToepassingen
Er zijn zeer bijzondere gevallen, meestal onrealistisch, waarin de regressievariabelen volledig los van elkaar staan. In deze gevallen spreken we van exogeniteit van de verklarende variabelen. De sociale wetenschappen staan over het algemeen bekend om het opnemen van benaderde multicollineariteit in hun regressies.
Exacte multicollineariteit
Exacte multicollineariteit treedt op wanneer meer dan twee onafhankelijke variabelen een lineaire combinatie zijn van andere onafhankelijke variabelen in de regressie.
Problemen
Wanneer Gauss Markov exacte multicollineariteit verbiedt, is dat omdat we de schatter van de gewone kleinste kwadraten (OLS) niet kunnen verkrijgen.
Wiskundig uitdrukken van de geschatte bèta sub-i in matrixvorm:
Dus als er exacte multicollineariteit is, zorgt dit ervoor dat de matrix (X'X) een determinant 0 heeft en daarom niet inverteerbaar is. Niet inverteerbaar zijn betekent niet kunnen rekenen (X'X)-1 en bijgevolg geen van beide geschatte Beta sub-i.
Geschatte multicollineariteit
Geschatte multicollineariteit treedt op wanneer meer dan twee onafhankelijke variabelen niet precies (bij benadering) een lineaire combinatie zijn van andere onafhankelijke variabelen in de regressie.
De variabele k vertegenwoordigt een willekeurige variabele (onafhankelijk en identiek verdeeld (i.i.d)). De frequentie van je waarnemingen kan naar tevredenheid worden benaderd met een standaard normale verdeling met gemiddelde 0 en variantie 1. Aangezien het een willekeurige variabele is, impliceert dit dat in elke waarneming i de waarde van k anders zal zijn en onafhankelijk van een eerdere waarde.
Problemen
Wiskundig uitgedrukt in matrixvorm:
Dus als er bij benadering multicollineariteit is, zorgt dit ervoor dat de matrix (X'X) ongeveer 0 is en de determinatiecoëfficiënt heel dicht bij 1.
Oplossing
Multicollineariteit kan worden verminderd door de regressoren van de variabelen met een hoge lineaire relatie daartussen te elimineren.
Lineaire correlatiecoëfficiënt