Clusteranalyse - Wat is het, definitie en concept

Inhoudsopgave:

Anonim

Clusteranalyse is een reeks multivariate statistische technieken die tot doel hebben een reeks gevallen of individuen in clusters of clusters te groeperen.

Clusteranalyse is daarom een ​​soort statistische groepering. Het doel is om de gegevens in elk cluster zoveel mogelijk op elkaar te laten lijken en zo verschillend mogelijk in relatie tot de andere groepen. Het kan ook met variabelen.

Gegevenstransformatie in clusteranalyse

Een van de problemen die we tegenkomen wanneer we gegevens groeperen, is dat gegevens zich soms in verschillende meeteenheden bevinden. Om deze reden moet een pre-clusteranalysestap worden uitgevoerd die clustering mogelijk maakt.

De meest gebruikte methode is standaardisatie. Dit wordt gebruikt om de gegevens te transformeren zodat ze vergelijkbare meeteenheden hebben. Er moet rekening worden gehouden met twee regels, binaire variabelen zijn niet gestandaardiseerd en, als ze categorisch zijn, worden ze binair (aanwezig / afwezig).

Methoden in clusteranalyse

Er zijn veel methoden om de clusteranalyse uit te voeren, maar in Economy-Wiki.com, volgens het principe van eenvoud dat ons kenmerkt, zullen we de meest relevante op een schematische manier zien.

Hiërarchische methoden

Een eerste classificatie zou hiërarchische of niet-hiërarchische methoden zijn. De eerstgenoemden groeperen individuen in hiërarchische fasen (vandaar hun naam). Op deze manier verandert slechts één object tegelijk van groep, terwijl de rest op dezelfde plaats blijft.

Deze zijn op hun beurt onderverdeeld in:

Agglomeratieve methoden

Het bestaat uit het elke keer groeperen van individuen in minder clusters. Het gaat uit van een aantal groepen gelijk aan het aantal gevallen en neemt af.

De bekendste zijn:

  • Dichtstbijzijnde methode: In dit geval gebruikt u een algoritme om de gegevens te groeperen. Wat u zoekt is de minimale afstand tussen de dichtstbijzijnde personen. Het is erg gevoelig voor gegevens die zogenaamde "ruis" kunnen veroorzaken. De verste buurmethode is vergelijkbaar.
  • Gemiddelde methode tussen groepen: Wat het doet is het gemiddelde berekenen van de afstand tussen de individuen in een groep en een van hen in het bijzonder. Het is erg handig om de zogenaamde "ruis" te verminderen.
  • Ward's methode: Wat het doet is de kwadraten van de afwijkingen tussen elk individu en het gemiddelde van zijn cluster optellen, om het verlies van informatie te voorkomen. Het is een van de bekendste en heeft de voordelen van de methode die gebaseerd is op het gemiddelde, maar grotere onderscheidingsvermogen.

Dissociatieve methoden

Wat je in dit geval doet, is verdelen. Het begint met één cluster en er worden indelingen voorgesteld op basis van een reeks vereisten.

De meest voorkomende zijn:

  • Gemiddelde tussen groepen, methode naaste buur en verste buur: Deze drie methoden zijn vergelijkbaar met het vorige geval, maar met behulp van de dissociatieve methode. Dat wil zeggen, deze keer is wat we doen gescheiden en niet in groep.
  • Zwaartepunt methode:: Het wordt veel gebruikt bij optimalisatieproblemen op het gebied van locatielocaties. Gebruik dit type analyse om de meest geschikte te vinden.

Niet-hiërarchische methoden

In dit geval beginnen ze met een vooraf ingestelde oplossing. Dit is het startpunt voor clusteranalyse. Op deze manier worden de groepen vooraf vastgesteld en wordt elk geval in een ervan geplaatst, afhankelijk van de kenmerken ervan. We kunnen ze op hun beurt weer onderverdelen in andere subgroepen.

  • Hertoewijzingsmethoden: De meest relevante zijn de zwaartepuntmethoden, zoals k-means. Die van medioïden, zoals PAM. Of die van dynamische wolken.
  • Directe methoden: De belangrijkste is blokclustering, veel gebruikt in datamining.
  • Reductieve methoden: Deze zijn gebaseerd op factoranalyse.
  • Dichtheidszoekmethoden: Enerzijds zijn er die van typologische benaderingen, zoals modale analyse. Aan de andere kant hebben we de probabilistische, zoals die van Wolf.

Voorbeelden van clusteranalyse

Laten we tot slot enkele voorbeelden bekijken van toepassingen voor clusteranalyse.

  • Laten we ons voorstellen dat we een groep landen hebben die we willen groeperen op basis van bepaalde macro-economische variabelen, zoals inflatie of werkloosheid. We kunnen dit soort analyse gebruiken om homogene groepen te maken, bijvoorbeeld meer of minder ontwikkelde landen.
  • Een ander voorbeeld zou een reeks consumenten kunnen zijn met bepaalde sociodemografische kenmerken. Het idee is om groepen te creëren met vergelijkbare individuen en die op hun beurt heel verschillend van elkaar zijn.
  • Maar naast economie is clusteranalyse ook bruikbaar in andere wetenschappen. Bijvoorbeeld in de biologie, om soorten te classificeren, of in de geologie, om hetzelfde te doen met mineralen.