Buchbestellung
Buchbestellung

Einordung

Die Clusteranalyse strebt eine Bündelung von Objekten an. Das Ziel ist dabei, die Objekte so zu Gruppen (Clustern) zusammenzufassen, dass die Objekte in einer Gruppe möglichst ähnlich und die Gruppen untereinander möglichst unähnlich sind. Beispiele sind die Bildung von Persönlichkeitstypen auf Basis der psychografischen Merkmale von Personen oder die Bildung von Marktsegmenten auf Basis nachfragerelevanter Merkmale von Käufern.

Verfahrenssteckbrief

Name des Verfahrens: Clusteranalyse
Kernfrage des Verfahrens: Wie können Objekte, die durch verschiedene Merkmale beschrieben sind, zu homogenen Gruppen zusammenfasst werden?
Verfahrenstyp: Interdependenzanalyse
Variablenmenge: ungeteilt
Skalenniveau:  
- abhängige Variable - nicht relevant -
- unabhängige Variable - nicht relevant -
- bei ungeteilter Variablenmenge nicht-metrisches und metrisches Skalenniveau
Verfahrensintension: struktur-entdeckendes Verfahren (explorativ)
Verfahrensvarianten: verschiedene Fusionierungsalgorithmen
Schätzverfahren: Linkage-Verfahren; Single Linkage; Complete Linkage; Average Linkage; Ward-Verfahren
Menüaufruf in SPSS 16.0: Analysieren → Klassifizieren → Hierarchische Cluster
Prozedurname in SPSS: CLUSTER (sowie QUICK CLUSTER)
Anmerkungen:

- keine -

Wichtige Begriffe, die in diesem Kapitel erklärt werden: Calinski-Harabasz-Kriterium; Chi-Quadrat-Maß; Clusterzentren-analyse; Dendrogramm; Elbow-Kriterium; Euklidische Distanz; Fehlerquadratsumme; Furthest Neighbour; L1-Norm; Minkowski-Metrik; Jaccard-Koeffizient; Nearest Neighbour; Phi-Quadrat-Maß; Proximitätsmaße; Q-Korrelation; Russel&Rao-Koeffizient; Stopping rules; Test von Mojena

Inhaltsverzeichnis

Inhalt Clusteranalyse

FAQ

Was sind die Anwendungsvoraussetzungen der Clusteranalyse?

  • eine ausreichende Zahl von Objekten
  • möglichst keine Ausreißer, da sonst Verzerrungen auftreten
  • nur (aus theoretischer Sicht) relevante Merkmale in Gruppierungsprozess berücksichtigen
  • möglichst unkorrelierte Merkmale (Gewichtungsproblematik)
  • keine konstanten Merkmale verwenden, die bei allen Objekten gleich ausgeprägt sind (Nivellierung)

Wie ist das Dendrogramm zu erklären bzw. zu interpretieren?
Graphische Veranschaulichung der einzelnen Fusionierungsschritte, aus der der Fusionierungsprozess (auf einer normierten Skala) sowie die Gruppenzugehörigkeit der einzelnen Objekte zu erkennen ist.

Warum neigt das Single Linkage Verfahren zur Kettenbildung?
Liegt an der Neuberechnung der Distanzen zusammengefasster Objekt bzw. Cluster (nearest Neighbour). Berechnung der Distanz D(R; P+Q) zwischen Objekt/Gruppe R und der neu zusammengefassten Gruppe P und Q durch folgende Formel: D(R; P+Q) = A × D(R, P) + B × D(R, Q) + E × D(P, Q) + G × | D(R, P) - D(R, Q) | Die einzelnen agglomerativen Fusionierungsverfahren unterscheiden sich durch die Wahl der Parameter A, B, E und G.