Euklidische distanz formel psychologie
Bestand noch vor 30 bis 50 Jahren das Problem, dass die Informationsbeschaffung relativ mühsam und zeitaufwendig war, und so eher ein Datendefizit auftrat, ist heute genau das Gegenteil der Fall. Durch das Internet, elektronische Datenbanken, Archivsysteme sowie Massenspeicher ist die Informationsbeschaffung preiswert und schnell geworden. Dabei ist es leicht möglich, den Überblick zu verlieren.
Die folgende Arbeit gliedert sich in zwei Abschnitte: Zunächst wird in einem theoretischen Teil eine Einordnung der Clusteranalyse vorgenommen, um dann darauf insbesondere die hierarchische Clusteranalyse darzustellen. Im zweiten Teil wird dann anhand einer Auswahl von Unternehmen eine solche Analyse mit Typisierung durchgeführt. Statistisch ist die Clusteranalyse ein struktur-entdeckendes Verfahren [1] der multivariaten Analysemethoden, wozu auch noch die Faktorenanalyse und die multidimensionale Skalierung gehören.
Cluster sind aus dem Englischen übersetzt Gruppen. Diese Gruppen sollen mit Hilfe einer Clusteranalyse erzeugt werden. Dabei wird eine Menge von Objekten so zu Teilmengen zusammengefasst, dass die Mitglieder in einer Gruppe möglichst homogen, die Gruppen untereinander aber heterogen sind. In Abbildung 1 sind solche Cluster mit ihren möglichen Formen, auf die später noch vertiefend eingegangen wird, dargestellt.
Durch die Clusteranalyse können Aussagen getroffen werden, wie eine Datenmenge strukturiert ist, wobei keine Parameter festgelegt werden müssen und alle Objektvariablen simultan berücksichtigt werden. Der Ursprung der Clusteranalyse liegt in verschiedenen Wissenschaften wie der Psychologie, Biologie oder Soziologie.
Klassifikation, Typologie oder numerische Taxonomie werden in der Literatur synonym für Clusteranalyse benutzt [5] , so dass Vogel , S. Die Typisierung ist eine Zuordnung von Objekten zu Typen, wobei ein Typ eine homogene Gruppe darstellt. Eine Typisierung beginnt meist nach einer Clusteranalyse, wobei den vorher herausgefilterten Gruppen Namen gegeben werden. Dadurch soll erreicht werden, dass die wesentlichen Charakteristika einer Gruppe erhalten bleiben, aber die möglicherweise zahlreichen Ausprägungen innerhalb der Rohdaten auf das Wesentliche beschränkt werden.
Die Zuordnung zu Clustern muss von dem Betrachter selbst vorgenommen werden. Dieses Verfahren ist sowohl für Cluster, als auch für eine Faktorenanalyse nutzbar: Entweder werden die Ergebnisse zu Gruppen zusammengefasst clustertypische Anwendung oder die berechneten Dimensionen werden inhaltlich analysiert Faktorenanalyse.
Dabei erfolgt eine Zuordnung zu Clustern auch mit einer Wahrscheinlichkeit zwischen 0 und 1. Im Weiteren erfolgt eine nähere Betrachtung der deterministischen Clusteranalyse bei einer Vernachlässigung der anderen beiden Methoden, weil für eine Typisierung eine klare Zuordnung der Klassen erfolgen muss. Schon früh begannen die Menschen, für gewisse Sachverhalte Gruppen zu bilden und so die Komplexität zu reduzieren.
Laut Aristoteles nahm Theophrastos eine erste Gruppierung von Pflanzen vor.
Multivariate Datenanalyse
Darauf aufbauend entwickelte Linne im Jahrhundert eine Klassifikation sowohl für Pflanzen als auch für Tiere und führte durch die Benennung von Oberbegriffen eine Typisierung durch. In der Psychologie werden Menschen mit unterschiedlichen Charaktereigenschaften zu Gruppen zusammengefasst, um z. Hier steht die Gruppenbildung im Vordergrund. In der Ökonomie werden Städte oder Länder als Testmärkte für neue Produkte herausgefiltert, wobei allerdings die Datenreduktionsfunktion der Clusteranalyse wichtiger ist.
Die Ausgangsbasis einer Clusteranalyse bildet eine zu untersuchende Datenmenge, die aus verschiedenen Objekten z. Länder besteht. Für jedes dieser Objekte sind gewisse Ausprägungen bzw. Variablen z. Bevölkerung, Arbeitslosenzahl, Bruttonationaleinkommen bekannt, welche wie in Abbildung 2 in einer Rohdatenmatrix angeordnet werden. Bei der deterministischen Clusteranalyse werden hierarchische und partitionierende Verfahren [11] unterschieden, um für diese Objekte eine Clustereinteilung vornehmen zu können.
Bei den partitionierenden Verfahren muss die Anzahl der zu bildenden Cluster vorher bekannt sein. Gerade wenn eine Struktur in Daten entdeckt werden soll, ist es nicht möglich eine Gruppenanzahl vorzugeben, sondern erst die Analyse selbst ergibt die Anzahl der Cluster, wofür dann hierarchische Verfahren angewendet werden müssen. Partitionierende Analysen werden manchmal dazu benutzt, die so gefundene Lösung ggf.
Bei den hierarchischen Verfahren ist es nicht notwendig, die Anzahl der zu bildenden Gruppen zu kennen. Alle zu klassifizierenden Objekte befinden sich zunächst entweder in einer Gruppe divisives Verfahren oder jedes Untersuchungsobjekt bildet ein eigenes Cluster agglomeratives Verfahren.