Hierarchisches vs partitionales Clustering

Clustering ist eine maschinelle Lerntechnik zum Analysieren von Daten und zum Aufteilen in Gruppen ähnlicher Daten. Diese Gruppen oder Sätze ähnlicher Daten werden als Cluster bezeichnet. Bei der Clusteranalyse werden Clustering-Algorithmen untersucht, mit denen Cluster automatisch identifiziert werden können. Hierarchisch und Partitionell sind zwei solche Klassen von Clustering-Algorithmen. Hierarchische Clustering-Algorithmen teilen die Daten in eine Hierarchie von Clustern auf. Paritionale Algorithmen unterteilen den Datensatz in voneinander getrennte Partitionen.

Was ist hierarchisches Clustering?

Hierarchische Clustering-Algorithmen wiederholen den Zyklus, entweder kleinere Cluster zu größeren zusammenzuführen oder größere Cluster zu kleineren zu teilen. In beiden Fällen wird eine Hierarchie von Clustern erstellt, die als Dendogramm bezeichnet wird. Die agglomerative Clustering-Strategie verwendet den Bottom-Up-Ansatz zum Zusammenführen von Clustern zu größeren, während die Divisive Clustering-Strategie den Top-Down-Ansatz zum Aufteilen in kleinere Cluster verwendet. Typischerweise wird der gierige Ansatz verwendet, um zu entscheiden, welche größeren / kleineren Cluster zum Zusammenführen / Teilen verwendet werden. Die euklidische Entfernung, die Manhattan-Entfernung und die Kosinusähnlichkeit sind einige der am häufigsten verwendeten Ähnlichkeitsmetriken für numerische Daten. Für nicht numerische Daten werden Metriken wie der Hamming-Abstand verwendet. Es ist wichtig zu beachten, dass die tatsächlichen Beobachtungen (Instanzen) für die hierarchische Clusterbildung nicht benötigt werden, da nur die Matrix der Entfernungen ausreicht. Das Dendogramm ist eine visuelle Darstellung der Cluster, die die Hierarchie sehr klar darstellt. Der Benutzer kann abhängig von der Ebene, auf der das Dendogramm geschnitten wird, unterschiedliche Cluster erhalten.

Was ist Partitional Clustering?

Partitionale Clustering-Algorithmen generieren verschiedene Partitionen und bewerten sie dann nach einem bestimmten Kriterium. Sie werden auch als nicht hierarchisch bezeichnet, da jede Instanz in genau einem von k sich gegenseitig ausschließenden Clustern platziert ist. Da nur ein Satz von Clustern die Ausgabe eines typischen partiellen Clustering-Algorithmus ist, muss der Benutzer die gewünschte Anzahl von Clustern eingeben (normalerweise als k bezeichnet). Einer der am häufigsten verwendeten partitionalen Clustering-Algorithmen ist der k-means-Clustering-Algorithmus. Der Benutzer muss vor dem Start die Anzahl der Cluster (k) angeben, und der Algorithmus initiiert zuerst die Zentren (oder Schwerpunkte) der k Partitionen. Kurz gesagt, der k-means Clustering-Algorithmus weist dann Mitglieder basierend auf den aktuellen Zentren zu und schätzt Zentren basierend auf den aktuellen Mitgliedern neu. Diese beiden Schritte werden wiederholt, bis eine bestimmte Zielfunktion für die Ähnlichkeit innerhalb des Clusters und die Zielfunktion für die Unähnlichkeit zwischen Clustern optimiert sind. Daher ist eine sinnvolle Initialisierung von Zentren ein sehr wichtiger Faktor, um Qualitätsergebnisse aus partitionalen Clustering-Algorithmen zu erhalten.

Was ist der Unterschied zwischen hierarchischem und partitionalem Clustering?

Hierarchisches und partitionales Clustering weisen wesentliche Unterschiede in Bezug auf Laufzeit, Annahmen, Eingabeparameter und resultierende Cluster auf. In der Regel ist das partielle Clustering schneller als das hierarchische Clustering. Hierarchisches Clustering erfordert nur ein Ähnlichkeitsmaß, während partitionales Clustering stärkere Annahmen wie die Anzahl der Cluster und die Anfangszentren erfordert. Für das hierarchische Clustering sind keine Eingabeparameter erforderlich, während für partielle Clustering-Algorithmen die Anzahl der Cluster erforderlich ist, um ausgeführt zu werden. Hierarchisches Clustering liefert eine viel aussagekräftigere und subjektivere Aufteilung von Clustern, aber partitionales Clustering führt zu genau k Clustern. Hierarchische Clustering-Algorithmen eignen sich besser für kategoriale Daten, sofern ein Ähnlichkeitsmaß entsprechend definiert werden kann.