Agruparea ierarhică se referă la o procedură de învățare nesupravegheată care determină clustere succesive pe baza clusterelor definite anterior. Funcționează prin gruparea datelor într-un arbore de clustere. Statistici de grupare ierarhică prin tratarea fiecărui punct de date ca un cluster individual. Punctul final se referă la un set diferit de clustere, în care fiecare cluster este diferit de celălalt cluster, iar obiectele din fiecare cluster sunt aceleași între ele.
Există două tipuri de grupare ierarhică
- Clustering Ierarhic Aglomerativ
- Clustering divizor
Clusterizare ierarhică aglomerativă
Gruparea aglomerativă este unul dintre cele mai comune tipuri de grupare ierarhică utilizată pentru a grupa obiecte similare în clustere. Aglomerarea aglomerativă este cunoscută și sub numele de AGNES (Agglomerative Nesting). În gruparea aglomerativă, fiecare punct de date acționează ca un cluster individual și la fiecare pas, obiectele de date sunt grupate într-o metodă de jos în sus. Inițial, fiecare obiect de date este în clusterul său. La fiecare iterație, clusterele sunt combinate cu grupuri diferite până când se formează un cluster.
Algoritm de clustering ierarhic aglomerativ
- Determinați asemănarea dintre indivizi și toate celelalte grupuri. (Găsiți matricea de proximitate).
- Luați în considerare fiecare punct de date ca un cluster individual.
- Combinați grupuri similare.
- Recalculați matricea de proximitate pentru fiecare cluster.
- Repetați pasul 3 și pasul 4 până când obțineți un singur cluster.
Să înțelegem acest concept cu ajutorul reprezentării grafice folosind o dendrogramă.
Cu ajutorul demonstrației date, putem înțelege cum funcționează algoritmul real. Aici nu s-a făcut niciun calcul mai jos că se presupune toată proximitatea dintre clustere.
ce este oul de Paște al lui Android
Să presupunem că avem șase puncte de date diferite P, Q, R, S, T, V.
Pasul 1:
Considerați fiecare alfabet (P, Q, R, S, T, V) ca un grup individual și găsiți distanța dintre grupul individual de toate celelalte grupuri.
Pasul 2:
Acum, îmbinați clusterele comparabile într-un singur cluster. Să presupunem că clusterul Q și clusterul R sunt similare între ele, astfel încât să le putem îmbina în al doilea pas. În cele din urmă, obținem clusterele [(P), (QR), (ST), (V)]
Pasul 3:
Aici, recalculăm proximitatea conform algoritmului și combinăm cele mai apropiate două grupuri [(ST), (V)] împreună pentru a forma noi grupuri ca [(P), (QR), (STV)]
Pasul 4:
Repetați același proces. Clusterele STV și PQ sunt comparabile și combinate împreună pentru a forma un nou cluster. Acum avem [(P), (QQRSTV)].
Pasul 5:
În cele din urmă, celelalte două clustere sunt îmbinate împreună pentru a forma un singur cluster [(PQRSTV)]
Clustering ierarhic divizibil
Clusteringul ierarhic diviziv este exact opusul clusteringului ierarhic aglomerativ. În clusteringul ierarhic diviziv, toate punctele de date sunt considerate un cluster individual și, în fiecare iterație, punctele de date care nu sunt similare sunt separate de cluster. Punctele de date separate sunt tratate ca un cluster individual. În cele din urmă, am rămas cu N clustere.
cum se convertesc un întreg în șir de caractere java
Avantajele grupării ierarhice
- Este simplu de implementat și oferă cele mai bune rezultate în unele cazuri.
- Este ușor și are ca rezultat o ierarhie, o structură care conține mai multe informații.
- Nu are nevoie de noi să prespecificăm numărul de clustere.
Dezavantajele grupării ierarhice
- Rupe ciorchinii mari.
- Este dificil să manevrezi grupuri de diferite dimensiuni și forme convexe.
- Este sensibil la zgomot și valori aberante.
- Algoritmul nu poate fi niciodată modificat sau șters după ce a fost făcut anterior.