Hierarchical vs Partitional Clustering

Ang Clustering ay isang diskarte sa pag-aaral ng machine para sa pagsusuri ng data at paghahati sa mga pangkat ng magkatulad na data. Ang mga pangkat o hanay ng mga katulad na data ay kilala bilang mga kumpol. Ang pagtatasa ng kumpol ay tumitingin sa mga algorithm ng clustering na awtomatikong maaaring makilala ang mga kumpol. Ang Hierarchical at Partitional ay dalawang ganoong klase ng mga clustering algorithm. Hierarchical clustering algorithm ay sumisira sa data sa isang hierarchy ng mga kumpol. Hinahatiin ng mga algorithm ng kaugalian ang data na itinakda sa magkakahiwalay na mga partisyon.

Ano ang Hierarchical Clustering?

Ang mga hierarchical clustering algorithm ay umuulit sa pag-ikot ng alinman sa pagsasama ng mga mas maliit na kumpol sa mas malalaking mga ito o paghahati ng mas malaking kumpol sa mas maliit. Alinmang paraan, gumagawa ito ng isang hierarchy ng mga kumpol na tinatawag na isang dendogram. Ang diskarte ng clustering ng agglomerative ay gumagamit ng ilalim-up na diskarte ng pagsasama-sama ng mga kumpol sa mas malaki, habang ang naghahati-hati na diskarte ng kumpol ay gumagamit ng top-down na diskarte ng paghahati sa mas maliit. Karaniwan, ang matakaw na diskarte ay ginagamit sa pagpapasya kung aling mas malaki / mas maliit na kumpol ang ginagamit para sa pagsasama / paghahati. Ang distansya ng Euclidean, ang distansya ng Manhattan at pagkakapareho ng kosine ay ilan sa mga pinaka-karaniwang ginagamit na sukatan ng pagkakapareho para sa data na may numero. Para sa data na hindi pang-numero, ginagamit ang mga sukatan tulad ng distansya ng Hamming. Mahalagang tandaan na ang aktwal na mga obserbasyon (mga pagkakataong) ay hindi kinakailangan para sa hierarchical clustering, sapagkat ang matrix ng mga distansya lamang ang sapat. Ang Dendogram ay isang visual na representasyon ng mga kumpol, na nagpapakita ng malinaw na hierarchy. Ang gumagamit ay maaaring makakuha ng iba't ibang kumpol depende sa antas kung saan pinutol ang dendogram.

Ano ang Partitional Clustering?

Ang mga partition algorithm ng clustering ay bumubuo ng iba't ibang mga partisyon at pagkatapos ay suriin ang mga ito sa pamamagitan ng ilang criterion. Ang mga ito ay tinutukoy din bilang nonhierarchical bilang bawat pagkakataon ay inilalagay sa eksaktong isa sa mga k na eksklusibong kumpol. Dahil ang isang hanay lamang ng mga kumpol ay ang output ng isang pangkaraniwang partisyon na clustering algorithm, ang gumagamit ay kinakailangan upang ipasok ang nais na bilang ng mga kumpol (karaniwang tinatawag na k). Ang isa sa mga pinaka-karaniwang ginagamit na mga algorithm ng partition clustering ay ang k-nangangahulugan na clustering algorithm. Kinakailangan ang gumagamit na magbigay ng bilang ng mga kumpol (k) bago magsimula at ang algorithm ay unang nagsimula sa mga sentro (o sentroid) ng mga partisyon ng k. Sa madaling sabi, ang k-nangangahulugan na clustering algorithm ay nagtalaga ng mga miyembro batay sa kasalukuyang mga sentro at muling tinantya ang mga sentro batay sa kasalukuyang mga miyembro. Ang dalawang hakbang na ito ay paulit-ulit hanggang sa isang tiyak na intra-cluster na pagkakapareho ng layunin at pag-andar ng inter-cluster dissimilarity object function ay na-optimize. Samakatuwid, ang makatwirang pagsisimula ng mga sentro ay isang napakahalagang kadahilanan sa pagkuha ng mga resulta ng kalidad mula sa mga partisyon na mga kumpol ng algorithm.

Ano ang pagkakaiba sa pagitan ng Hierarchical at Partitional Clustering?

Ang Hierarchical at Partitional Clustering ay may mga pangunahing pagkakaiba sa pagtakbo ng oras, pagpapalagay, mga parameter ng input at mga kumpol na nagreresulta. Karaniwan, ang partitional clustering ay mas mabilis kaysa sa hierarchical clustering. Ang Hierarchical clustering ay nangangailangan lamang ng isang pagkakapareho, ngunit ang partitional clustering ay nangangailangan ng mas malakas na pagpapalagay tulad ng bilang ng mga kumpol at mga paunang sentro. Ang Hierarchical clustering ay hindi nangangailangan ng anumang mga parameter ng pag-input, habang ang mga partitional algorithm ng clustering ay nangangailangan ng bilang ng mga kumpol upang simulan ang pagtakbo. Ang Hierarchical clustering ay nagbabalik ng isang mas makabuluhan at subjective na dibisyon ng mga kumpol ngunit ang partisyon na kumpol ng mga clustering sa eksaktong mga kumpol ng k. Hierarchical clustering algorithm ay mas angkop para sa pang-uri ng data hangga't ang pagkakapareho ay maaaring matukoy nang naaayon.