Tuesday, 1 November 2022

Clustering Data. Machine Learning


Salah satu jenis algoritma pada Machine Learning adalah Unsupervised Learning. Seperti yang pernah dibahas di artikel lainnya, Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh sebab itu, hal yang pertama kali perlu disiapkan adalah data. Unsupervised Learning adalah salah satu tipe algoritma Machine Learning yang digunakan untuk menarik kesimpulan dari dataset. Metode ini hanya akan mempelajari suatu data berdasarkan kedekatannya saja atau yang biasa disebut dengan Clustering.

Analisis Clustering merupakan salah satu kegiatan analisis data yakni klasifikasi atau pengelompokan data ke dalam beberapa kategori atau cluster. Obyek-obyek atau data yang dikelompokkan ke dalam suatu grup memiliki ciri-ciri yang sama berdasarkan kriteria tertentu. Ingin tahu jenis jenis algoritma yang dimiliki Algoritma Clustering? Yuk, simak pembahasan berikut!

Definisi

Clustering merupakan salah satu metode Unsupervised Learning yang bertujuan untuk melakukan pengelompokan data berdasarkan kemiripan atau jarak antar data. Clustering memiliki karakteristik dimana anggota dalam satu cluster memiliki kemiripan yang sama atau jarak yang sangat dekat, sementara anggota antar cluster memiliki kemiripan yang sangat berbeda atau jarak yang sangat jauh. Menurut Tan et al., dalam bukunya yang berjudul Introduction to Data Mining, metode Clustering dibagi menjadi dua jenis, yaitu Hierarchical Clustering dan Partitional Clustering.

Hierarchical Clustering

Metode pembentukan cluster biasanya dikategorikan menurut tipe dari struktur cluster yang dihasilkan. Secara umum metode klaster terbagi menjadi dua, yaitu metode Non-Hierarchical Clustering (Partitional Clustering) dan Hierarchical Clustering. Metode Hierarchical Clustering merupakan salah satu metode yang dapat digunakan untuk pengelompokan terhadap fitur produk. Metode pengelompokan ini biasanya digunakan apabila belum ada informasi jumlah kelompok yang akan dipilih. Arah pengelompokan terbagi menjadi dua sifat, divise (top to down) dan agglomerative (bottom up). Hierarchical Clustering diperlukan untuk menghitung nilai ukuran kesamaan atau kedekatan fitur produk. Beberapa metode dalam Hierarchical Clustering yaitu single linkage, complete linkage, average linkage, dan ward's minimum variance.

Perbedaan Hierarchical dan Non-Hierarchical Clustering

Hierarchical dan Partitional Clustering memiliki perbedaan utama dalam waktu berjalan, asumsi, parameter input dan cluster yang dihasilkan. Biasanya, algoritma Partitional Clustering lebih cepat daripada Hierarchical Clustering. Hierarchical Clustering hanya membutuhkan ukuran kesamaan, sedangkan Partitional Clustering membutuhkan asumsi yang lebih kuat seperti jumlah cluster dan pusat awal. Hierarchical Clustering tidak memerlukan parameter input apa pun, sementara Partitional Clustering membutuhkan jumlah cluster untuk mulai berjalan. Hierarchical Clustering menghasilkan pembagian klaster yang jauh lebih bermakna dan subyektif, tetapi Partitional Clustering menghasilkan kluster k yang tepat. 



0 comments:

Post a Comment