Rifaldi, Rizal Taufik (2022) Perbandingan performa Metode Deteksi Outlier Distance-Based dan Cluster-Based pada Algoritma K-Means dengan data teks hadis. Sarjana thesis, UIN Sunan Gunung Djati Bandung.
|
Text (COVER)
1_cover.pdf Download (38kB) | Preview |
|
|
Text (ABSTRAK)
2_abstrak.pdf Download (157kB) | Preview |
|
|
Text (DAFTAR ISI)
3_daftarisi.pdf Download (128kB) | Preview |
|
|
Text (BAB I)
4_bab1.pdf Download (286kB) | Preview |
|
Text (BAB II)
5_bab2.pdf Restricted to Registered users only Download (297kB) | Request a copy |
||
Text (BAB III)
6_bab3.pdf Restricted to Registered users only Download (705kB) | Request a copy |
||
Text (BAB IV)
7_bab4.pdf Restricted to Registered users only Download (3MB) | Request a copy |
||
Text (BAB V)
8_bab5.pdf Restricted to Registered users only Download (26kB) | Request a copy |
||
Text (DAFTAR PUSTAKA)
9_daftarpustaka.pdf Restricted to Registered users only Download (98kB) | Request a copy |
Abstract
Outlier adalah objek data yang menyimpang secara signifikan dari objek lainnya. Penelitian ini bertujuan untuk mengidentifikasi dan menghapus outlier agar hasil metode k-means menjadi lebih baik dari sebelum outlier dihapus. K-means merupakan algoritma pengelompokkan yang sangat sensitif terhadap outlier, sehingga menghapus outlier akan mempengaruhi hasil pengelompokkan menjadi lebih baik. K-means bekerja dengan cara mengelompokkan data yang memiliki kesamaan berdasarkan jarak antara titik-titik data. Intinya algoritma ini mencoba menemukan pusat dari setiap kelompok dengan cara menghitung jarak antara setiap titik data yang dalam kasus ini menggunakan pengukuran jarak cosine similarity dan euclidean distance. Selain itu pusat kelompok tersebut dihitung sebagai rata- rata dari semua titik data di dalam kelompok. Kemudian hasil dari pengelompokkan tersebut dievaluasi menggunakan silhouette coefficient. Beberapa teknik deteksi outlier yang digunakan untuk algoritma k-means adalah distance based dan cluster based. Di mana distance based menentukan outlier berdasarkan nilai threshold, jika suatu titik data jauh dari pusat cluster maka dianggap sebagai outlier, sementara cluster based menentukan outlier berdasarkan cluster yang memiliki anggota yang paling sedikit. Data yang dijadikan sebagai objek penelitian adalah data teks hadis dan memiliki 5 topik pembahasan yaitu, tafsir Al-Qur’an, peperangan, perilaku yang terpuji, haji dan jum’at. Di mana yang menjadi input adalah data hadis yang telah direduksi fitur menggunakan metode principal component analysis (PCA) dan data hasil pembobotan kata menggunakan metode Term frequency – Inverse document frequency (TF-IDF). Hasil dari penelitian menyimpulkan bahwa menggunakan data hasil reduksi fitur principal component analysis (PCA) lebih baik dari segi kualitas cluster maupun runtime-nya dari menggunakan data hasil pembobotan kata Term frequency – Inverse document frequency (TF-IDF). Lalu pengukuran jarak pada algoritma k-means menggunakan cosine similarity lebih baik dari pada euclidean distance. Kemudian metode deteksi outlier menggunakan cluster based lebih baik dari distance based dalam segi performa pengelompokkan yang mengacu pada evaluasi cluster
Item Type: | Thesis (Sarjana) |
---|---|
Uncontrolled Keywords: | hadis; outlier detection; k-means algorithm; |
Subjects: | Data Processing, Computer Science Mathematics Applied mathematics Applied mathematics > Programming Mathematics |
Divisions: | Fakultas Sains dan Teknologi > Program Studi Matematika |
Depositing User: | Rizal Taufik Rifaldi |
Date Deposited: | 26 Jun 2023 06:24 |
Last Modified: | 26 Jun 2023 06:24 |
URI: | https://digilib.uinsgd.ac.id/id/eprint/69698 |
Actions (login required)
View Item |