Perbandingan performa Metode Deteksi Outlier Distance-Based dan Cluster-Based pada Algoritma K-Means dengan data teks hadis

Rifaldi, Rizal Taufik (2022) Perbandingan performa Metode Deteksi Outlier Distance-Based dan Cluster-Based pada Algoritma K-Means dengan data teks hadis. Sarjana thesis, UIN Sunan Gunung Djati Bandung.

[img]
Preview
Text (COVER)
1_cover.pdf

Download (38kB) | Preview
[img]
Preview
Text (ABSTRAK)
2_abstrak.pdf

Download (157kB) | Preview
[img]
Preview
Text (DAFTAR ISI)
3_daftarisi.pdf

Download (128kB) | Preview
[img]
Preview
Text (BAB I)
4_bab1.pdf

Download (286kB) | Preview
[img] Text (BAB II)
5_bab2.pdf
Restricted to Registered users only

Download (297kB) | Request a copy
[img] Text (BAB III)
6_bab3.pdf
Restricted to Registered users only

Download (705kB) | Request a copy
[img] Text (BAB IV)
7_bab4.pdf
Restricted to Registered users only

Download (3MB) | Request a copy
[img] Text (BAB V)
8_bab5.pdf
Restricted to Registered users only

Download (26kB) | Request a copy
[img] Text (DAFTAR PUSTAKA)
9_daftarpustaka.pdf
Restricted to Registered users only

Download (98kB) | Request a copy

Abstract

Outlier adalah objek data yang menyimpang secara signifikan dari objek lainnya. Penelitian ini bertujuan untuk mengidentifikasi dan menghapus outlier agar hasil metode k-means menjadi lebih baik dari sebelum outlier dihapus. K-means merupakan algoritma pengelompokkan yang sangat sensitif terhadap outlier, sehingga menghapus outlier akan mempengaruhi hasil pengelompokkan menjadi lebih baik. K-means bekerja dengan cara mengelompokkan data yang memiliki kesamaan berdasarkan jarak antara titik-titik data. Intinya algoritma ini mencoba menemukan pusat dari setiap kelompok dengan cara menghitung jarak antara setiap titik data yang dalam kasus ini menggunakan pengukuran jarak cosine similarity dan euclidean distance. Selain itu pusat kelompok tersebut dihitung sebagai rata- rata dari semua titik data di dalam kelompok. Kemudian hasil dari pengelompokkan tersebut dievaluasi menggunakan silhouette coefficient. Beberapa teknik deteksi outlier yang digunakan untuk algoritma k-means adalah distance based dan cluster based. Di mana distance based menentukan outlier berdasarkan nilai threshold, jika suatu titik data jauh dari pusat cluster maka dianggap sebagai outlier, sementara cluster based menentukan outlier berdasarkan cluster yang memiliki anggota yang paling sedikit. Data yang dijadikan sebagai objek penelitian adalah data teks hadis dan memiliki 5 topik pembahasan yaitu, tafsir Al-Qur’an, peperangan, perilaku yang terpuji, haji dan jum’at. Di mana yang menjadi input adalah data hadis yang telah direduksi fitur menggunakan metode principal component analysis (PCA) dan data hasil pembobotan kata menggunakan metode Term frequency – Inverse document frequency (TF-IDF). Hasil dari penelitian menyimpulkan bahwa menggunakan data hasil reduksi fitur principal component analysis (PCA) lebih baik dari segi kualitas cluster maupun runtime-nya dari menggunakan data hasil pembobotan kata Term frequency – Inverse document frequency (TF-IDF). Lalu pengukuran jarak pada algoritma k-means menggunakan cosine similarity lebih baik dari pada euclidean distance. Kemudian metode deteksi outlier menggunakan cluster based lebih baik dari distance based dalam segi performa pengelompokkan yang mengacu pada evaluasi cluster

Item Type: Thesis (Sarjana)
Uncontrolled Keywords: hadis; outlier detection; k-means algorithm;
Subjects: Data Processing, Computer Science
Mathematics
Applied mathematics
Applied mathematics > Programming Mathematics
Divisions: Fakultas Sains dan Teknologi > Program Studi Matematika
Depositing User: Rizal Taufik Rifaldi
Date Deposited: 26 Jun 2023 06:24
Last Modified: 26 Jun 2023 06:24
URI: https://digilib.uinsgd.ac.id/id/eprint/69698

Actions (login required)

View Item View Item