Rizqulloh, Moh Hasbi (2025) Transformasi ide cerita dari gambar ke teks menggunakan Convolutional Neural Network (CNN) dan Generative Pre-Trained Transformer (GPT-2). Sarjana thesis, UIN Sunan Gunung Djati Bandung.
|
Text
1_cover.pdf Download (217kB) | Preview |
|
|
Text
2_abstrak.pdf Download (198kB) | Preview |
|
|
Text
3_skbebasplagiarism.pdf Download (401kB) | Preview |
|
|
Text
4_daftarisi.pdf Download (240kB) | Preview |
|
|
Text
5_bab1.pdf Download (484kB) | Preview |
|
![]() |
Text
6_bab2.pdf Restricted to Registered users only Download (386kB) | Request a copy |
|
![]() |
Text
7_bab3.pdf Restricted to Registered users only Download (490kB) | Request a copy |
|
![]() |
Text
8_bab4.pdf Restricted to Registered users only Download (926kB) | Request a copy |
|
![]() |
Text
9_bab5.pdf Restricted to Registered users only Download (221kB) | Request a copy |
|
![]() |
Text
10_daftarpustaka.pdf Restricted to Registered users only Download (517kB) | Request a copy |
|
![]() |
Text
11_lampiran.pdf Restricted to Repository staff only Download (588kB) | Request a copy |
Abstract
Kesenjangan antara inspirasi visual yang kaya dan tantangan artikulasi kreatif (writer's block) menjadi masalah utama yang menghambat proses penulisan. Penelitian ini bertujuan menjembatani kesenjangan tersebut dengan merancang sistem kecerdasan buatan dua tahap berbasis deep learning untuk menyediakan stimulus naratif otomatis. Metode yang diimplementasikan terdiri dari sebuah arsitektur Convolutional Neural Network (CNN) kustom yang dibangun untuk mendeteksi tujuh kelas objek alam dari 4.362 gambar, di mana output objeknya kemudian digunakan sebagai prompt untuk model Generative Pre-trained Transformer (GPT-2) yang telah di-fine-tune untuk menghasilkan narasi puitis. Hasil penelitian menunjukkan bahwa modul CNN, yang dievaluasi dengan metrik akurasi dan Mean Squared Error (MSE), mencapai performa puncak sebesar 61.96%. Analisis confusion matrix mengungkap performa ini tidak dibatasi oleh overfitting, melainkan oleh ambiguitas visual antar kelas. Meskipun modul GPT-2 mampu menghasilkan narasi dengan skor BERTScore F1 hingga 0.6455, temuan utama penelitian ini adalah kualitas narasinya sangat bergantung pada keakuratan input dari modul CNN, yang terbukti berfungsi sebagai bottleneck kritis bagi efektivitas sistem secara keseluruhan.
Item Type: | Thesis (Sarjana) |
---|---|
Uncontrolled Keywords: | Computer Vision; Natural Languange Procesing; Deteksi Objek; Image Captioning; Machine Learning; Kecerdasan Buatan; |
Subjects: | Data Processing, Computer Science > Computer Science Education Special Computer Methods > Artificial Intelligence Special Computer Methods > Computer Vision |
Divisions: | Fakultas Sains dan Teknologi > Program Studi Teknik Informatika |
Depositing User: | Moh Hasbi Rizqulloh |
Date Deposited: | 17 Jul 2025 07:03 |
Last Modified: | 17 Jul 2025 07:03 |
URI: | https://digilib.uinsgd.ac.id/id/eprint/112748 |
Actions (login required)
![]() |
View Item |