Transformasi ide cerita dari gambar ke teks menggunakan Convolutional Neural Network (CNN) dan Generative Pre-Trained Transformer (GPT-2)

Rizqulloh, Moh Hasbi (2025) Transformasi ide cerita dari gambar ke teks menggunakan Convolutional Neural Network (CNN) dan Generative Pre-Trained Transformer (GPT-2). Sarjana thesis, UIN Sunan Gunung Djati Bandung.

[img]
Preview
Text
1_cover.pdf

Download (217kB) | Preview
[img]
Preview
Text
2_abstrak.pdf

Download (198kB) | Preview
[img]
Preview
Text
3_skbebasplagiarism.pdf

Download (401kB) | Preview
[img]
Preview
Text
4_daftarisi.pdf

Download (240kB) | Preview
[img]
Preview
Text
5_bab1.pdf

Download (484kB) | Preview
[img] Text
6_bab2.pdf
Restricted to Registered users only

Download (386kB) | Request a copy
[img] Text
7_bab3.pdf
Restricted to Registered users only

Download (490kB) | Request a copy
[img] Text
8_bab4.pdf
Restricted to Registered users only

Download (926kB) | Request a copy
[img] Text
9_bab5.pdf
Restricted to Registered users only

Download (221kB) | Request a copy
[img] Text
10_daftarpustaka.pdf
Restricted to Registered users only

Download (517kB) | Request a copy
[img] Text
11_lampiran.pdf
Restricted to Repository staff only

Download (588kB) | Request a copy

Abstract

Kesenjangan antara inspirasi visual yang kaya dan tantangan artikulasi kreatif (writer's block) menjadi masalah utama yang menghambat proses penulisan. Penelitian ini bertujuan menjembatani kesenjangan tersebut dengan merancang sistem kecerdasan buatan dua tahap berbasis deep learning untuk menyediakan stimulus naratif otomatis. Metode yang diimplementasikan terdiri dari sebuah arsitektur Convolutional Neural Network (CNN) kustom yang dibangun untuk mendeteksi tujuh kelas objek alam dari 4.362 gambar, di mana output objeknya kemudian digunakan sebagai prompt untuk model Generative Pre-trained Transformer (GPT-2) yang telah di-fine-tune untuk menghasilkan narasi puitis. Hasil penelitian menunjukkan bahwa modul CNN, yang dievaluasi dengan metrik akurasi dan Mean Squared Error (MSE), mencapai performa puncak sebesar 61.96%. Analisis confusion matrix mengungkap performa ini tidak dibatasi oleh overfitting, melainkan oleh ambiguitas visual antar kelas. Meskipun modul GPT-2 mampu menghasilkan narasi dengan skor BERTScore F1 hingga 0.6455, temuan utama penelitian ini adalah kualitas narasinya sangat bergantung pada keakuratan input dari modul CNN, yang terbukti berfungsi sebagai bottleneck kritis bagi efektivitas sistem secara keseluruhan.

Item Type: Thesis (Sarjana)
Uncontrolled Keywords: Computer Vision; Natural Languange Procesing; Deteksi Objek; Image Captioning; Machine Learning; Kecerdasan Buatan;
Subjects: Data Processing, Computer Science > Computer Science Education
Special Computer Methods > Artificial Intelligence
Special Computer Methods > Computer Vision
Divisions: Fakultas Sains dan Teknologi > Program Studi Teknik Informatika
Depositing User: Moh Hasbi Rizqulloh
Date Deposited: 17 Jul 2025 07:03
Last Modified: 17 Jul 2025 07:03
URI: https://digilib.uinsgd.ac.id/id/eprint/112748

Actions (login required)

View Item View Item