Please use this identifier to cite or link to this item:
http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2767
Title: | IMAGE MEMORABILITY PREDICTION USING DEEP LEARNING การทำนายการจดจำภาพด้วยการเรียนรู้เชิงลึก |
Authors: | RATTAPORN KUNSOMBAT รัฐพร คุณสมบัติ Napa Sae-Bae นภา แซ่เบ๊ Srinakharinwirot University Napa Sae-Bae นภา แซ่เบ๊ napasa@swu.ac.th napasa@swu.ac.th |
Keywords: | คะแนนการจดจำภาพ โครงข่ายสังวัฒนาการ โครงข่ายทรานสฟอรมเมอร์ Image memorability Convolutional Neural Network Transformer |
Issue Date: | 24 |
Publisher: | Srinakharinwirot University |
Abstract: | The ability to memorize images can be assessed based on the behavior and experiences of individuals, from a psychological perspective on memory, stemming from internal brain stimulation and daily life usage. This research focuses on predicting image memorization using deep learning techniques. In particular, this research employs three types of model architecture: (1) ResNet50 (a 50-layer convolutional neural network) which utilized; (2) ViT (Vision Transformer model); and (3) a hybrid model using ResNet50 and ViT in conjunction to predict memorability scores. These models were trained using three distinct approaches: (1) training from scratch; (2) utilizing the pretrained models; and (3) fine-tuning the pretrained model, in order to compare the performance of the models in image memorization. The result revealed that the pretrained ResNet50 model (without fine-tuning) yielded the best performance compared to other models, with 0.0001 Mean Squared Error (MSE), 0.0082 Mean Absolute Error (MAE), 0.9947 R-square (R2) and a 0.9896 Spearman Correlation Coefficient (Spearman's rho). ความสามารถในการจดจำภาพสามารถวัดได้จากพฤติกรรมและประสบการณ์ของแต่ละบุคคล โดยมุมมองทางจิตวิทยาความจำมาจากการกระตุ้นภายในสมองและการใช้ชีวิตประจำวัน ในงานวิจัยนี้มุ่งศึกษาการสร้างแบบจำลองเพื่อทำนายการจดจำภาพโดยใช้เทคนิคการเรียนรู้เชิงลึก (Deep Learning) โดยรูปแบบของแบบจำลองที่นำมาศึกษาประกอบด้วย 1) สถาปัตยกรรมแบบ ResNet50 ซึ่งเป็นโครงข่ายประสาทเทียมแบบสังวัตนาการ (Convolutional Neural Network, CNN) 2) สถาปัตยกรรมแบบ ViT ซึ่งเป็นโครงข่ายประสาทเทียมแบบทรานฟอร์เมอร์ (Transformer) และ 3) การแบบจำลองผสมผสานที่ได้จาการนำทั้งสองโมเดลมาเชื่อมต่อกันแบบคู่ขนานโดยในการฝึกแบบจำลองแบ่งเป็น 3 แบบ ได้แก่ 1) การฝึกแบบจำลองจากแรกเริ่ม (Trained from scratch) 2) การนำแบบจำลองที่ฝึกมาจากชุดข้อมูลอื่นมาใช้เป็นแบบจำลองเพื่อการคำนวณเวกเตอร์คุณลักษณะ(Pretrained model) และ 3) การนำฝึกแบบจำลองที่ฝึกมาจากชุดข้อมูลอื่น,มาปรับแต่งเพิ่มเติม (Fine-tuning ) เพื่อเปรียบเทียบประสิทธิภาพโมเดลในการจดจำภาพ โดยจากผลการทดลอง การนำแบบจำลอง ResNet50 ที่ฝึกมาจากชุดข้อมูลอื่นมาใช้เป็นแบบจำลองเพื่อการคำนวณเวกเตอร์คุณลักษณะมาใช้ฝึกในชุดข้อมูลที่มีการคละหมวดหมู่ ให้ผลการทดลองที่ดีที่สุดโดยมีค่าประสิทธิภาพการทำนายคะแนนการจดจำภาพดังนี้ คือ Mean Squared Error (MSE) 0.0001 Mean Absolute Error (MAE) 0.0082 R-square (R2) 0.9947 และ Spearman Correlation Coefficient (Spearman's rho) 0.9896 |
URI: | http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2767 |
Appears in Collections: | Faculty of Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
gs651160199.pdf | 3.16 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.