Please use this identifier to cite or link to this item: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2224
Full metadata record
DC FieldValueLanguage
dc.contributorKRUEWAN NETPHANAen
dc.contributorเครือวัลย์ เนตรพนาth
dc.contributor.advisorSirisup Laohakiaten
dc.contributor.advisorศิริสรรพ เหล่าหะเกียรติth
dc.contributor.otherSrinakharinwirot Universityen
dc.date.accessioned2023-09-26T06:39:43Z-
dc.date.available2023-09-26T06:39:43Z-
dc.date.created2023
dc.date.issued19/5/2023
dc.identifier.urihttp://ir-ithesis.swu.ac.th/dspace/handle/123456789/2224-
dc.description.abstractThis research aims to study the prediction of debtors who are likely to default on their payments to the bank, using a dataset of credit card transactions. The dataset consists of 307,511 rows and 122 columns, sourced from a public data site. The data is divided into two main groups, normal debtors who comply with payments, and abnormal debtors who default on payments. The primary tool used by the researchers were Machine Learning Algorithms, such as Logistic Regression, XGBoostClassifier, K-nearest Neighbors, Random Forest, Support Vector Classifier (SVC), and Gradient Boosting. Machine Learning is a tool used to develop models, with supervised learning, involving classification. The researchers used a training set to develop the model and a testing set to evaluate the performance of the model. However, they found that the data was significantly imbalanced, which affected the accuracy of the model, causing the precision of the model, recall and F1-Score values to be low. To overcome this problem, they employed techniques such as oversampling, under-sampling, and Synthetic Minority Oversampling Technique (SMOTE), to improve model performance. The study found that developing a model using Gradient Boosting technique provides the highest value of recall, equal to 0.65. However, the accuracy value was only 0.62 and the F1-Score is 0.54, which was used to measure the effectiveness of the model. On the other hand, K-Nearest Neighbors (KNN) technique provided the lowest value of recall, which was 0.58, which had an Accuracy value is 0.55 and the F1-Score is 0.47, which were the lowest values.en
dc.description.abstractงานวิจัยนี้มีวัตถุประสงค์เพื่อการศึกษาการทำนายลูกหนี้ที่มีโอกาสในการผิดนัดชำระกับทางธนาคาร โดยการทดลองกับ ชุดข้อมูลการทำธุรกรรมสินเชื่อบัตรเครดิตซึ่งประกอบด้วย ข้อมูลจำนวนทั้งหมด 307,511 แถว และคอลัมน์ทั้งหมด 122 คอลัมน์ จากแหล่งข้อมูลสาธารณะเว็บไซต์ https://www.kaggle.com/datasets/mishra5001/credit-card?resource=download โดยการแบ่งข้อมูลออกเป็น 2 กลุ่มใหญ่ๆ คือ กลุ่มลูกหนี้ปกติ คือกลุ่มลูกหนี้ที่ไม่ได้มีการผิดนัดชำระกับทางธนาคาร และกลุ่มลูกหนี้ที่ไม่ปกติ คือกลุ่มลูกหนี้ที่มีการผิดนัดชำระกับทางธนาคาร เครื่องมือหลักที่นักวิจัยใช้ ได้แก่ Machine Learning Algorithms เช่น Logistic Regression, XGBoostClassifier, K-nearest Neighbors, Random Forest , Support Vector Classifier (SVC), Gradient Boosting เป็นต้น โดยอาศัยการเรียนรู้ของเครื่อง (Machine Learning) ซึ่งเป็นเครื่องมือสำหรับการพัฒนาแบบจำลอง ในการเรียนรู้แบบผู้สอน (Supervised Learning) โดยมีการทำงานแบบการแบ่งแยกประเภท (Classification) ซึ่งการเรียนรู้แบบมีผู้สอน (Supervised Learning) เป็นการเรียนรู้ของเครื่องในการเรียนรู้ข้อมูล โดยอาศัยชุดข้อมูลที่ใช้ในการฝึกฝนเพื่อทำการพัฒนาแบบจำลองและชุดข้อมูลที่ใช้ในการทดสอบสำหรับใช้ในการการทดสอบแบบจำลอง โดยเราสามารถนำผลลัพธ์ที่ได้ ไปตรวจสอบกับชุดข้อมูลที่ใช้ในการทดสอบที่เรามีอยู่แล้ว ว่าแบบจำลองที่ถูกพัฒนาขึ้นนั้น มีประสิทธิภาพและความถูกต้อง (Accuracy) มากน้อยเพียงใด แต่จากชุดข้อมูลที่นำมาใช้ในการวิเคราะห์ข้อมูล พบว่าข้อมูลมีความไม่สมดุลกันของชุดข้อมูล (Imbalance data) สูงมาก ซึ่งทำให้ค่าความถูกต้อง (Accuracy) ที่ได้อาจมีค่าที่สูงมาก แต่มีประสิทธิภาพที่ไม่เพียงพอ เพราะค่า precision, recall และ F1-Score ที่ได้มีค่าที่ต่ำมาก โดยเราต้องอาศัยเทคนิคต่างๆ มาช่วยในการแก้ปัญหาความไม่สมดุลของชุดข้อมูล เช่น Oversampling, Under sampling และ Synthetic Minority Oversampling Technique (SMOTE) เพื่อทำให้แบบจำลองที่ได้มีประสิทธิภาพที่ดี ผลการศึกษาพบว่า การพัฒนาแบบจำลองโดยการใช้เทคนิควิธี Gradient Boosting ให้ค่าความไว (Recall) ที่มากที่สุด ซึ่งมีค่าเท่ากับ 0.65 มีค่าความถูกต้อง (Accuracy) เท่ากับ 0.62 และมีค่า F1-Score ที่ใช้ในการวัดความสามารถของแบบจำลองเท่ากับ 0.54 แต่เทคนิควิธี K-Nearest Neighbors (KNN) ให้ค่าความไว (Recall) ที่น้อยที่สุด ซึ่งมีค่าเท่ากับ 0.58 มีค่าความถูกต้อง (Accuracy) เท่ากับ 0.55 และมีค่า F1-Score ที่ใช้ในการวัดความสามารถของแบบจำลองเท่ากับ 0.47 ซึ่งมีค่าที่น้อยที่สุดth
dc.language.isoth
dc.publisherSrinakharinwirot University
dc.rightsSrinakharinwirot University
dc.subjectการเรียนรู้ของเครื่อง, การเรียนรู้แบบผู้สอน, การแบ่งแยกประเภท, ความไม่สมดุลกันของชุดข้อมูลth
dc.subjectMachine Learning Supervised Learning Classification Clustering Imbalance dataen
dc.subject.classificationComputer Scienceen
dc.subject.classificationComputer Scienceen
dc.subject.classificationFinancial and insurance activitiesen
dc.subject.classificationEducation scienceen
dc.titleANALYSIS OF CREDIT CARD DEBT DEFAULT RISK ANALYSIS BY USING MACHINE LEARNING ALGORITHMen
dc.titleการวิเคราะห์ความเสี่ยงในการผิดนัดชำระของลูกหนี้บัตรเครดิต โดยการใช้อัลกอริทึมการเรียนรู้ของเครื่องth
dc.typeMaster’s Projecten
dc.typeสารนิพนธ์th
dc.contributor.coadvisorSirisup Laohakiaten
dc.contributor.coadvisorศิริสรรพ เหล่าหะเกียรติth
dc.contributor.emailadvisorsirisup@swu.ac.th
dc.contributor.emailcoadvisorsirisup@swu.ac.th
dc.description.degreenameMASTER OF SCIENCE (M.Sc.)en
dc.description.degreenameวิทยาศาสตรมหาบัณฑิต (วท.ม.)th
dc.description.degreelevel-en
dc.description.degreelevel-th
dc.description.degreedisciplineDepartment Of Computer Scienceen
dc.description.degreedisciplineภาควิชาวิทยาการคอมพิวเตอร์th
Appears in Collections:Faculty of Science

Files in This Item:
File Description SizeFormat 
gs641130036.pdf3.59 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.