MACHINE LEARNING MODELSFOR CREDIT CARD DEFAULT PREDICTION

Loading...
Thumbnail Image

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Srinakharinwirot University

Abstract

This thesis aimed to study predictive analysis  among credit card holders who could create a non-performing loan using machine learning to set up supervised learning in the classification character. The learning machine tested credit card loan transaction data with 1,048,575 rows of transaction lists and 438,557 rows of credit card customer data selected from Kaggle.com. The process functioned by designing the model to divide credit card customers into two groups: normal customers and non-performing loan customers with the aid of machine learning and classification supervised learning. This machine learning had three algorithms: (1) Logistic Regression; (2) XGBoost; and (3) CatBoost, to explore the most effective model to analyze credit card customers. The study depicted that the XGBoost algorithm provided 98% accuracy at 15 Depth with 0.1 degree of learning rate, the Catboost algorithm provided 97% accuracy with 7 Depth and 0.1 degree of learning rate, and the logistic regression algorithm provided 62% of accuracy. The output from the confusion matrix table pointed that the XGBoost algorithm and CatBoost algorithm maintained the most effective outcome in close proximity.
งานวิจัยนี้มุ่งศึกษาการทำนายลูกหนี้บัตรเครดิตที่มีโอกาสผิดนัดชำระ  โดยใช้การเรียนรู้ของเครื่อง (Machine Learning) เป็นเครื่องมือสร้างแบบจำลองการจำแนกประเภทลูกหนี้แบบมีผู้สอน (Supervised Learning)   ประเภท Classification  ด้วยการทดสอบกับข้อมูลรายการธุรกรรมสินเชื่อบัตรเครดิต โดยมีข้อมูลรายการธุรกรรม จำนวน 1,048,575 แถว และข้อมูลลูกหนี้ จำนวน 438,557 แถว จากเว็บไซต์ Kaggle.com ผู้วิจัยสร้างแบบจำลองเพื่อจำแนกประเภทลูกหนี้ที่มีความสามารถในการชำระหนี้บัตรเครดิต เป็น 2 ประเภท ได้แก่ ลูกหนี้ปกติและลูกหนี้ผิดนัดชำระ ประกอบด้วยอัลกอริทึม 3 วิธี ได้แก่ 1.) Logistic Regression 2.) XGBoost และ 3.) CatBoost   เพื่อหาแบบจำลองที่มีประสิทธิภาพมากที่สุดในการจำแนกประเภทลูกหนี้ ผลการศึกษาพบว่า วิธีทำนายแบบ XGBoost ให้ค่าความถูกต้อง 98 เปอร์เซ็นต์ ที่จำนวนต้นไม้ 15 ต้น กับอัตราการเรียนรู้ที่ 0.1 วิธีทำนายแบบ CatBoost ให้ค่าความถูกต้อง 97 เปอร์เซ็นต์ ที่จำนวนต้นไม้ 7 ต้น กับอัตราการเรียนรู้ที่ 0.1 และวิธีทำนายแบบ Logistic Regression ให้ค่าความถูกต้อง 62 เปอร์เซ็นต์ เมื่อเปรียบเทียบค่า Confusion Matrix พบว่าแบบจำลอง Random Forest และ Catboost ให้ผลลัพธ์สูงสุดใกล้เคียงกัน

Description

Citation

Endorsement

Review

Supplemented By

Referenced By