Please use this identifier to cite or link to this item: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/3398
Title: DEVELOPMENT OF MACHINE LEARNING MODELS FOR FRAUDULENT TRANSACTION DETECTION IN FINANCIAL SYSTEMS
การพัฒนาโมเดลการเรียนรู้ของเครื่องเพื่อตรวจจับธุรกรรมฉ้อโกงในระบบการเงิน
Authors: KEERATI SASSANAPITAK
กีรติ ศาสนพิทักษ์
Sirisup Laohakiat
ศิริสรรพ เหล่าหะเกียรติ
Srinakharinwirot University
Sirisup Laohakiat
ศิริสรรพ เหล่าหะเกียรติ
sirisup@swu.ac.th
sirisup@swu.ac.th
Keywords: การตรวจจับการฉ้อโกง, การเรียนรู้ของเครื่อง, ข้อมูลไม่สมดุล, SMOTE, Tomek Links, XGBoost, SHAP
Fraud Detection Machine Learning Class Imbalance SMOTE Tomek Links XGBoost SHAP
Issue Date:  18
Publisher: Srinakharinwirot University
Abstract: This research aims to develop and compare the effectiveness of machine learning models for fraud detection in financial systems, focusing on solving class imbalance problems. The study used a financial transaction dataset of 594,643 records with 98.79% normal transactions and only 1.21% fraudulent transactions. The research compared five models: XGBoost, Random Forest, CatBoost, LightGBM, and Logistic Regression, combined with four class imbalance handling techniques: SMOTE for oversampling, Tomek Links for undersampling, a hybrid approach combining both methods, and Class Weight adjustment. Additionally, new features related to customer behavior, merchant patterns, and transaction categories were created to enhance detection capability. Results showed that XGBoost combined with Tomek Links and optimized parameters delivered the best overall performance, with Precision of 0.88, Recall of 0.82, F1-Score of 0.85, and Precision-Recall AUC of 0.93. Meanwhile, LightGBM with Class Weight adjustment achieved the highest Recall at 0.98, though with lower Precision (0.41). SHAP analysis revealed that merchant transaction frequency, transaction amount, and transaction frequency per category were the most influential predictors, with merchants having unusually low transaction history or transactions with abnormally high values presenting higher fraud risk. This research demonstrates that selecting appropriate class imbalance techniques and suitable models is crucial for effective financial fraud detection, depending on organizational priorities—whether to balance false alerts with missed fraud detections or to maximize detection rates.
งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาและเปรียบเทียบประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องในการตรวจจับธุรกรรมฉ้อโกงในระบบการเงิน โดยมุ่งเน้นการแก้ไขปัญหาข้อมูลไม่สมดุล การศึกษาใช้ชุดข้อมูลธุรกรรมทางการเงินจำนวน 594,643 รายการที่มีสัดส่วนธุรกรรมปกติ 98.79% และธุรกรรมฉ้อโกงเพียง 1.21% การวิจัยเปรียบเทียบโมเดล 5 ประเภท ได้แก่ XGBoost, Random Forest, CatBoost, LightGBM และ Logistic Regression ร่วมกับเทคนิคจัดการข้อมูลไม่สมดุล 4 วิธี ได้แก่ การเพิ่มจำนวนข้อมูลด้วย SMOTE การลดข้อมูลซ้ำซ้อนด้วย Tomek Links วิธีผสมผสานระหว่าง SMOTE และ Tomek Links และการปรับน้ำหนักคลาส นอกจากนี้ ยังมีการสร้างคุณลักษณะใหม่ที่เกี่ยวข้องกับพฤติกรรมของลูกค้า ร้านค้า และหมวดหมู่ธุรกรรม ผลการวิจัยพบว่า XGBoost ร่วมกับ Tomek Links ที่ผ่านการปรับแต่งพารามิเตอร์ให้ผลลัพธ์ดีที่สุดในภาพรวม ด้วยค่า Precision 0.88, Recall 0.82, F1-Score 0.85 และ Precision-Recall AUC 0.93 ในขณะที่ LightGBM ร่วมกับ Class Weight ให้ค่า Recall สูงสุดถึง 0.98 แม้จะมี Precision ต่ำ (0.41) การวิเคราะห์ด้วย SHAP แสดงให้เห็นว่าปัจจัยที่มีอิทธิพลสูงสุดต่อการทำนายการฉ้อโกงคือ จำนวนธุรกรรมของร้านค้า มูลค่าธุรกรรม และจำนวนธุรกรรมในแต่ละหมวดหมู่ โดยร้านค้าที่มีประวัติธุรกรรมน้อยผิดปกติหรือธุรกรรมที่มีมูลค่าสูงผิดปกติมีความเสี่ยงสูง งานวิจัยนี้แสดงให้เห็นว่าการเลือกเทคนิคจัดการข้อมูลไม่สมดุลที่เหมาะสมร่วมกับโมเดลที่เหมาะสมมีความสำคัญต่อประสิทธิภาพในการตรวจจับการฉ้อโกงทางการเงิน โดยขึ้นอยู่กับว่าองค์กรจะเน้นความสมดุลระหว่างการแจ้งเตือนผิดกับการพลาดธุรกรรมฉ้อโกง หรือเน้นการตรวจจับให้ได้มากที่สุด
URI: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/3398
Appears in Collections:Faculty of Science

Files in This Item:
File Description SizeFormat 
gs661160138.pdf5.34 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.