Please use this identifier to cite or link to this item:
http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2225
Title: | USING INTERPRETABLE MACHINE LEARNING METHODS FOR ANALYZING BANK TELEMARKETING DATA การใช้วิธีการเรียนรู้ด้วยเครื่องแบบอธิบายได้ เพื่อวิเคราะห์ข้อมูลการนำเสนอผลิตภัณฑ์ทางโทรศัพท์ของธนาคาร |
Authors: | CHIN LERTVIPADA ชิน เลิศวิภาดา Sirisup Laohakiat ศิริสรรพ เหล่าหะเกียรติ Srinakharinwirot University Sirisup Laohakiat ศิริสรรพ เหล่าหะเกียรติ sirisup@swu.ac.th sirisup@swu.ac.th |
Keywords: | การเรียนรู้ด้วยเครื่อง การเรียนรู้ด้วยเครื่องแบบอธิบายได้ การทำนายการสมัครผลิตภัณฑ์ของธนาคาร การคัดเลือกคุณลักษณะ SHAP Machine Learning Interpretable Machine Learning Bank Telemarketing Feature Selection SHAP |
Issue Date: | 19 |
Publisher: | Srinakharinwirot University |
Abstract: | Financial institutions play a vital role in driving the economy, with savings products as the primary source of funding. Despite the digital financial systems and products offering products via phone to customers remains popular. Without analysis of prior customer contacting, there is a risk of time-consuming, wasteful expenses, and dissatisfied customers. This research focuses on using interpretable machine learning to discover important features in model development for classifying customers who are likely to apply for a product, compared to traditional methods. The public dataset known as the Bank Marketing Data Set, collected information about offering deposit products by a phone call from a bank in Portugal, was used. The dataset is extremely imbalanced, so Class Weight, Random Undersampling, and SMOTE techniques were implemented along with creating models such as Logistic Regression, Random Forest, LightGBM, and XGBoost for prediction, as well as F-Value, Recursive Feature Elimination and SHAP (SHapley Additive exPlanations) for feature selection. Performance evaluation focuses on the detection of customers who applied for the product (recall), with other metrics such as accuracy and remaining adequate. Using SHAP is able to explain the operations of the model and to clarify individual-level predictions. Regarding the six feature selection techniques, the two most important features frequently appeared were found to be 'euribor3m' and 'nr. employed'. The experiment revealed that classification models with only these two features were able to reach the same capability level, with a recall of positive class at 71% and accuracy at 72%, of models with completed features. Furthermore, error analysis proves that the similarity of instance characteristics is able to mislead the classification models and resulting in inaccurate behavior. สถาบันการเงินมีบทบาทต่อการขับเคลื่อนเศรษฐกิจโดยมีผลิตภัณฑ์การออมเงินเป็นแหล่งเงินทุนหลัก และแม้ว่าจะมีระบบการเงินแบบดิจิทัลแล้ว แต่การติดต่อสื่อสารผ่านทางโทรศัพท์เพื่อนำเสนอผลิตภัณฑ์แก่ลูกค้ายังคงได้รับความนิยม ซึ่งหากไม่มีการวิเคราะห์ข้อมูลก่อนทำการติดต่ออาจส่งผลให้สิ้นเปลืองค่าใช้จ่าย เวลา และก่อให้เกิดประสบการณ์ที่ไม่ดีแก่ลูกค้า จุดประสงค์ของงานวิจัยนี้มุ่งเน้นไปยังการใช้การเรียนรู้ด้วยเครื่องแบบอธิบายได้เพื่อช่วยคัดเลือกคุณลักษณะในการพัฒนาแบบจำลองสำหรับจำแนกกลุ่มลูกค้าที่มีแนวโน้มในการสมัครผลิตภัณฑ์เปรียบเทียบกับวิธีการแบบดั้งเดิม โดยใช้งานชุดข้อมูล ‘Bank Marketing Data Set’ ซึ่งเป็นชุดข้อมูลสาธารณะจาก University of California, Irvine ที่เก็บรวบรวมเกี่ยวกับการนำเสนอผลิตภัณฑ์เงินฝากประจำผ่านทางโทรศัพท์ของธนาคารแห่งหนึ่งในประเทศโปรตุเกส ซึ่งชุดข้อมูลมีความไม่สมดุลกันสูงจึงมีการจัดการด้วยเทคนิค Class Weight, Random Under Sampling และ SMOTE ร่วมกับการสร้างแบบจำลอง Logistic Regression, Random Forest, LightGBM และ XGBoost สำหรับการทำนาย รวมไปถึงการคัดเลือกคุณลักษณะด้วยวิธี F-Value, Recursive Feature Elimination และเทคนิคการเรียนรู้ด้วยเครื่องแบบอธิบายได้ด้วยวิธีการแบบ SHAP โดยการประเมินประสิทธิภาพจะเน้นไปยังการตรวจจับ (Recall) กลุ่มลูกค้าที่สมัครผลิตภัณฑ์ โดยค่าประสิทธิภาพอื่นๆ เช่น ความแม่นยำ (Accuracy) ยังอยู่ในเกณฑ์ที่เหมาะสม และการนำ SHAP มาใช้งานสามารถช่วยอธิบายการทำงานของแบบจำลองรวมถึงการทำนายในระดับรายบุคคลได้อย่างชัดเจน โดยจากวิธีการคัดเลือกเพื่อค้นหาคุณลักษณะที่สำคัญสูงสุดสองอันดับ 6 วิธีการ พบว่าคุณลักษณะที่ปรากฏบ่อยครั้งที่สุดสองอันดับแรก ได้แก่ ‘อัตราดอกเบี้ยกู้ยืมระหว่างธนาคารภายในยุโรปรายวัน’ และ ‘จำนวนพนักงานรายไตรมาส’ ซึ่งแบบจำลองที่มีการใช้งานเพียงสองคุณลักษณะนี้สามารถให้ค่าประสิทธิภาพ Recall ของกลุ่มลูกค้าที่สมัครผลิตภัณฑ์ที่ 71% และ Accuracy ที่ 72% เทียบเท่าแบบจำลองที่ใช้งานทุกคุณลักษณะ นอกจากนี้การวิเคราะห์ความผิดพลาดของแบบจำลองแสดงให้เห็นว่าการทำนายที่ผิดพลาดเนื่องมาจากลักษณะของข้อมูลมีความใกล้เคียงกับข้อมูลอีกกลุ่มอย่างมากจนไม่สามารถจำแนกกลุ่มได้อย่างชัดเจน |
URI: | http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2225 |
Appears in Collections: | Faculty of Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
gs641130039.pdf | 5.76 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.