Please use this identifier to cite or link to this item: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/3393
Title: MOTOR CLAIM ANALYSIS WITH MACHINE LEARNING MODELS
การวิเคราะห์ประกันรถยนต์ด้วยการเรียนรู้ของเครื่อง
Authors: YODHARIN MONPLUB
ยศหรินทร์ มนพลับ
Sirisup Laohakiat
ศิริสรรพ เหล่าหะเกียรติ
Srinakharinwirot University
Sirisup Laohakiat
ศิริสรรพ เหล่าหะเกียรติ
sirisup@swu.ac.th
sirisup@swu.ac.th
Keywords: การเรียนรู้ของเครือง
ประกันภัยรถยนต์
การปรับจูนไฮเปอร์พารามิเตอร์
Machine Learning
Motor insurance
Hyperparameter tuning
Issue Date:  16
Publisher: Srinakharinwirot University
Abstract: This research investigates the relationship between various independent variables—such as claim history and insurance duration—and the dependent variable, which is the number of claims made. Seven machine learning models were used in the study: CatBoost Regressor, XGBoost Regressor, LightGBM Regressor, Poisson Regressor, Negative Binomial Regressor, MLP Regressor, and TabNet Regressor. The data preprocessing included CatBoost encoding and standard scaling, and the dataset was divided into three parts: Training, Validation, and Testing. To improve model performance, hyperparameter tuning was applied to all models. Additionally, feature importance analysis was conducted using the XGBoost, CatBoost, LightGBM, and Random Forest models. The objective of this study is to build a model that can accurately predict the number of insurance claims, enabling insurance companies to better estimate costs, and to identify which independent variables have the most influence on the number of claims. The findings show that the best-performing model based on Mean Absolute Error (MAE) is the TabNet Regressor, with an MAE of 0.0787. When considering R-squared and Mean Squared Error (MSE), the best model is the CatBoost Regressor, with scores of 0.0339 and 0.0557, respectively. The most influential features affecting the number of claims are the duration of the insurance policy (Exposure), vehicle age (Region), claim history (BonusMalus), and the policy duration (Area).
งานวิจัยนี้เป็นการศึกษาความสัมพันธ์ระหว่างตัวแปรต้นต่างๆ เช่นประวัติการเคลม และระยะเวลาที่ทำประกัน กับตัวแปรตาม นั้นคือจำนวนเคลมที่เกิดขึ้น โดยได้ใช้การเรียนรู้ของเครื่อง 7 โมเดล นั้นคือ Catboost, Regressor, XGBoost Regressor, LightGBM Regressor, Poisson Regressor, Negative binomial Regressor, MLP Regressor และ Tabnet Regressor ได้มีการนำข้อมูลมาประมวลผลด้วยการทำ Catboost encoding และ standard scaler และได้ทำ pre-processing ด้วยการแบ่งข้อมูลออกเป็น 3 ส่วนได้แก่ Test Validation และ Train นอกจากนี้เพื่อให้โมเดลมีประสิทธิภาพมากขึ้น ได้มีการทำ Hyperparameter tuning ในทุกโมเดล และในงานวิจัยนี้มีการทำ Feature importance โดยโมเดล  XGboost, Catboost, LightGBM และ Random forest โดยจุดประสงค์ของงานนี้คือการสร้างโมเดลที่จะทำนายจำนวนเคลมได้อย่างแม่นยำ เพื่อให้บริษัทประกันสามารถคำนวณค่าใช้จ่ายได้ และศึกษาว่าตัวแปรต้นตัวใดส่งผลกับจำนวณเคลมมากที่สุด โดยผลงานวิจัยคือ โมเดลที่ดีที่สุดหากดูจากคะแนน MAE คือ Tabnet regressor โดยมี MAEเท่ากับ 0.0787 และหากดูจากคะแนน R_squared และ MSE คือ Catboost regressor โดยมีคะแนนเท่ากับ 0.0339 และ 0.0557 ตามลำดับ ส่วนตัวแปรต้นที่ส่งผลต่อจำนวณเคลมมากที่สุดคือ ระยะเวลาที่กรมธรรม์ส่งผล (Area) อายุรถ (Region) ประวัติการเคลม (BonusMalus) และ ระยะเวลาของกรมธรรม์ (Exposure)
URI: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/3393
Appears in Collections:Faculty of Science

Files in This Item:
File Description SizeFormat 
gs651160254.pdf2.46 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.