Please use this identifier to cite or link to this item: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2574
Title: MACHINE LEARNING TECHNIQUES FOR WATER QUALITY CLASSIFICATION AND WATER QUALITY INDEX FORECASTING OF THAILAND'S RIVERS
เทคนิคการเรียนรู้ของเครื่องสำหรับการจำแนกระดับคุณภาพแม่น้ำและการทำนายดัชนีชี้วัดคุณภาพแม่น้ำของประเทศไทย 
Authors: KEEREELUK SIRIKARIN
คีรีลักษณ์ ศิริคะรินทร์
Subhorn Khonthapagdee
ศุภร คนธภักดี
Srinakharinwirot University
Subhorn Khonthapagdee
ศุภร คนธภักดี
subhorn@swu.ac.th
subhorn@swu.ac.th
Keywords: ดัชนีชี้วัดคุณภาพน้ำ
การเรียนรู้ของเครื่อง
การทำนาย
การจำแนกระดับคุณภาพน้ำ
Water quality index
Machine learning
Forecasting
Water quality classification
Issue Date:  15
Publisher: Srinakharinwirot University
Abstract: The Water Quality Index (WQI) is a metric generally used to indicate the water quality of rivers in Thailand. The WQI scores range from 0 to 100 and can be further classified from the scores into five classes, including excellent, good, moderate, poor, and very poor. Applying machine learning techniques to the water quality data is one way to predict water quality information for developing a water quality management plan. Thus, the purpose of this study is to mainly classify water quality using four machine learning techniques: Random Forest, Extreme Gradient Boosting (XGBoost), Logistic Regression, and Support Vector Machines (SVM), together with resampling methods, such as Synthetic Minority Oversampling Technique (SMOTE) and Random Oversampling, to handle the imbalanced dataset. Moreover, time series models, including ARIMA, ARIMAX, SARIMA, and SARIMAX, were performed to forecast the WQI. In this research, the water quality data of Ping River, Wang River, Yom River, and Nan River that were collected by the Pollution Control Department between 2009 and 2021 were chosen. This study found that XGBoost with SMOTE achieved the best performance for classifying water quality with an accuracy of 91.53%, precision of 91.78%, recall of 91.53%, and F1 score of 91.56%. Additionally, Biochemical Oxygen Demand (BOD) was the most important parameter that had the highest impact on water quality classification based on this dataset. Regarding the results of WQI forecasting, the water quality data of PI06 (Ping River), WA02 (Wang River), YO01 (Yom River), and NA02 (Nan River) stations were further selected to study the time series models. The results indicated that ARIMAX (the exogenous variables were Dissolved Oxygen (DO), Total Coliform Bacteria (TCB), Fecal Coliform Bacteria (FCB), Ammonia-nitrogen (NH3-N), and BOD) was the best model for PI06 (MAE of 4.35, RMSE of 5.90, and MAPE of 6.15%), WA02 (MAE of 6.36, RMSE of 7.55, and MAPE of 9.35%), and YO01 (MAE of 5.85, RMSE of 6.62, and MAPE of 5.85%) due to the least error for forecasting WQI. Lastly, it can be concluded that the exogenous variables improved the model performance of these three stations.
ดัชนีชี้วัดคุณภาพน้ำ (Water Quality Index: WQI) เป็นค่าที่ใช้บ่งบอกคุณภาพของแม่น้ำของประเทศไทย มีค่าระหว่าง 0-100 และแบ่งเป็น 5 ระดับ ได้แก่ คุณภาพน้ำที่อยู่ในเกณฑ์ดี ดีมาก พอใช้ เสื่อมโทรม และเสื่อมโทรมมาก การใช้เทคนิคการเรียนรู้ของเครื่องเพื่อทำนายคุณภาพของน้ำเป็นวิธีการหนึ่งที่สามารถคาดการณ์คุณภาพของน้ำในอนาคต และนำข้อมูลที่ได้จากการทำนายมาใช้เป็นข้อมูลประกอบการวางแผนจัดการกับคุณภาพน้ำให้เหมาะสมต่อไป ด้วยเหตุนี้ งานวิจัยนี้จึงมีวัตถุประสงค์เพื่อศึกษาการจำแนกระดับคุณภาพน้ำ โดยใช้ Random Forest, Extreme Gradient Boosting (XGBoost), Logistic Regression และ Support Vector Machines (SVM) ร่วมกับเทคนิคการแก้ไขปัญหาความไม่สมดุลของข้อมูลระดับคุณภาพน้ำ ได้แก่ Synthetic Minority Oversampling Technique (SMOTE) และ Random Oversampling นอกจากนี้ ยังศึกษาการทำนายดัชนีชี้วัดคุณภาพน้ำด้วยแบบจำลองอนุกรมเวลา ได้แก่ ARIMA, ARIMAX, SARIMA และ SARIMAX โดยงานวิจัยนี้ใช้ข้อมูลคุณภาพแม่น้ำปิง แม่น้ำวัง แม่น้ำยม และแม่น้ำน่าน จากกรมควบคุมมลพิษ ระหว่างปี พ.ศ 2552 - 2564 ผลการศึกษาพบว่า แบบจำลอง XGBoost ร่วมกับ SMOTE มีประสิทธิภาพสำหรับจำแนกระดับคุณภาพน้ำดีที่สุด ค่า Accuracy เท่ากับ 91.53% Precision เท่ากับ 91.78% Recall เท่ากับ 91.53% และ F1 score เท่ากับ 91.56% และพบว่า BOD หรือปริมาณออกซิเจนที่จุลินทรีย์ใช้ย่อยสลายสารอินทรีย์เป็นพารามิเตอร์น้ำที่มีผลต่อการจำแนกระดับคุณภาพน้ำมากที่สุด สำหรับผลการศึกษาที่ได้จากการทำนายดัชนีชี้วัดคุณภาพน้ำด้วยแบบจำลองอนุกรมเวลา โดยใช้ข้อมูลของสถานีตรวจวัดคุณภาพน้ำ PI06 (แม่น้ำปิง), WA02 (แม่น้ำวัง), YO01 (แม่น้ำยม) และ NA02 (แม่น้ำน่าน) พบว่า ARIMAX ซึ่งกำหนดให้ ปริมาณออกซิเจนที่ละลายในน้ำ (DO) ปริมาณแบคทีเรียกลุ่มโคลิฟอร์มทั้งหมด (TCB) ปริมาณแบคทีเรียกลุ่มฟีคอลโคลิฟอร์ม (FCB) ปริมาณแอมโมเนียไนโตรเจน (NH3-N) และ BOD เป็นตัวแปรภายนอก (Exogenous variable) สามารถทำนายค่า WQI ของข้อมูลสถานีตรวจวัด PI06 (MAE เท่ากับ 4.35 RMSE เท่ากับ 5.90 และ MAPE เท่ากับ 6.15%) WA02 (MAE เท่ากับ 6.36 RMSE เท่ากับ 7.55 และ MAPE เท่ากับ 9.35%) และ YO01 (MAE เท่ากับ 5.85 RMSE เท่ากับ 6.62 และ MAPE เท่ากับ 5.85%) มีค่าความคลาดเคลื่อนน้อยที่สุด สามารถสรุปได้ว่า ตัวแปรภายนอก (Exogenous variable) ส่งผลให้การทำนายค่า WQI แม่นยำเพิ่มขึ้น สำหรับข้อมูลคุณภาพน้ำของ 3 สถานีตรวจวัดดังกล่าว
URI: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2574
Appears in Collections:Faculty of Science

Files in This Item:
File Description SizeFormat 
gs641130035.pdf6.01 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.