Please use this identifier to cite or link to this item: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2573
Title: MACHINE LEARNING MODEL FOR FORECASTING PARTICULATE MATTER CONCENTRATION (PM 2.5)
การเรียนรู้ของเครื่องสำหรับการทำนายค่าความเข้มของฝุ่นละอองขนาดเล็ก (PM2.5)
Authors: KOJCHARAT NARUPATPAJONG
กชรัตน์ นฤพัฒน์ผจง
Napa Sae-Bae
นภา แซ่เบ๊
Srinakharinwirot University
Napa Sae-Bae
นภา แซ่เบ๊
napasa@swu.ac.th
napasa@swu.ac.th
Keywords: การเรียนรู้ของเครื่อง
การทำนายค่าฝุ่นละอองขนาดเล็ก PM2.5
ฝุ่นละอองขนาดเล็ก PM2.5
Machine learning model
Forecasting particulate matter (PM2.5)
Linear Regression
Support Vector Regression
XGBoost
Multi-Layer Perceptron
Issue Date:  15
Publisher: Srinakharinwirot University
Abstract: The issue of particulate matter (PM2.5) pollution is escalating in Thailand. This research aims to investigate the utilization of industrial data in conjunction with machine learning techniques to create a preliminary model for predicting the concentration of PM2.5 in advance. The goal is to enhance the understanding of PM2.5 trends and to develop suitable management plans to address future PM2.5 levels. In this research, a dataset was created by combining information from two public sources using web scraping scripts, as follows: (1) the fine particulate matter (PM2.5) data extracted from the Berkeley Earth website; (2) meteorological data obtained from the Weather Underground website, specifically from the IKRUNGTH3 station, located near Vibhavadi Rangsit 60, Lak Si, Bangkok. The data spans from January 1 to December 31, 2018 and January 1 to September 28, 2019, and includes variables that may influence PM2.5 levels, such as temperature, dew point, humidity, wind direction, wind speed, gust speed, and atmospheric pressure. For the predictive model of fine particulate matter (PM2.5) levels, four models were employed: LR (Linear Regression), SVR (Support Vector Regression), XG Boost, and MLP (Multi-Layer Perceptron). The models were configured with default parameters from scikit-learn, and their performances were subsequently compared. The experimental results revealed that the LR - Linear Regression model exhibited the best outcomes in terms of accuracy and reduced errors. The optimal results included R2: 0.9722, MAE: 1.6832, RMSE: 2.4492, and MAPE (%): 9.0302. This model incorporated variables related to PM2.5 concentrations from the previous 1, 6, 12, and 24 hours, along with meteorological data. Additionally, it utilized variables related to the average PM2.5 concentrations in the past 24, 48, and 72 hours, as well as seasonal information (Season).
สถานการณ์ปัจจุบันปัญหาฝุ่นละอองขนาดเล็กไม่เกิน 2.5 ไมครอน (PM2.5) เป็นปัญหาสำคัญของประเทศไทย งานวิจัยนี้มุ่งศึกษาการนำข้อมูลภาคอุตุนิยมวิทยามาใช้ร่วมกับเทคนิคการเรียนรู้ของเครื่อง เพื่อสร้างแบบจำลองเบื้องต้นที่ใช้สำหรับในการทำนายค่าความเข้มของฝุ่นละอองขนาดเล็ก (PM2.5) ล่วงหน้า เพื่อให้มีความเข้าใจแนวโน้มของสถานการณ์ PM2.5 รวมถึงวางแผนการจัดการที่เหมาะสมในการรับมือปริมาณฝุ่นละอองขนาดเล็ก (PM2.5)ในอนาคต โดยในงานวิจัย มีการสร้างชุดข้อมูล โดยการนำข้อมูลจากแหล่งข้อมูลสาธารณะ 2 ชุดมารวมกัน ซึ่งโดยอาศัยการใช้สคริปต์ดึงข้อมูลจากหน้าเว็บไซต์ (Web Scraping) ดังนี้ 1. ข้อมูลฝุ่นละอองขนาดเล็ก (PM2.5) นำมาจากเว็บไซต์ Berkeley Earth 2. ข้อมูลภาคอุตุนิยมวิทยา นำมาจากเว็บไซต์ Weather Underground โดยทำการดึงข้อมูลในช่วงวันที่ 1 มกราคม - 31 ธันวาคม 2562 และช่วง 1 มกราคม – 28 กันยายน ปี 2563 ซึ่งข้อมูลภาคอุตุนิยมวิทยานำมาจากสถานี IKRUNGTH3 ตั้งอยู่บริเวณ วิภาวดี 60 หลักสี่กรุงเทพมหานคร ประกอบด้วยตัวแปรที่สามารถส่งผลต่อค่า PM2.5 ได้แก่  อุณหภูมิ, จุดน้ำค้าง, ความชื้น, ทิศทางลม, ความเร็วลม ,ลมกระโชก และ ความกดอากาศ สำหรับแบบจำลองเบื้องต้นที่ใช้สำหรับในการทำนายค่าความเข้มของฝุ่นละอองขนาดเล็ก (PM2.5) ล่วงหน้า ประกอบด้วยแบบจำลอง ทั้งหมด 4 รูปแบบ  ได้แก่ LR (Linear Regression), SVR (Support Vector Regression) , XGBoost  และ MLP ( Multi-Layer Perceptron) โดยใช้ ค่าพารามิเตอร์เริ่มต้น จาก  scikit-learn  และทำการเปรียบเทียบประสิทธิภาพของแบบจำลองทั้งหมด จากผลการทดลองพบว่าแบบจำลอง LR- Linear Regression ผลลัพธ์ที่ดีที่สุด ทั้งในแง่ของความถูกต้องแม่นยำ และความคลาดเคลื่อนที่ต่ำลดลง โดยผลลัพธ์ที่ดีที่สุดมีค่า R2 : 0.9722 ,MAE :1.6832, RMSE : 2.4492 , MAPE(%) : 9.0302 ซึ่งเป็นแบบจำลองที่สร้างโดยอาศัยตัวแปรด้านค่าเฉลี่ยฝุ่นละอองขนาดเล็ก PM2.5 24 48 และ72 ชั่วโมงย้อนหลัง และตัวแปรด้านฤดูกาล (Season) เพิ่มจากตัวแปรด้านค่าฝุ่นละอองขนาดเล็ก PM2.5 ย้อนหลัง 1 6 12 และ24 ชั่วโมงย้อนหลัง และข้อมูลภาคอุตุนิยมวิทยา
URI: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/2573
Appears in Collections:Faculty of Science

Files in This Item:
File Description SizeFormat 
gs641130032.pdf3.79 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.