KMITL Expo 2026 LogoKMITL 66th Anniversary Logo

Air Quality Index Prediction Using Ensemble Machine Learning Methods

Abstract

This special problem aims to study and compare the performance of predicting the air quality index (AQI) using five ensemble machine learning methods: random forest, XGBoost, CatBoost, stacking ensemble of random forest and XGBoost, and stacking ensemble of random forest, SVR, and MLP. The study uses a dataset from the Central Pollution Control Board of India (CPCB), which includes fifteen pollutants and nine meteorological variables collected between January, 2021 and December, 2023. In this study, there were 1,024,920 records. The performance is measured using three methods: root mean square error (RMSE), mean absolute error (MAE), and coefficient of determination. The study found that the random forest and XGBoost stacking ensemble had the best performance measures among the three methods, with the minimum RMSE of 0.1040, the minimum MAE of 0.0675, and the maximum of 0.8128. SHAP-based model interpretation method for five machine learning methods. All methods reached the same conclusion: the two variables that most significantly impacted the global prediction were PM2.5 and PM10, respectively.

Objective

ทั่วโลกกำลังเผชิญกับวิกฤตมลพิษทางอากาศที่รุนแรงที่สุดในประวัติศาสตร์ การเพิ่มขึ้นของสารมลพิษในอากาศ เช่น ฝุ่นละอองขนาดเล็ก PM2.5 PM10 ก๊าซโอโซน ก๊าซคาร์บอนมอนอกไซด์ ไนโตรเจนไดออกไซด์ และซัลเฟอร์ไดออกไซด์ ซึ่งส่งผลกระทบต่อระบบทางเดินหายใจและระบบไหลเวียนโลหิตของมนุษย์ นอกจากนี้ยังมีผลกระทบทางลบต่อพืชและสัตว์ในระบบนิเวศอีกด้วย หลายพื้นที่ทั่วโลกเผชิญกับค่า PM2.5 เกินมาตรฐานอย่างต่อเนื่อง องค์การอนามัยโลก (World Health Organization : WHO) ประกาศเตือนว่า PM2.5 เป็นสารก่อมะเร็ง ส่งผลให้เกิดโรคทางเดินหายใจ โรคหัวใจ และโรคหลอดเลือดสมอง PM2.5 เป็นมลพิษทางอากาศที่อันตรายที่สุด ส่งผลต่อระบบทางเดินหายใจและเพิ่มความเสี่ยงต่อมะเร็งปอด สถิติปี 2020 มีผู้เสียชีวิตจากมะเร็งปอด 1.79 ล้านคน และคาดว่าจำนวนผู้เสียชีวิตจะเพิ่มมากขึ้นทุกปีอย่างต่อเนื่อง ดัชนีคุณภาพอากาศ (Air Quality Index : AQI) เป็นตัวชี้วัดสำคัญในการประเมินคุณภาพอากาศและบ่งชี้ถึงระดับของมลพิษ โดยใช้ข้อมูลความเข้มข้นของมลพิษในอากาศคำนวณเป็นค่าดัชนีคุณภาพอากาศที่ช่วยให้ประชาชนทราบถึงระดับความปลอดภัยของอากาศ ดังนั้นหากในชีวิตประจำวันสามารถทำนายดัชนีคุณภาพอากาศได้ ประชาชนจะสามารถวางแผนการเดินทางหรือการทำกิจกรรมกลางแจ้ง โดยหลีกเลี่ยงบริเวณที่มีมลพิษสูงได้ โดยเฉพาะกลุ่มเสี่ยง เช่น ผู้สูงอายุ เด็กเล็ก และผู้ป่วยเรื้อรัง ในช่วงหลายปีที่ผ่านมา มีงานวิจัยที่ได้พัฒนาวิธีการทำนายดัชนีคุณภาพอากาศโดยนักวิจัยได้ประยุกต์ใช้วิธีการเรียนรู้ของเครื่อง (Machine Learning) เพื่อการทำนายคุณภาพอากาศให้ดียิ่งขึ้น ในงานวิจัยนี้ คณะผู้วิจัยจึงมีความสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มมาใช้ในการทำนายดัชนีคุณภาพอากาศ จากการทบทวนวรรณกรรมเกี่ยวกับงานวิจัยที่เกี่ยวข้อง คณะผู้วิจัยพบว่าในงานวิจัยของ Zhang et al. (2023) ที่ศึกษาในกลุ่มเมืองของจีน 6 แห่ง ด้วยข้อมูลมลพิษและสภาพอากาศ พบได้ว่าวิธีป่าสุ่มมีประสิทธิภาพดีที่สุดเมื่อวัดด้วย MAE ต่อมาในงานวิจัยของ Dao et al. (2022) ที่ได้ใช้ข้อมูลมลพิษในอินเดีย พบว่าวิธี XGBoost มีประสิทธิภาพดีที่สุด เช่นเดียวกับงานวิจัยของ Kumar and Pande (2023) ในขณะที่ Ravindiran et al. (2023) ได้ศึกษาด้วยข้อมูลมลพิษและสภาพอากาศในรัฐอานธรประเทศ พบว่าวิธี CatBoost มีประสิทธิภาพดีที่สุด และอีก 2 งานวิจัยที่ได้อาศัยแนวทางการรวมกลุ่มแบบ Stacking ได้แก่ งานวิจัยของ Sharma et al. (2024) ที่ศึกษาในหลายเมืองของอินเดียโดยได้ใช้วิธีการรวมกลุ่มของต้นไม้ตัดสินใจหลายวิธี หนึ่งในนั้นคือวิธีการรวมกลุ่มป่าสุ่มและ XGBoost ซึ่งก็พบว่าวิธีดังกล่าวมีประสิทธิภาพดีที่สุด และ Emeç and Yurtsever (2024) ได้ศึกษาการทำนายความเข้มข้นของ PM2.5 ซึ่งเป็นหนึ่งในมลพิษสำคัญที่ส่งผลต่อดัชนีคุณภาพอากาศของเมืองอิสตันบลูและปักกิ่งโดยใช้วิธีการเรียนรู้ของเครื่อง 3 วิธีมารวมกันเป็นวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP พบว่าวิธีนี้มีประสิทธิภาพดีกว่าการใช้ทั้ง 3 วิธีแยกกัน ดังนั้นคณะผู้วิจัยจึงสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มทั้ง 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP โดยใช้ข้อมูลเกี่ยวกับค่ามลพิษและสภาพอากาศจากสถานีตรวจวัดในรัฐเดลี ประเทศอินเดีย ซึ่งเป็นพื้นที่ที่มีปัญหาด้านคุณภาพอากาศเป็นอันดับต้น ๆ ของโลก โดยใช้ข้อมูลตั้งแต่วันที่ 1 มกราคม 2021 ถึง 31 ธันวาคม 2023 และวิธีการวัดประสิทธิภาพ 3 วิธี ได้แก่ รากของค่าคลาดเคลื่อนกำลังสองเฉลี่ย ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย และสัมประสิทธิ์การกำหนด (Coefficient of Determination) เปรียบเทียบประสิทธิภาพของวิธีการต่าง ๆ และระบุแนวทางที่เหมาะสมที่สุดในการทำนายดัชนีคุณภาพอากาศ

Other Innovations

3D Soundscape Healing: The L-R Beat Exploration in Binaural Beats Therapy

วิทยาลัยวิศวกรรมสังคีต

3D Soundscape Healing: The L-R Beat Exploration in Binaural Beats Therapy

This project explores the therapeutic potential of binaural beats within a 3D soundscape environment, focusing on the effects of left-right (L-R) beating sound positioning. Using Dolby Atmos technology to create immersive auditory experiences, the research aims to investigate how varying spatial beating sound placements in binaural beat therapy influence mental and emotional healing. Binaural beats, a form of auditory brainwave entrainment, have been shown to promote relaxation, reduce anxiety, and enhance cognitive performance. However, there has been limited exploration of how spatial sound technologies, like Dolby Atmos, can enhance the efficacy of these therapies. This study examines how different beating L-R configurations in a 3D soundscape impact the listener’s perception and therapeutic outcomes. Participants will experience binaural beat sessions in various beating L-R orientations, and physiological and psychological measures, such as heart rate variability and self-reported relaxation levels, will be assessed. The results are expected to provide new insights into the interaction between spatial audio environments and sound-based therapies, potentially improving sound therapy practices by leveraging advanced audio technologies.

Read more
Real time mosquito counter by ripple detection system

คณะวิศวกรรมศาสตร์

Real time mosquito counter by ripple detection system

The designing of mosquitoes counting system instrument is presented in this work. The mosquitoes that were counted died in order not to measure duplicate counting data. As soon as the input source counting machine can detect the mosquito, the single trigger signal is transmitted to the IOT system to interrupt the server immediately. The number of real mosquito is not transmitting to the IOT but only a signal to interrupt the server. The server records the number of the interrupt signal with real-time clock. Then the interrupt information will be further handled. The front end counting machine consist of the high voltage generate with the suitable voltage value and electrode distance for the required mosquitoes size. The low trigger pulse signals of the mosquitoes killed by high voltage are sending to the controller unit. Immediately, interrupt counting signal of the number of mosquitoes is sent to the big stream data collection on IOT system by the time stamp technique. Form the measurement results, 10 live sample mosquitoes in a limited space box to fly though the counting machine show that the count results are 100% correct count.

Read more
Hydro IoT

คณะวิศวกรรมศาสตร์

Hydro IoT

A small hydroponic vegetable growing system simulation kit with water flow system that monitors, maintains and controls the amount of fertilizer in the system.

Read more