KMITL Expo 2026 LogoKMITL 66th Anniversary Logo

Air Quality Index Prediction Using Ensemble Machine Learning Methods

Abstract

This special problem aims to study and compare the performance of predicting the air quality index (AQI) using five ensemble machine learning methods: random forest, XGBoost, CatBoost, stacking ensemble of random forest and XGBoost, and stacking ensemble of random forest, SVR, and MLP. The study uses a dataset from the Central Pollution Control Board of India (CPCB), which includes fifteen pollutants and nine meteorological variables collected between January, 2021 and December, 2023. In this study, there were 1,024,920 records. The performance is measured using three methods: root mean square error (RMSE), mean absolute error (MAE), and coefficient of determination. The study found that the random forest and XGBoost stacking ensemble had the best performance measures among the three methods, with the minimum RMSE of 0.1040, the minimum MAE of 0.0675, and the maximum of 0.8128. SHAP-based model interpretation method for five machine learning methods. All methods reached the same conclusion: the two variables that most significantly impacted the global prediction were PM2.5 and PM10, respectively.

Objective

ทั่วโลกกำลังเผชิญกับวิกฤตมลพิษทางอากาศที่รุนแรงที่สุดในประวัติศาสตร์ การเพิ่มขึ้นของสารมลพิษในอากาศ เช่น ฝุ่นละอองขนาดเล็ก PM2.5 PM10 ก๊าซโอโซน ก๊าซคาร์บอนมอนอกไซด์ ไนโตรเจนไดออกไซด์ และซัลเฟอร์ไดออกไซด์ ซึ่งส่งผลกระทบต่อระบบทางเดินหายใจและระบบไหลเวียนโลหิตของมนุษย์ นอกจากนี้ยังมีผลกระทบทางลบต่อพืชและสัตว์ในระบบนิเวศอีกด้วย หลายพื้นที่ทั่วโลกเผชิญกับค่า PM2.5 เกินมาตรฐานอย่างต่อเนื่อง องค์การอนามัยโลก (World Health Organization : WHO) ประกาศเตือนว่า PM2.5 เป็นสารก่อมะเร็ง ส่งผลให้เกิดโรคทางเดินหายใจ โรคหัวใจ และโรคหลอดเลือดสมอง PM2.5 เป็นมลพิษทางอากาศที่อันตรายที่สุด ส่งผลต่อระบบทางเดินหายใจและเพิ่มความเสี่ยงต่อมะเร็งปอด สถิติปี 2020 มีผู้เสียชีวิตจากมะเร็งปอด 1.79 ล้านคน และคาดว่าจำนวนผู้เสียชีวิตจะเพิ่มมากขึ้นทุกปีอย่างต่อเนื่อง ดัชนีคุณภาพอากาศ (Air Quality Index : AQI) เป็นตัวชี้วัดสำคัญในการประเมินคุณภาพอากาศและบ่งชี้ถึงระดับของมลพิษ โดยใช้ข้อมูลความเข้มข้นของมลพิษในอากาศคำนวณเป็นค่าดัชนีคุณภาพอากาศที่ช่วยให้ประชาชนทราบถึงระดับความปลอดภัยของอากาศ ดังนั้นหากในชีวิตประจำวันสามารถทำนายดัชนีคุณภาพอากาศได้ ประชาชนจะสามารถวางแผนการเดินทางหรือการทำกิจกรรมกลางแจ้ง โดยหลีกเลี่ยงบริเวณที่มีมลพิษสูงได้ โดยเฉพาะกลุ่มเสี่ยง เช่น ผู้สูงอายุ เด็กเล็ก และผู้ป่วยเรื้อรัง ในช่วงหลายปีที่ผ่านมา มีงานวิจัยที่ได้พัฒนาวิธีการทำนายดัชนีคุณภาพอากาศโดยนักวิจัยได้ประยุกต์ใช้วิธีการเรียนรู้ของเครื่อง (Machine Learning) เพื่อการทำนายคุณภาพอากาศให้ดียิ่งขึ้น ในงานวิจัยนี้ คณะผู้วิจัยจึงมีความสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มมาใช้ในการทำนายดัชนีคุณภาพอากาศ จากการทบทวนวรรณกรรมเกี่ยวกับงานวิจัยที่เกี่ยวข้อง คณะผู้วิจัยพบว่าในงานวิจัยของ Zhang et al. (2023) ที่ศึกษาในกลุ่มเมืองของจีน 6 แห่ง ด้วยข้อมูลมลพิษและสภาพอากาศ พบได้ว่าวิธีป่าสุ่มมีประสิทธิภาพดีที่สุดเมื่อวัดด้วย MAE ต่อมาในงานวิจัยของ Dao et al. (2022) ที่ได้ใช้ข้อมูลมลพิษในอินเดีย พบว่าวิธี XGBoost มีประสิทธิภาพดีที่สุด เช่นเดียวกับงานวิจัยของ Kumar and Pande (2023) ในขณะที่ Ravindiran et al. (2023) ได้ศึกษาด้วยข้อมูลมลพิษและสภาพอากาศในรัฐอานธรประเทศ พบว่าวิธี CatBoost มีประสิทธิภาพดีที่สุด และอีก 2 งานวิจัยที่ได้อาศัยแนวทางการรวมกลุ่มแบบ Stacking ได้แก่ งานวิจัยของ Sharma et al. (2024) ที่ศึกษาในหลายเมืองของอินเดียโดยได้ใช้วิธีการรวมกลุ่มของต้นไม้ตัดสินใจหลายวิธี หนึ่งในนั้นคือวิธีการรวมกลุ่มป่าสุ่มและ XGBoost ซึ่งก็พบว่าวิธีดังกล่าวมีประสิทธิภาพดีที่สุด และ Emeç and Yurtsever (2024) ได้ศึกษาการทำนายความเข้มข้นของ PM2.5 ซึ่งเป็นหนึ่งในมลพิษสำคัญที่ส่งผลต่อดัชนีคุณภาพอากาศของเมืองอิสตันบลูและปักกิ่งโดยใช้วิธีการเรียนรู้ของเครื่อง 3 วิธีมารวมกันเป็นวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP พบว่าวิธีนี้มีประสิทธิภาพดีกว่าการใช้ทั้ง 3 วิธีแยกกัน ดังนั้นคณะผู้วิจัยจึงสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มทั้ง 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP โดยใช้ข้อมูลเกี่ยวกับค่ามลพิษและสภาพอากาศจากสถานีตรวจวัดในรัฐเดลี ประเทศอินเดีย ซึ่งเป็นพื้นที่ที่มีปัญหาด้านคุณภาพอากาศเป็นอันดับต้น ๆ ของโลก โดยใช้ข้อมูลตั้งแต่วันที่ 1 มกราคม 2021 ถึง 31 ธันวาคม 2023 และวิธีการวัดประสิทธิภาพ 3 วิธี ได้แก่ รากของค่าคลาดเคลื่อนกำลังสองเฉลี่ย ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย และสัมประสิทธิ์การกำหนด (Coefficient of Determination) เปรียบเทียบประสิทธิภาพของวิธีการต่าง ๆ และระบุแนวทางที่เหมาะสมที่สุดในการทำนายดัชนีคุณภาพอากาศ

Other Innovations

Prototypal Community Center for Bangkok's Future Net Zero Ambitions

คณะสถาปัตยกรรม ศิลปะและการออกแบบ

Prototypal Community Center for Bangkok's Future Net Zero Ambitions

This project is a carbon safe haven of Bangkok, aspiring to be the prototypal gateway of the future's carbon net zero ambitions. The project aims to answer the fundamental "flaw" of the existing urban fabric, still being extremely inefficient and highly polluting. Conversely, Carbon Oasis would not only create its own energy, but look to provide its excess energy and water surplus' back to the city and its surroundings. Taking parts of the existing city and implementing new concepts to inspire a change in the urban fabric and its people.

Read more
Chrysanthemum mutation by chemical mutagen

คณะเทคโนโลยีการเกษตร

Chrysanthemum mutation by chemical mutagen

This study examines the effects of chemical mutagens, ethyl methane sulfonate (EMS) and colchicine in inducing mutations in Chrysanthemum spp. through tissue culture techniques. In vitro cultures of Chrysanthemum were treated with various concentrations of EMS and colchicine to assess their impact on shoot regeneration and mutation frequency. Results indicated that EMS significantly increased phenotypic variability, leading to enhanced flower color and size, while colchicine treatment effectively induced polyploidy, resulting in plants with greater flower size and overall vigor. Morphological assessments, along with genetic analyses using molecular markers, confirmed the mutations associated with these treatments. The integration of chemical mutagenesis with tissue culture presents a promising approach for developing novel Chrysanthemum varieties with improved ornamental traits.

Read more
Unseen Zoo Exhibition Kiosk

คณะสถาปัตยกรรม ศิลปะและการออกแบบ

Unseen Zoo Exhibition Kiosk

-

Read more