KMITL Expo 2026 LogoKMITL 66th Anniversary Logo

Air Quality Index Prediction Using Ensemble Machine Learning Methods

Abstract

This special problem aims to study and compare the performance of predicting the air quality index (AQI) using five ensemble machine learning methods: random forest, XGBoost, CatBoost, stacking ensemble of random forest and XGBoost, and stacking ensemble of random forest, SVR, and MLP. The study uses a dataset from the Central Pollution Control Board of India (CPCB), which includes fifteen pollutants and nine meteorological variables collected between January, 2021 and December, 2023. In this study, there were 1,024,920 records. The performance is measured using three methods: root mean square error (RMSE), mean absolute error (MAE), and coefficient of determination. The study found that the random forest and XGBoost stacking ensemble had the best performance measures among the three methods, with the minimum RMSE of 0.1040, the minimum MAE of 0.0675, and the maximum of 0.8128. SHAP-based model interpretation method for five machine learning methods. All methods reached the same conclusion: the two variables that most significantly impacted the global prediction were PM2.5 and PM10, respectively.

Objective

ทั่วโลกกำลังเผชิญกับวิกฤตมลพิษทางอากาศที่รุนแรงที่สุดในประวัติศาสตร์ การเพิ่มขึ้นของสารมลพิษในอากาศ เช่น ฝุ่นละอองขนาดเล็ก PM2.5 PM10 ก๊าซโอโซน ก๊าซคาร์บอนมอนอกไซด์ ไนโตรเจนไดออกไซด์ และซัลเฟอร์ไดออกไซด์ ซึ่งส่งผลกระทบต่อระบบทางเดินหายใจและระบบไหลเวียนโลหิตของมนุษย์ นอกจากนี้ยังมีผลกระทบทางลบต่อพืชและสัตว์ในระบบนิเวศอีกด้วย หลายพื้นที่ทั่วโลกเผชิญกับค่า PM2.5 เกินมาตรฐานอย่างต่อเนื่อง องค์การอนามัยโลก (World Health Organization : WHO) ประกาศเตือนว่า PM2.5 เป็นสารก่อมะเร็ง ส่งผลให้เกิดโรคทางเดินหายใจ โรคหัวใจ และโรคหลอดเลือดสมอง PM2.5 เป็นมลพิษทางอากาศที่อันตรายที่สุด ส่งผลต่อระบบทางเดินหายใจและเพิ่มความเสี่ยงต่อมะเร็งปอด สถิติปี 2020 มีผู้เสียชีวิตจากมะเร็งปอด 1.79 ล้านคน และคาดว่าจำนวนผู้เสียชีวิตจะเพิ่มมากขึ้นทุกปีอย่างต่อเนื่อง ดัชนีคุณภาพอากาศ (Air Quality Index : AQI) เป็นตัวชี้วัดสำคัญในการประเมินคุณภาพอากาศและบ่งชี้ถึงระดับของมลพิษ โดยใช้ข้อมูลความเข้มข้นของมลพิษในอากาศคำนวณเป็นค่าดัชนีคุณภาพอากาศที่ช่วยให้ประชาชนทราบถึงระดับความปลอดภัยของอากาศ ดังนั้นหากในชีวิตประจำวันสามารถทำนายดัชนีคุณภาพอากาศได้ ประชาชนจะสามารถวางแผนการเดินทางหรือการทำกิจกรรมกลางแจ้ง โดยหลีกเลี่ยงบริเวณที่มีมลพิษสูงได้ โดยเฉพาะกลุ่มเสี่ยง เช่น ผู้สูงอายุ เด็กเล็ก และผู้ป่วยเรื้อรัง ในช่วงหลายปีที่ผ่านมา มีงานวิจัยที่ได้พัฒนาวิธีการทำนายดัชนีคุณภาพอากาศโดยนักวิจัยได้ประยุกต์ใช้วิธีการเรียนรู้ของเครื่อง (Machine Learning) เพื่อการทำนายคุณภาพอากาศให้ดียิ่งขึ้น ในงานวิจัยนี้ คณะผู้วิจัยจึงมีความสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มมาใช้ในการทำนายดัชนีคุณภาพอากาศ จากการทบทวนวรรณกรรมเกี่ยวกับงานวิจัยที่เกี่ยวข้อง คณะผู้วิจัยพบว่าในงานวิจัยของ Zhang et al. (2023) ที่ศึกษาในกลุ่มเมืองของจีน 6 แห่ง ด้วยข้อมูลมลพิษและสภาพอากาศ พบได้ว่าวิธีป่าสุ่มมีประสิทธิภาพดีที่สุดเมื่อวัดด้วย MAE ต่อมาในงานวิจัยของ Dao et al. (2022) ที่ได้ใช้ข้อมูลมลพิษในอินเดีย พบว่าวิธี XGBoost มีประสิทธิภาพดีที่สุด เช่นเดียวกับงานวิจัยของ Kumar and Pande (2023) ในขณะที่ Ravindiran et al. (2023) ได้ศึกษาด้วยข้อมูลมลพิษและสภาพอากาศในรัฐอานธรประเทศ พบว่าวิธี CatBoost มีประสิทธิภาพดีที่สุด และอีก 2 งานวิจัยที่ได้อาศัยแนวทางการรวมกลุ่มแบบ Stacking ได้แก่ งานวิจัยของ Sharma et al. (2024) ที่ศึกษาในหลายเมืองของอินเดียโดยได้ใช้วิธีการรวมกลุ่มของต้นไม้ตัดสินใจหลายวิธี หนึ่งในนั้นคือวิธีการรวมกลุ่มป่าสุ่มและ XGBoost ซึ่งก็พบว่าวิธีดังกล่าวมีประสิทธิภาพดีที่สุด และ Emeç and Yurtsever (2024) ได้ศึกษาการทำนายความเข้มข้นของ PM2.5 ซึ่งเป็นหนึ่งในมลพิษสำคัญที่ส่งผลต่อดัชนีคุณภาพอากาศของเมืองอิสตันบลูและปักกิ่งโดยใช้วิธีการเรียนรู้ของเครื่อง 3 วิธีมารวมกันเป็นวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP พบว่าวิธีนี้มีประสิทธิภาพดีกว่าการใช้ทั้ง 3 วิธีแยกกัน ดังนั้นคณะผู้วิจัยจึงสนใจนำวิธีการเรียนรู้ของเครื่องแบบรวมกลุ่มทั้ง 5 วิธี ได้แก่ วิธีป่าสุ่ม วิธี XGBoost วิธี CatBoost วิธีรวมกลุ่มป่าสุ่มและ XGBoost และวิธีรวมกลุ่มป่าสุ่ม, SVR และ MLP โดยใช้ข้อมูลเกี่ยวกับค่ามลพิษและสภาพอากาศจากสถานีตรวจวัดในรัฐเดลี ประเทศอินเดีย ซึ่งเป็นพื้นที่ที่มีปัญหาด้านคุณภาพอากาศเป็นอันดับต้น ๆ ของโลก โดยใช้ข้อมูลตั้งแต่วันที่ 1 มกราคม 2021 ถึง 31 ธันวาคม 2023 และวิธีการวัดประสิทธิภาพ 3 วิธี ได้แก่ รากของค่าคลาดเคลื่อนกำลังสองเฉลี่ย ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย และสัมประสิทธิ์การกำหนด (Coefficient of Determination) เปรียบเทียบประสิทธิภาพของวิธีการต่าง ๆ และระบุแนวทางที่เหมาะสมที่สุดในการทำนายดัชนีคุณภาพอากาศ

Other Innovations

HEALTHCARE SYSTEM FOR GERIATRIC SCREENING IN ELDERLY CANCER PATIENTS

คณะเทคโนโลยีสารสนเทศ

HEALTHCARE SYSTEM FOR GERIATRIC SCREENING IN ELDERLY CANCER PATIENTS

Cancer is one of the major health issues in Thailand, particularly as the country enters an aging society. The risk of chronic diseases among the elderly often results in limitations in treatment, making it difficult for most patients to achieve a complete recovery. This necessitates continuous care and the provision of accurate information and guidance about cancer. However, current health record systems for patients lack effective interconnectivity, which hinders data analysis and the development of patient care models. Additionally, incorrect information about cancer spread across social media can lead to misunderstandings among elderly patients. To address these issues, researchers have developed a chatbot system that utilizes Natural Language Processing (NLP) technology to understand human language and accurately respond to questions about elderly cancer patient care. The chatbot provides reliable and up-to-date information based on medical knowledge sourced from a database reviewed by healthcare professionals. Furthermore, a web application has been developed to record and analyze patient assessments according to medical standards, enabling healthcare providers to plan and develop appropriate treatment approaches in a better way. This system also facilitates data sharing and connectivity across hospital systems, allowing information to be used to enhance the precision and modernity of treatment approaches. In addition, the chatbot acts as an assistant, providing information and guidance to patients, reducing the workload of healthcare staff in answering questions and encouraging patients to take a more active role in managing their own health.

Read more
Medical Delivery Drone

คณะวิศวกรรมศาสตร์

Medical Delivery Drone

One of the most important aspects of responding to a medical case is the response time. In general, most fatalities are due to the patient not being able to reach the hands of the doctor in time. This also includes the arrival of medical equipment to the scene. The human brain will start to degrade in function after 3 minutes of oxygen starvation which conventional road transportation method first responders presently use is usually unable to reach the site in this golden 3 minutes, resulting in fatalities during transport or before the arrival of first responders at the scene. Therefore, medical equipment transport by fully autonomous aircraft is explored. This is done through drone deliveries which is much quicker than road methods as the equipment could be flown straight to the site as it is not affected by traffic, road conditions, and navigation. In this project, we will explore an aerial delivery system for medical equipment such as Automatic External Defibrillators (AEDs), First aid equipment, and other small requested medical devices. This will be done through a DJI drone platform and their SDK application. The main goal for this project is to decrease the response time by using an autonomous aerial drone to deliver medical equipment.

Read more
New chili varieties resistant to anthracnose and Pepper yellow leaf curl diseases  and high pungency

คณะเทคโนโลยีการเกษตร

New chili varieties resistant to anthracnose and Pepper yellow leaf curl diseases and high pungency

The research aims to develop chili Thai commercial varieties for resistance to anthracnose and Pepper yellow leaf curl virus disease. The varieties allowing farmer to reduce the use of chemical pesticides for disease and pest control, also increases productivity and lowers production costs for farmers. The development new varieties are under studied of undergraduate, master's, and doctoral students by using conventional and molecular plant breeding. The new chili varieties were released to farmer and commercial companies for development for Thai commercial seed industry.

Read more