KMITL Expo 2026 LogoKMITL 66th Anniversary Logo

VIDEO-BASED EMOTION DETECTION FROM FACIAL EXPRESSIONS WITH ROBUSTNESS TO PARTIAL OCCLUSION

Abstract

Facial Expression Recognition (FER) has attracted considerable attention in fields such as healthcare, customer service, and behavior analysis. However, challenges remain in developing a robust system capable of adapting to various environments and dynamic situations. In this study, the researchers introduced an Ensemble Learning approach to merge outputs from multiple models trained in specific conditions, allowing the system to retain old information while efficiently learning new data. This technique is advantageous in terms of training time and resource usage, as it reduces the need to retrain a new model entirely when faced with new conditions. Instead, new specialized models can be added to the Ensemble system with minimal resource requirements. The study explores two main approaches to Ensemble Learning: averaging outputs from dedicated models trained under specific scenarios and using Mixture of Experts (MoE), a technique that combines multiple models each specialized in different situations. Experimental results showed that Mixture of Experts (MoE) performs more effectively than the Averaging Ensemble method for emotion classification in all scenarios. The MoE system achieved an average accuracy of 84.41% on the CK+ dataset, 54.20% on Oulu-CASIA, and 61.66% on RAVDESS, surpassing the 71.64%, 44.99%, and 57.60% achieved by Averaging Ensemble in these datasets, respectively. These results demonstrate MoE’s ability to accurately select the model specialized for each specific scenario, enhancing the system’s capacity to handle more complex environments.

Objective

ปัจจุบันการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกทางใบหน้า (Emotion Detection Using Facial Expression) ได้รับความสนใจมากขึ้น เนื่องจากมีการประยุกต์ใช้อย่างแพร่หลายในหลายด้าน เช่น สุขภาพจิตการศึกษา และการบริการลูกค้า อย่างไรก็ตาม การพัฒนาระบบที่มีความแม่นยำและสามารถทนทานต่อการเปลี่ยนแปลงของสภาพแวดล้อม เช่น การบดบังบางส่วนของใบหน้า หรือสภาพแสงที่ไม่สม่ำเสมอ ยังคงเป็นความท้าทายหลัก โดยเฉพาะการพัฒนาโมเดลที่สามารถทำงานได้ในสภาพแวดล้อมที่หลากหลาย จากการศึกษางานวิจัยเกี่ยวกับ Facial Expression Recognition (FER) ผู้วิจัยพบว่าเทคนิค Frame Attention Network (FAN) ซึ่งเป็นการประยุกต์ใช้กลไก Attention จากงานด้านการประมวลผลภาษาสามารถนำมาใช้เพื่อให้ความสำคัญกับเฟรมที่มีความหมายในวิดีโอ ทำให้ระบบสามารถโฟกัสเฉพาะเฟรมที่แสดงอารมณ์ที่สำคัญได้ ซึ่งส่งผลต่อประสิทธิภาพของโมเดล ทีมวิจัยจึงนำเทคนิคนี้มาปรับปรุงเพื่อเพิ่มความทนทานของระบบในการจัดการสถานการณ์ดังกล่าว เพื่อพัฒนาประสิทธิภาพของระบบให้ดียิ่งขึ้น ทีมวิจัยได้ใช้แนวทาง Ensemble Learning ซึ่งเป็นการรวมผลลัพธ์จากหลายโมเดลที่ถูกฝึกในเงื่อนไขเฉพาะ การใช้ Ensemble ช่วยลดข้อผิดพลาดจากการใช้โมเดลเดียว และเพิ่มความแม่นยำและความน่าเชื่อถือของผลลัพธ์ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่หลากหลาย อย่างไรก็ตาม ทีมวิจัยยังได้ขยายการพัฒนาเพิ่มเติมโดยใช้เทคนิค Multi-Task Learning (MTL) เพื่อให้ระบบสามารถเรียนรู้จากหลายงานพร้อมกัน ซึ่งในงานวิจัยนี้ได้นำ MTL มาใช้ใน Mixture of Experts โดยให้ MTL ทำหน้าที่เป็นกลไก Gating ช่วยเลือกโมเดลที่เหมาะสมกับแต่ละสถานการณ์ เช่น การบดบังใบหน้า ทำให้ระบบสามารถตัดสินใจได้อย่างมีประสิทธิภาพว่าควรใช้โมเดลใดในสภาวะแวดล้อมที่ต่างไป สามารถรักษาความแม่นยำแม้ในสภาวะที่มีความหลากหลายและยังคงรักษาข้อดีในเรื่องของความสามารถในการขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ

Other Innovations

3D Soundscape Healing: The L-R Beat Exploration in Binaural Beats Therapy

วิทยาลัยวิศวกรรมสังคีต

3D Soundscape Healing: The L-R Beat Exploration in Binaural Beats Therapy

This project explores the therapeutic potential of binaural beats within a 3D soundscape environment, focusing on the effects of left-right (L-R) beating sound positioning. Using Dolby Atmos technology to create immersive auditory experiences, the research aims to investigate how varying spatial beating sound placements in binaural beat therapy influence mental and emotional healing. Binaural beats, a form of auditory brainwave entrainment, have been shown to promote relaxation, reduce anxiety, and enhance cognitive performance. However, there has been limited exploration of how spatial sound technologies, like Dolby Atmos, can enhance the efficacy of these therapies. This study examines how different beating L-R configurations in a 3D soundscape impact the listener’s perception and therapeutic outcomes. Participants will experience binaural beat sessions in various beating L-R orientations, and physiological and psychological measures, such as heart rate variability and self-reported relaxation levels, will be assessed. The results are expected to provide new insights into the interaction between spatial audio environments and sound-based therapies, potentially improving sound therapy practices by leveraging advanced audio technologies.

Read more
Nutrient supplement in cracker by spent coffee grounds

คณะอุตสาหกรรมอาหาร

Nutrient supplement in cracker by spent coffee grounds

Spent coffee grounds (SCGs) are waste from coffee drink process, which are rich of a varieties of nutrients. This research applied SCGs as ingredient in cracker. The optimized formula and process are studied as well as addition of different levels of SCGs were studied. It was found that addition of SCGs in cracker had hedonic score in high level from panels, especially panels who drink coffee. Moreover, it was observed that SCGs could increase nutrients especially carbohydrate and fiber to the product.

Read more
Design Public Park Project : Ancient Sea Park

คณะเทคโนโลยีการเกษตร

Design Public Park Project : Ancient Sea Park

The Public park project : Ancient Sea Park. This's a new park in Aangsila Chonburi make for learn and travel in concept The sea in 65 million years ago.

Read more