KMITL Expo 2026 Logo
Half Circle
All Innovation
ชิ้นงานKMITL Expo 2025Cluster 2025ป. ตรี โครงงานพิเศษ
VIDEO-
BASED
EMOTION
DETECTION
FROM
FACIAL
EXPRESSIONS
WITH
ROBUSTNESS
TO
PARTIAL
OCCLUSION
คณะเทคโนโลยีสารสนเทศ, เทคโนโลยีสารสนเทศ, วิทยาศาสตรบัณฑิต สาขาวิชาวิทยาการข้อมูลและการวิเคราะห์เชิงธุรกิจ
VIDEO-BASED EMOTION DETECTION FROM FACIAL EXPRESSIONS  WITH ROBUSTNESS TO PARTIAL OCCLUSION

Innovation Owner

CS

Mr. CHANNARONG SUWANNARAT

Student

Details

Facial Expression Recognition (FER) has attracted considerable attention in fields such as healthcare, customer service, and behavior analysis. However, challenges remain in developing a robust system capable of adapting to various environments and dynamic situations. In this study, the researchers introduced an Ensemble Learning approach to merge outputs from multiple models trained in specific conditions, allowing the system to retain old information while efficiently learning new data. This technique is advantageous in terms of training time and resource usage, as it reduces the need to retrain a new model entirely when faced with new conditions. Instead, new specialized models can be added to the Ensemble system with minimal resource requirements. The study explores two main approaches to Ensemble Learning: averaging outputs from dedicated models trained under specific scenarios and using Mixture of Experts (MoE), a technique that combines multiple models each specialized in different situations. Experimental results showed that Mixture of Experts (MoE) performs more effectively than the Averaging Ensemble method for emotion classification in all scenarios. The MoE system achieved an average accuracy of 84.41% on the CK+ dataset, 54.20% on Oulu-CASIA, and 61.66% on RAVDESS, surpassing the 71.64%, 44.99%, and 57.60% achieved by Averaging Ensemble in these datasets, respectively. These results demonstrate MoE’s ability to accurately select the model specialized for each specific scenario, enhancing the system’s capacity to handle more complex environments.

Objective

เพื่อพัฒนาแบบจำลองการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกของใบหน้า พัฒนาระบบที่สามารถขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ เมื่อมีการเพิ่มข้อมูลจากหลายสถานการณ์ที่แตกต่างกัน พัฒนาระบบที่สามารถเลือกแบบจำลองที่เหมาะกับการปิดบังบางส่วนของใบหน้าประเภทต่างๆ ไม่ว่าจะเป็น การปิดบังตาโดยใช้แว่น หรือการปิดบังปาก

ปัจจุบันการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกทางใบหน้า (Emotion Detection Using Facial Expression) ได้รับความสนใจมากขึ้น เนื่องจากมีการประยุกต์ใช้อย่างแพร่หลายในหลายด้าน เช่น สุขภาพจิตการศึกษา และการบริการลูกค้า อย่างไรก็ตาม การพัฒนาระบบที่มีความแม่นยำและสามารถทนทานต่อการเปลี่ยนแปลงของสภาพแวดล้อม เช่น การบดบังบางส่วนของใบหน้า หรือสภาพแสงที่ไม่สม่ำเสมอ ยังคงเป็นความท้าทายหลัก โดยเฉพาะการพัฒนาโมเดลที่สามารถทำงานได้ในสภาพแวดล้อมที่หลากหลาย จากการศึกษางานวิจัยเกี่ยวกับ Facial Expression Recognition (FER) ผู้วิจัยพบว่าเทคนิค Frame Attention Network (FAN) ซึ่งเป็นการประยุกต์ใช้กลไก Attention จากงานด้านการประมวลผลภาษาสามารถนำมาใช้เพื่อให้ความสำคัญกับเฟรมที่มีความหมายในวิดีโอ ทำให้ระบบสามารถโฟกัสเฉพาะเฟรมที่แสดงอารมณ์ที่สำคัญได้ ซึ่งส่งผลต่อประสิทธิภาพของโมเดล ทีมวิจัยจึงนำเทคนิคนี้มาปรับปรุงเพื่อเพิ่มความทนทานของระบบในการจัดการสถานการณ์ดังกล่าว เพื่อพัฒนาประสิทธิภาพของระบบให้ดียิ่งขึ้น ทีมวิจัยได้ใช้แนวทาง Ensemble Learning ซึ่งเป็นการรวมผลลัพธ์จากหลายโมเดลที่ถูกฝึกในเงื่อนไขเฉพาะ การใช้ Ensemble ช่วยลดข้อผิดพลาดจากการใช้โมเดลเดียว และเพิ่มความแม่นยำและความน่าเชื่อถือของผลลัพธ์ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่หลากหลาย อย่างไรก็ตาม ทีมวิจัยยังได้ขยายการพัฒนาเพิ่มเติมโดยใช้เทคนิค Multi-Task Learning (MTL) เพื่อให้ระบบสามารถเรียนรู้จากหลายงานพร้อมกัน ซึ่งในงานวิจัยนี้ได้นำ MTL มาใช้ใน Mixture of Experts โดยให้ MTL ทำหน้าที่เป็นกลไก Gating ช่วยเลือกโมเดลที่เหมาะสมกับแต่ละสถานการณ์ เช่น การบดบังใบหน้า ทำให้ระบบสามารถตัดสินใจได้อย่างมีประสิทธิภาพว่าควรใช้โมเดลใดในสภาวะแวดล้อมที่ต่างไป สามารถรักษาความแม่นยำแม้ในสภาวะที่มีความหลากหลายและยังคงรักษาข้อดีในเรื่องของความสามารถในการขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ

สามารถพัฒนาแบบจำลองตรวจจับอารมณ์และการแสดงออกทางสีหน้าที่มีประสิทธิภาพ สามารถแบ่งอารมณ์พื้นฐานซึ่งแบ่งออกเป็น 6 อารมณ์ได้แก่ โกรธ (Anger), ขยะแขยง (Disgust), ประหลาดใจ (Surprise), กลัว (Fear), มีความสุข (Happiness) และเศร้า (Sadness) แบบจำลองที่พัฒนาสามารถทนต่อการบดบังบางส่วน (Partial Occlusion) โดยการสามารถทนต่อการบดบังบางส่วนของใบหน้า เช่น การสวมแว่น และ การบดบังของปากในชุดข้อมูลเพื่อการทดสอบซึ่งเป็นการทดสอบความสามารถในสถานการณ์จริง เข้าใจกระบวนการทำงานของแบบจำลองรวมถึงเทคนิค Frame Attention Network โดยการเข้าใจและนำเทคนิคดังกล่าวมาใช้ในการพัฒนาแบบจำลองเพื่อเพิ่มเทคนิคและประสิทธิภาพระบบการตรวจจับอารมณ์ผ่านการแสดงออกทางสีหน้า สร้างชุดข้อมูลจากสถานการณ์ต่างๆเพื่อใช้ทดสอบและปรับปรุงประสิทธิภาพของแบบจำลอง