

Innovation Owner
Mr. CHANNARONG SUWANNARAT
Student
Details
Facial Expression Recognition (FER) has attracted considerable attention in fields such as healthcare, customer service, and behavior analysis. However, challenges remain in developing a robust system capable of adapting to various environments and dynamic situations. In this study, the researchers introduced an Ensemble Learning approach to merge outputs from multiple models trained in specific conditions, allowing the system to retain old information while efficiently learning new data. This technique is advantageous in terms of training time and resource usage, as it reduces the need to retrain a new model entirely when faced with new conditions. Instead, new specialized models can be added to the Ensemble system with minimal resource requirements. The study explores two main approaches to Ensemble Learning: averaging outputs from dedicated models trained under specific scenarios and using Mixture of Experts (MoE), a technique that combines multiple models each specialized in different situations. Experimental results showed that Mixture of Experts (MoE) performs more effectively than the Averaging Ensemble method for emotion classification in all scenarios. The MoE system achieved an average accuracy of 84.41% on the CK+ dataset, 54.20% on Oulu-CASIA, and 61.66% on RAVDESS, surpassing the 71.64%, 44.99%, and 57.60% achieved by Averaging Ensemble in these datasets, respectively. These results demonstrate MoE’s ability to accurately select the model specialized for each specific scenario, enhancing the system’s capacity to handle more complex environments.
Objective
เพื่อพัฒนาแบบจำลองการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกของใบหน้า พัฒนาระบบที่สามารถขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ เมื่อมีการเพิ่มข้อมูลจากหลายสถานการณ์ที่แตกต่างกัน พัฒนาระบบที่สามารถเลือกแบบจำลองที่เหมาะกับการปิดบังบางส่วนของใบหน้าประเภทต่างๆ ไม่ว่าจะเป็น การปิดบังตาโดยใช้แว่น หรือการปิดบังปาก
ปัจจุบันการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกทางใบหน้า (Emotion Detection Using Facial Expression) ได้รับความสนใจมากขึ้น เนื่องจากมีการประยุกต์ใช้อย่างแพร่หลายในหลายด้าน เช่น สุขภาพจิตการศึกษา และการบริการลูกค้า อย่างไรก็ตาม การพัฒนาระบบที่มีความแม่นยำและสามารถทนทานต่อการเปลี่ยนแปลงของสภาพแวดล้อม เช่น การบดบังบางส่วนของใบหน้า หรือสภาพแสงที่ไม่สม่ำเสมอ ยังคงเป็นความท้าทายหลัก โดยเฉพาะการพัฒนาโมเดลที่สามารถทำงานได้ในสภาพแวดล้อมที่หลากหลาย จากการศึกษางานวิจัยเกี่ยวกับ Facial Expression Recognition (FER) ผู้วิจัยพบว่าเทคนิค Frame Attention Network (FAN) ซึ่งเป็นการประยุกต์ใช้กลไก Attention จากงานด้านการประมวลผลภาษาสามารถนำมาใช้เพื่อให้ความสำคัญกับเฟรมที่มีความหมายในวิดีโอ ทำให้ระบบสามารถโฟกัสเฉพาะเฟรมที่แสดงอารมณ์ที่สำคัญได้ ซึ่งส่งผลต่อประสิทธิภาพของโมเดล ทีมวิจัยจึงนำเทคนิคนี้มาปรับปรุงเพื่อเพิ่มความทนทานของระบบในการจัดการสถานการณ์ดังกล่าว เพื่อพัฒนาประสิทธิภาพของระบบให้ดียิ่งขึ้น ทีมวิจัยได้ใช้แนวทาง Ensemble Learning ซึ่งเป็นการรวมผลลัพธ์จากหลายโมเดลที่ถูกฝึกในเงื่อนไขเฉพาะ การใช้ Ensemble ช่วยลดข้อผิดพลาดจากการใช้โมเดลเดียว และเพิ่มความแม่นยำและความน่าเชื่อถือของผลลัพธ์ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่หลากหลาย อย่างไรก็ตาม ทีมวิจัยยังได้ขยายการพัฒนาเพิ่มเติมโดยใช้เทคนิค Multi-Task Learning (MTL) เพื่อให้ระบบสามารถเรียนรู้จากหลายงานพร้อมกัน ซึ่งในงานวิจัยนี้ได้นำ MTL มาใช้ใน Mixture of Experts โดยให้ MTL ทำหน้าที่เป็นกลไก Gating ช่วยเลือกโมเดลที่เหมาะสมกับแต่ละสถานการณ์ เช่น การบดบังใบหน้า ทำให้ระบบสามารถตัดสินใจได้อย่างมีประสิทธิภาพว่าควรใช้โมเดลใดในสภาวะแวดล้อมที่ต่างไป สามารถรักษาความแม่นยำแม้ในสภาวะที่มีความหลากหลายและยังคงรักษาข้อดีในเรื่องของความสามารถในการขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ
สามารถพัฒนาแบบจำลองตรวจจับอารมณ์และการแสดงออกทางสีหน้าที่มีประสิทธิภาพ สามารถแบ่งอารมณ์พื้นฐานซึ่งแบ่งออกเป็น 6 อารมณ์ได้แก่ โกรธ (Anger), ขยะแขยง (Disgust), ประหลาดใจ (Surprise), กลัว (Fear), มีความสุข (Happiness) และเศร้า (Sadness) แบบจำลองที่พัฒนาสามารถทนต่อการบดบังบางส่วน (Partial Occlusion) โดยการสามารถทนต่อการบดบังบางส่วนของใบหน้า เช่น การสวมแว่น และ การบดบังของปากในชุดข้อมูลเพื่อการทดสอบซึ่งเป็นการทดสอบความสามารถในสถานการณ์จริง เข้าใจกระบวนการทำงานของแบบจำลองรวมถึงเทคนิค Frame Attention Network โดยการเข้าใจและนำเทคนิคดังกล่าวมาใช้ในการพัฒนาแบบจำลองเพื่อเพิ่มเทคนิคและประสิทธิภาพระบบการตรวจจับอารมณ์ผ่านการแสดงออกทางสีหน้า สร้างชุดข้อมูลจากสถานการณ์ต่างๆเพื่อใช้ทดสอบและปรับปรุงประสิทธิภาพของแบบจำลอง


