KMITL Expo 2026 Logo
Half Circle
นวัตกรรมทั้งหมด
ชิ้นงานKMITL Expo 2025Cluster 2025ป. ตรี โครงงานพิเศษ
การ
ตรวจ
จับ
อารมณ์
ผ่าน
วิดีโอ
จาก
การ
แสดงออก
ทาง
สีหน้า
ที่
มี
ความ
ทนทาน
ต่อ
การ
บดบัง
บาง
ส่วน
คณะเทคโนโลยีสารสนเทศ, เทคโนโลยีสารสนเทศ, วิทยาศาสตรบัณฑิต สาขาวิชาวิทยาการข้อมูลและการวิเคราะห์เชิงธุรกิจ
การตรวจจับอารมณ์ผ่านวิดีโอจากการแสดงออกทางสีหน้าที่มีความทนทาน  ต่อการบดบังบางส่วน

เจ้าของนวัตกรรม

ชส

นาย ชาญณรงค์ สุวรรณรัตน์

นักศึกษา

Details

การตรวจจับอารมณ์ผ่านการแสดงออกทางใบหน้า (Facial Expression Recognition, FER) ได้รับความสนใจอย่างมากในหลายสาขา เช่น การดูแลสุขภาพ การให้บริการลูกค้า และการวิเคราะห์พฤติกรรม อย่างไรก็ตาม ความท้าทายยังคงอยู่ที่การพัฒนาระบบที่มีความทนทานและสามารถรับมือกับการเปลี่ยนแปลงของสภาพแวดล้อมรวมถึงสถานการณ์ที่หลากหลายได้ ผู้วิจัยได้นำเสนอการใช้เทคนิค Ensemble Learning เพื่อรวมผลลัพธ์จากโมเดลหลายตัวที่ถูกฝึกในเงื่อนไขเฉพาะ ทำให้ระบบไม่ลืมข้อมูลเก่า และยังสามารถเรียนรู้ข้อมูลใหม่ได้อย่างมีประสิทธิภาพ โดยเทคนิคนี้มีข้อได้เปรียบในด้านเวลาและทรัพยากรที่ใช้ในการเทรน เนื่องจากช่วยลดความจำเป็นในการสร้างโมเดลใหม่ทั้งหมดเมื่อมีสภาพแวดล้อมใหม่ เพียงเพิ่มโมเดลเฉพาะทางใหม่ในระบบ Ensemble ซึ่งใช้ทรัพยากรน้อยกว่าแทน ในงานวิจัยนี้ Ensemble Learning ถูกแบ่งออกเป็นสองแนวทางหลัก คือ การเฉลี่ยผลลัพธ์จากโมเดลเฉพาะทางที่ถูกฝึกภายใต้สถานการณ์เฉพาะ (Averaging Ensemble) และการใช้เทคนิค Mixture of Experts (MoE) ซึ่งเป็นการผสมผสานโมเดลหลายตัวที่เชี่ยวชาญในสถานการณ์ต่าง ๆ ไว้ด้วยกัน ผลการทดลองแสดงให้เห็นว่า การใช้ Mixture of Experts (MoE) มีประสิทธิภาพสูงกว่าวิธี Averaging Ensemble ในการจำแนกอารมณ์ในทุกสถานการณ์ โดยระบบ MoE สามารถเพิ่มความแม่นยำเฉลี่ยได้ถึง 84.41% บนชุดข้อมูล CK+, 54.20% บน Oulu-CASIA และ 61.66% บน RAVDESS ซึ่งสูงกว่าวิธี Averaging Ensemble ที่มีความแม่นยำเฉลี่ยที่ 71.64%, 44.99% และ 57.60% ตามลำดับ ผลลัพธ์เหล่านี้แสดงให้เห็นว่า MoE สามารถเลือกโมเดลที่เชี่ยวชาญในสถานการณ์เฉพาะได้อย่างแม่นยำ และยังช่วยเพิ่มความสามารถในการรับมือกับสภาพแวดล้อมที่ซับซ้อนกว่า

บนชุดข้อมูล CK+, 54.20% บน Oulu-CASIA และ 61.66% บน RAVDESS ซึ่งสูงกว่าวิธี Averaging Ensemble ที่มีความแม่นยำเฉลี่ยที่ 71.64%, 44.99% และ 57.60% ตามลำดับ ผลลัพธ์เหล่านี้แสดงให้เห็นว่า MoE สามารถเลือกโมเดลที่เชี่ยวชาญในสถานการณ์เฉพาะได้อย่างแม่นยำ และยังช่วยเพิ่มความสามารถในการรับมือกับสภาพแวดล้อมที่ซับซ้อนกว่า

Objective

เพื่อพัฒนาแบบจำลองการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกของใบหน้า พัฒนาระบบที่สามารถขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ เมื่อมีการเพิ่มข้อมูลจากหลายสถานการณ์ที่แตกต่างกัน พัฒนาระบบที่สามารถเลือกแบบจำลองที่เหมาะกับการปิดบังบางส่วนของใบหน้าประเภทต่างๆ ไม่ว่าจะเป็น การปิดบังตาโดยใช้แว่น หรือการปิดบังปาก

ปัจจุบันการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกทางใบหน้า (Emotion Detection Using Facial Expression) ได้รับความสนใจมากขึ้น เนื่องจากมีการประยุกต์ใช้อย่างแพร่หลายในหลายด้าน เช่น สุขภาพจิตการศึกษา และการบริการลูกค้า อย่างไรก็ตาม การพัฒนาระบบที่มีความแม่นยำและสามารถทนทานต่อการเปลี่ยนแปลงของสภาพแวดล้อม เช่น การบดบังบางส่วนของใบหน้า หรือสภาพแสงที่ไม่สม่ำเสมอ ยังคงเป็นความท้าทายหลัก โดยเฉพาะการพัฒนาโมเดลที่สามารถทำงานได้ในสภาพแวดล้อมที่หลากหลาย จากการศึกษางานวิจัยเกี่ยวกับ Facial Expression Recognition (FER) ผู้วิจัยพบว่าเทคนิค Frame Attention Network (FAN) ซึ่งเป็นการประยุกต์ใช้กลไก Attention จากงานด้านการประมวลผลภาษาสามารถนำมาใช้เพื่อให้ความสำคัญกับเฟรมที่มีความหมายในวิดีโอ ทำให้ระบบสามารถโฟกัสเฉพาะเฟรมที่แสดงอารมณ์ที่สำคัญได้ ซึ่งส่งผลต่อประสิทธิภาพของโมเดล ทีมวิจัยจึงนำเทคนิคนี้มาปรับปรุงเพื่อเพิ่มความทนทานของระบบในการจัดการสถานการณ์ดังกล่าว เพื่อพัฒนาประสิทธิภาพของระบบให้ดียิ่งขึ้น ทีมวิจัยได้ใช้แนวทาง Ensemble Learning ซึ่งเป็นการรวมผลลัพธ์จากหลายโมเดลที่ถูกฝึกในเงื่อนไขเฉพาะ การใช้ Ensemble ช่วยลดข้อผิดพลาดจากการใช้โมเดลเดียว และเพิ่มความแม่นยำและความน่าเชื่อถือของผลลัพธ์ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่หลากหลาย อย่างไรก็ตาม ทีมวิจัยยังได้ขยายการพัฒนาเพิ่มเติมโดยใช้เทคนิค Multi-Task Learning (MTL) เพื่อให้ระบบสามารถเรียนรู้จากหลายงานพร้อมกัน ซึ่งในงานวิจัยนี้ได้นำ MTL มาใช้ใน Mixture of Experts โดยให้ MTL ทำหน้าที่เป็นกลไก Gating ช่วยเลือกโมเดลที่เหมาะสมกับแต่ละสถานการณ์ เช่น การบดบังใบหน้า ทำให้ระบบสามารถตัดสินใจได้อย่างมีประสิทธิภาพว่าควรใช้โมเดลใดในสภาวะแวดล้อมที่ต่างไป สามารถรักษาความแม่นยำแม้ในสภาวะที่มีความหลากหลายและยังคงรักษาข้อดีในเรื่องของความสามารถในการขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ

สามารถพัฒนาแบบจำลองตรวจจับอารมณ์และการแสดงออกทางสีหน้าที่มีประสิทธิภาพ สามารถแบ่งอารมณ์พื้นฐานซึ่งแบ่งออกเป็น 6 อารมณ์ได้แก่ โกรธ (Anger), ขยะแขยง (Disgust), ประหลาดใจ (Surprise), กลัว (Fear), มีความสุข (Happiness) และเศร้า (Sadness) แบบจำลองที่พัฒนาสามารถทนต่อการบดบังบางส่วน (Partial Occlusion) โดยการสามารถทนต่อการบดบังบางส่วนของใบหน้า เช่น การสวมแว่น และ การบดบังของปากในชุดข้อมูลเพื่อการทดสอบซึ่งเป็นการทดสอบความสามารถในสถานการณ์จริง เข้าใจกระบวนการทำงานของแบบจำลองรวมถึงเทคนิค Frame Attention Network โดยการเข้าใจและนำเทคนิคดังกล่าวมาใช้ในการพัฒนาแบบจำลองเพื่อเพิ่มเทคนิคและประสิทธิภาพระบบการตรวจจับอารมณ์ผ่านการแสดงออกทางสีหน้า สร้างชุดข้อมูลจากสถานการณ์ต่างๆเพื่อใช้ทดสอบและปรับปรุงประสิทธิภาพของแบบจำลอง