

เจ้าของนวัตกรรม
นาย ชาญณรงค์ สุวรรณรัตน์
นักศึกษา
Details
การตรวจจับอารมณ์ผ่านการแสดงออกทางใบหน้า (Facial Expression Recognition, FER) ได้รับความสนใจอย่างมากในหลายสาขา เช่น การดูแลสุขภาพ การให้บริการลูกค้า และการวิเคราะห์พฤติกรรม อย่างไรก็ตาม ความท้าทายยังคงอยู่ที่การพัฒนาระบบที่มีความทนทานและสามารถรับมือกับการเปลี่ยนแปลงของสภาพแวดล้อมรวมถึงสถานการณ์ที่หลากหลายได้ ผู้วิจัยได้นำเสนอการใช้เทคนิค Ensemble Learning เพื่อรวมผลลัพธ์จากโมเดลหลายตัวที่ถูกฝึกในเงื่อนไขเฉพาะ ทำให้ระบบไม่ลืมข้อมูลเก่า และยังสามารถเรียนรู้ข้อมูลใหม่ได้อย่างมีประสิทธิภาพ โดยเทคนิคนี้มีข้อได้เปรียบในด้านเวลาและทรัพยากรที่ใช้ในการเทรน เนื่องจากช่วยลดความจำเป็นในการสร้างโมเดลใหม่ทั้งหมดเมื่อมีสภาพแวดล้อมใหม่ เพียงเพิ่มโมเดลเฉพาะทางใหม่ในระบบ Ensemble ซึ่งใช้ทรัพยากรน้อยกว่าแทน ในงานวิจัยนี้ Ensemble Learning ถูกแบ่งออกเป็นสองแนวทางหลัก คือ การเฉลี่ยผลลัพธ์จากโมเดลเฉพาะทางที่ถูกฝึกภายใต้สถานการณ์เฉพาะ (Averaging Ensemble) และการใช้เทคนิค Mixture of Experts (MoE) ซึ่งเป็นการผสมผสานโมเดลหลายตัวที่เชี่ยวชาญในสถานการณ์ต่าง ๆ ไว้ด้วยกัน ผลการทดลองแสดงให้เห็นว่า การใช้ Mixture of Experts (MoE) มีประสิทธิภาพสูงกว่าวิธี Averaging Ensemble ในการจำแนกอารมณ์ในทุกสถานการณ์ โดยระบบ MoE สามารถเพิ่มความแม่นยำเฉลี่ยได้ถึง 84.41% บนชุดข้อมูล CK+, 54.20% บน Oulu-CASIA และ 61.66% บน RAVDESS ซึ่งสูงกว่าวิธี Averaging Ensemble ที่มีความแม่นยำเฉลี่ยที่ 71.64%, 44.99% และ 57.60% ตามลำดับ ผลลัพธ์เหล่านี้แสดงให้เห็นว่า MoE สามารถเลือกโมเดลที่เชี่ยวชาญในสถานการณ์เฉพาะได้อย่างแม่นยำ และยังช่วยเพิ่มความสามารถในการรับมือกับสภาพแวดล้อมที่ซับซ้อนกว่า
บนชุดข้อมูล CK+, 54.20% บน Oulu-CASIA และ 61.66% บน RAVDESS ซึ่งสูงกว่าวิธี Averaging Ensemble ที่มีความแม่นยำเฉลี่ยที่ 71.64%, 44.99% และ 57.60% ตามลำดับ ผลลัพธ์เหล่านี้แสดงให้เห็นว่า MoE สามารถเลือกโมเดลที่เชี่ยวชาญในสถานการณ์เฉพาะได้อย่างแม่นยำ และยังช่วยเพิ่มความสามารถในการรับมือกับสภาพแวดล้อมที่ซับซ้อนกว่า
Objective
เพื่อพัฒนาแบบจำลองการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกของใบหน้า พัฒนาระบบที่สามารถขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ เมื่อมีการเพิ่มข้อมูลจากหลายสถานการณ์ที่แตกต่างกัน พัฒนาระบบที่สามารถเลือกแบบจำลองที่เหมาะกับการปิดบังบางส่วนของใบหน้าประเภทต่างๆ ไม่ว่าจะเป็น การปิดบังตาโดยใช้แว่น หรือการปิดบังปาก
ปัจจุบันการตรวจจับอารมณ์ของมนุษย์ผ่านการแสดงออกทางใบหน้า (Emotion Detection Using Facial Expression) ได้รับความสนใจมากขึ้น เนื่องจากมีการประยุกต์ใช้อย่างแพร่หลายในหลายด้าน เช่น สุขภาพจิตการศึกษา และการบริการลูกค้า อย่างไรก็ตาม การพัฒนาระบบที่มีความแม่นยำและสามารถทนทานต่อการเปลี่ยนแปลงของสภาพแวดล้อม เช่น การบดบังบางส่วนของใบหน้า หรือสภาพแสงที่ไม่สม่ำเสมอ ยังคงเป็นความท้าทายหลัก โดยเฉพาะการพัฒนาโมเดลที่สามารถทำงานได้ในสภาพแวดล้อมที่หลากหลาย จากการศึกษางานวิจัยเกี่ยวกับ Facial Expression Recognition (FER) ผู้วิจัยพบว่าเทคนิค Frame Attention Network (FAN) ซึ่งเป็นการประยุกต์ใช้กลไก Attention จากงานด้านการประมวลผลภาษาสามารถนำมาใช้เพื่อให้ความสำคัญกับเฟรมที่มีความหมายในวิดีโอ ทำให้ระบบสามารถโฟกัสเฉพาะเฟรมที่แสดงอารมณ์ที่สำคัญได้ ซึ่งส่งผลต่อประสิทธิภาพของโมเดล ทีมวิจัยจึงนำเทคนิคนี้มาปรับปรุงเพื่อเพิ่มความทนทานของระบบในการจัดการสถานการณ์ดังกล่าว เพื่อพัฒนาประสิทธิภาพของระบบให้ดียิ่งขึ้น ทีมวิจัยได้ใช้แนวทาง Ensemble Learning ซึ่งเป็นการรวมผลลัพธ์จากหลายโมเดลที่ถูกฝึกในเงื่อนไขเฉพาะ การใช้ Ensemble ช่วยลดข้อผิดพลาดจากการใช้โมเดลเดียว และเพิ่มความแม่นยำและความน่าเชื่อถือของผลลัพธ์ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่หลากหลาย อย่างไรก็ตาม ทีมวิจัยยังได้ขยายการพัฒนาเพิ่มเติมโดยใช้เทคนิค Multi-Task Learning (MTL) เพื่อให้ระบบสามารถเรียนรู้จากหลายงานพร้อมกัน ซึ่งในงานวิจัยนี้ได้นำ MTL มาใช้ใน Mixture of Experts โดยให้ MTL ทำหน้าที่เป็นกลไก Gating ช่วยเลือกโมเดลที่เหมาะสมกับแต่ละสถานการณ์ เช่น การบดบังใบหน้า ทำให้ระบบสามารถตัดสินใจได้อย่างมีประสิทธิภาพว่าควรใช้โมเดลใดในสภาวะแวดล้อมที่ต่างไป สามารถรักษาความแม่นยำแม้ในสภาวะที่มีความหลากหลายและยังคงรักษาข้อดีในเรื่องของความสามารถในการขยายขนาด (Scaling Up) ได้อย่างมีประสิทธิภาพ
สามารถพัฒนาแบบจำลองตรวจจับอารมณ์และการแสดงออกทางสีหน้าที่มีประสิทธิภาพ สามารถแบ่งอารมณ์พื้นฐานซึ่งแบ่งออกเป็น 6 อารมณ์ได้แก่ โกรธ (Anger), ขยะแขยง (Disgust), ประหลาดใจ (Surprise), กลัว (Fear), มีความสุข (Happiness) และเศร้า (Sadness) แบบจำลองที่พัฒนาสามารถทนต่อการบดบังบางส่วน (Partial Occlusion) โดยการสามารถทนต่อการบดบังบางส่วนของใบหน้า เช่น การสวมแว่น และ การบดบังของปากในชุดข้อมูลเพื่อการทดสอบซึ่งเป็นการทดสอบความสามารถในสถานการณ์จริง เข้าใจกระบวนการทำงานของแบบจำลองรวมถึงเทคนิค Frame Attention Network โดยการเข้าใจและนำเทคนิคดังกล่าวมาใช้ในการพัฒนาแบบจำลองเพื่อเพิ่มเทคนิคและประสิทธิภาพระบบการตรวจจับอารมณ์ผ่านการแสดงออกทางสีหน้า สร้างชุดข้อมูลจากสถานการณ์ต่างๆเพื่อใช้ทดสอบและปรับปรุงประสิทธิภาพของแบบจำลอง


