SignGen: โปรแกรมสร้างวิดีโอภาษามือไทยโดยใช้โมเดลภาษาขนาดใหญ่

รายละเอียด

ระบบสร้างภาษามือไทยเชิงกำเนิดมีเป้าหมายในการพัฒนาแพลตฟอร์ม การสร้างแบบจำลอง 3 มิติและแอนิเมชัน ที่สามารถแปลง ประโยคภาษาไทยเป็นท่าทางภาษามือไทย (TSL) ที่ถูกต้องและเป็นธรรมชาติ โครงการนี้ช่วยเสริมสร้างการสื่อสารสำหรับ ชุมชนผู้บกพร่องทางการได้ยินในประเทศไทย โดยใช้แนวทางที่อิงกับ แลนมาร์ก (Landmark-Based Approach) ผ่านการใช้ Vector Quantized Variational Autoencoder (VQVAE) และ Large Language Model (LLM) ในการสร้างภาษามือ ระบบเริ่มต้นด้วยการ ฝึกโมเดล VQVAE โดยใช้ข้อมูลแลนมาร์กที่สกัดจากวิดีโอภาษามือ เพื่อให้โมเดลเรียนรู้ การแทนค่าแบบแฝง (Latent Representations) ของท่าทางภาษามือไทย หลังจากนั้น โมเดลที่ฝึกแล้วจะถูกใช้เพื่อ สร้างลำดับแลนมาร์กของท่าทางเพิ่มเติม ซึ่งช่วยขยายชุดข้อมูลฝึกโดยอ้างอิงจาก BigSign ThaiPBS Dataset เมื่อชุดข้อมูลได้รับการขยายแล้ว ระบบจะทำการ ฝึก LLM เพื่อสร้างลำดับแลนมาร์กที่ถูกต้องจากข้อความภาษาไทย โดยลำดับแลนมาร์กที่ได้จะถูกนำไปใช้ สร้างแอนิเมชันของโมเดล 3 มิติใน Blender เพื่อให้ได้ท่าทางภาษามือที่ลื่นไหลและเป็นธรรมชาติ โครงการนี้ถูกพัฒนาด้วย Python โดยใช้ MediaPipe สำหรับการสกัดแลนมาร์ก OpenCV สำหรับการประมวลผลภาพแบบเรียลไทม์ และ Blender’s Python API สำหรับสร้างแอนิเมชัน 3 มิติ ด้วยการผสานเทคโนโลยี AI, การเข้ารหัสผ่าน VQVAE และการสร้างแลนมาร์กด้วย LLM ระบบนี้มุ่งหวังที่จะ เชื่อมช่องว่างระหว่างข้อความภาษาไทยและภาษามือไทย เพื่อมอบแพลตฟอร์มการแปลภาษามือแบบโต้ตอบ ในเวลาจริง ให้กับชุมชนผู้บกพร่องทางการได้ยินในประเทศไทย

วัตถุประสงค์

การสื่อสารระหว่างบุคคลที่ได้ยินกับผู้พิการทางการได้ยินหรือบุคคลที่ไม่สามารถใช้คำพูดเป็นอุปสรรคสำคัญ โดยเฉพาะเมื่อบุคคลที่ได้ยินไม่มีความคุ้นเคยกับภาษามือไทย (TSL) ภาษามือไทยมีความซับซ้อนและต้องใช้การฝึกฝน ความตั้งใจ และประสบการณ์อย่างมากจึงจะเชี่ยวชาญได้ ซึ่งมักต้องใช้เวลาหลายเดือนของการศึกษาอย่างต่อเนื่อง แม้แต่เพื่อให้ได้ระดับความคล่องแคล่วขั้นพื้นฐาน สิ่งนี้ก่อให้เกิดช่องว่างด้านการเข้าถึง โดยเฉพาะกับผู้พิการทางการได้ยินที่อาจไม่เคยเรียนรู้ไวยากรณ์หรือภาษาไทยมาตรฐาน อาจพบความยากลำบากในการทำความเข้าใจข้อความภาษาไทยที่เขียน ซึ่งยิ่งทำให้การสื่อสารเป็นเรื่องที่ท้าทายยิ่งขึ้น แม้ว่าการใช้ข้อความเขียนอาจดูเหมือนเป็นทางออกหนึ่งของการสื่อสาร แต่ในความเป็นจริงอาจไม่ได้ผลเสมอไป เนื่องจากผู้พิการทางการได้ยินบางคนอาจไม่สามารถอ่านหรือทำความเข้าใจข้อความภาษาไทยได้อย่างคล่องแคล่ว อันเนื่องมาจากการไม่ได้สัมผัสกับไวยากรณ์ของภาษาพูดแบบดั้งเดิม นี่จึงเป็นเหตุผลสำคัญที่ต้องมีเครื่องมือแปลภาษาแบบเรียลไทม์ที่สามารถแปลงข้อความภาษาไทยเป็นภาษามือไทยได้อย่างถูกต้อง เพื่อช่วยลดช่องว่างนี้ และส่งเสริมให้เกิดปฏิสัมพันธ์ที่มีความหมายระหว่างผู้พิการทางการได้ยิน บุคคลที่ไม่สามารถใช้คำพูด และบุคคลที่ได้ยิน

ให้คะแนนวัตกรรมนี้

หมดเวลาโหวตนวัตกรรมแล้ว

รายละเอียด

ประเภทนวัตกรรม

#Information Technology and AI#KMITL Expo 2025

หน่วยงาน

คณะวิศวกรรมศาสตร์

ผู้จัดทำ

ภศ

ภัทร ศรีลาโชติ

นักศึกษาผู้ดูแล

ณม

ณัชพล มานะชัยประเสริฐ

นักศึกษาสมาชิก

นป

นทีธาร ปัญญากร

นักศึกษาสมาชิก

นจ

นัทธพงศ์ จึงธีรพานิช

อาจารย์ที่ปรึกษา

นวัตกรรมอื่น ๆ

คณะเทคโนโลยีการเกษตร

การประยุกต์ใช้เทคนิค Hydro priming ด้วยน้ำพลาสมาต่อคุณภาพความงอกของข้าวไรซ์เบอรี่

การทดลองนี้จึงมีวัตถุประสงค์เพื่อศึกษาผลของน้ำที่ผ่านการฉายพลาสมาในเวลาที่แตกต่างกันต่อคุณภาพการงอกของเมล็ดพันธุ์ข้าวไรซ์เบอรี่ เพื่อเป็นการยกระดับคุณภาพความงอกของเมล็ดพันธุ์ข้าวไรซ์เบอรี่

อ่านเพิ่มเติม

คณะวิทยาศาสตร์

เทคโนโลยีของพลาสมาและนิวเคลียร์ฟิวชัน

เครื่องกำเนิดสถานะพลาสมาชนิดอาร์คโดยตรง 6 หัว การประยุกต์ใช้เทคโนโลยีของพลาสมา และความคืบหน้าของนิวเคลียร์ฟิวชันและโทคามัคประเทศไทย

อ่านเพิ่มเติม

คณะวิทยาศาสตร์

การจำแนกประเภทของโรคหูน้ำหนวกจากกล้องออโตสโคป

โรคหูชั้นกลางอักเสบ เกิดจากการที่ผู้ป่วยติดเชื้อโรคในหูชั้นกลาง ซึ่งสามารถพบได้ในทุกเพศทุกวัย อย่างไรก็ดี การวินิจฉัยสามารถทำได้โดยการนำภาพถ่ายจากกล้องออโตสโคปมาวิเคราะห์โดยแพทย์ผู้เชี่ยวชาญ แต่กระนั้น จำต้องอาศัยประสบการณ์ทางการแพทย์เพื่อลดทอนระยะเวลาในการวินิจฉัย ดังนั้น งานวิจัยนี้จึงนำเสนอเทคโนโลยีทางคอมพิวเตอร์วิทัศน์ มาประยุกต์ใช้เพื่อวินิจฉัยโรคเบื้องต้นประกอบการตัดสินใจให้กับแพทย์ผู้เชี่ยวชาญ โดยใช้เทคนิคการเรียนรู้เชิงลึก และโครงข่ายประสาทเทียมแบบคอนโวลูชัน อย่างสถาปัตยกรรม YOLOv8 และ Inception v3 เพื่อจำแนกประเภทของโรค และคุณลักษณะของโรคหูชั้นกลางอักเสบทั้ง 5 อย่างที่แพทย์ใช้ในการพิจารณาประเภทของโรคอันได้แก่ สี ความโปร่งใส ของเหลว การหดตัว และการทะลุ นอกจากนี้ ยังใช้วิธีการแบ่งส่วนรูปภาพ และการจำแนกประเภทรูปภาพในการวิเคราะห์และทำนายประเภทของโรคหูชั้นกลางอักเสบ ซึ่งสามารถแบ่งประเภทของโรคได้สี่ประเภท คือ โรคหูชั้นกลางอักเสบแบบมีน้ำขัง แบบเฉียบพลัน โรคหูชั้นกลางทะลุ และแก้วหูปกติ ผลการทดลองพบว่าโมเดลจำแนกประเภทสามารถจำแนกประเภทของโรคหูชั้นกลางอักเสบโดยตรงได้ดีพอประมาณ โดยผลลัพธ์ค่า Accuracy อยู่ที่ 65.7% ค่า Recall อยู่ที่ 65.7% และค่า Precision อยู่ที่ 67.6% และนอกจากนี้ยังให้ผลลัพธ์สำหรับการจำแนกคำตอบของคุณลักษณะหูทะลุได้ดีที่สุด โดยผลลัพธ์ค่า Accuracy อยู่ที่ 91.8% ค่า Recall อยู่ที่ 91.8% และค่า Precision อยู่ที่ 92.1% ในขณะที่โมเดลจำแนกซึ่งมีการประยุกต์ใช้เทคนิคการแบ่งส่วนรูปภาพมีประสิทธิภาพดีที่สุดโดยภาพรวม มีค่า mAP50-95 อยู่ที่ 79.63% ค่า Recall อยู่ที่ 100% และค่า Precision อยู่ที่ 99.8% ทั้งนี้ โมเดลดังกล่าวยังไม่ได้ถูกนำไปทดสอบการจำแนกประเภทของโรคหูชั้นกลางอักเสบ

อ่านเพิ่มเติม