กลับไปที่นวัตกรรมทั้งหมด

การศึกษาอัลกอริทึมระดับข้อมูล สำหรับชุดข้อมูลที่ไม่สมดุล

The study of data level algorithms for Imbalanced dataset.

@คณะวิทยาศาสตร์

#KLLC 2024
#Digital Technology
การศึกษาอัลกอริทึมระดับข้อมูล สำหรับชุดข้อมูลที่ไม่สมดุล

รายละเอียด

ความไม่สมดุลของข้อมูล เป็นปัญหาอย่างหนึ่งในการเรียนรู้ของเครื่องที่ส่งผลกระทบต่อประสิทธิภาพในการจำแนกประเภทของโมเดล วิธีการหรือเทคนิคการแก้ไขปัญหาของชุดข้อมูลที่ไม่สมดุลอย่าง เทคนิคการสุ่มตัวอย่างที่เป็นวิธีการที่นิยมอย่างมากในการแก้ไขปัญหาความไม่สมดุลของชุดข้อมูล โดยในงานวิจัยนี้ได้ทำกาทดลองเพื่อเปรียบเทียบประสิทธิภาพของเทคนิคการสุ่มตัวอย่าง 3 เทคนิค ได้แก่ SMOTE Tomek Links และ RUSBoostClassifier ร่วมกับอัลกอริทึมการเรียนรู้ของเครื่อง ซึ่งได้แก่ ต้นไม้ตัดสิน นาอีฟเบย์ ซัพพอร์ตเวกเตอร์แมชชีน เพื่อนบ้านใกล้เคียง และโครงข่ายประสาทเทียม จากการทดลองพบว่าโมเดลที่มีการเรียนรู้โดยการใช้หลักการความน่าจะเป็นในการจำแนกข้อมูลอย่างต้นไม้ตัดสินใจ นาอีฟเบย์ จะทำงานได้ดีกับเทคนิค RUSBoostClassifier ส่วนโมเดลที่ใช้การคำนวนเชิงคณิตศาสตร์หรือใช้ระยะทางระหว่างข้อมูลพิจารณาในการจำแนกข้อมูล เช่น โครงข่ายประสาทเทียม ซัพพอร์ตเวกเตอร์แมชชีน และเพื่อนบ้านที่ใกล้เคียง จะทำงานได้ดีกับเทคนิค SMOTE นอกจากนี้ยังพบว่าจำนวนคุณลักษณะมีผลต่อเทคนิคการสุ่มข้อมูล ซึ่งข้อมูลในการทดลองได้มากจากชุดข้อมูลบนเว็บไซต์ Kaggle จำนวน 10 ชุด

วัตถุประสงค์

   ชุดข้อมูลที่ไม่สมดุล (Dataset Imbalanced) คือ ชุดข้อมูลที่มีการกระจายตัวของเซตคำตอบคลาสไม่สม่ำเสมอ หรือกล่าวได้ว่า ชุดข้อมูลที่มีจำนวนคลาสใดคลาสหนึ่งมีจำนวนเซตคำตอบที่มากกว่า หรือ น้อยกว่าคลาสอื่น ตัวอย่างที่เห็นได้ชัดเจนในการใช้งานแอปพลิเคชันจริง เช่น ข้อมูลของผู้ป่วย ข้อมูลการทำบัตรเครดิต ข้อมูลการทำนายอาชีพเกี่ยวกับสายงานเทคโนโลยี เป็นต้น ส่วนใหญ่จะพบว่าข้อมูลบางส่วนมีข้อมูลที่ขาดหายไป หรือ ข้อมูลที่เก็บจำนวนคลาสเซตคำตอบด้วยจำนวนที่ไม่เท่ากัน ทำให้ชุดข้อมูลเกิดความไม่สมดุลกัน ชุดข้อมูลที่ไม่สมดุลส่งผลให้เกิดการทำนายที่ผิดพลาดโดยเฉพาะในด้านการแพทย์ส่งผลกระทบเป็นอันตรายต่อชีวิตมนุษย์โดยตรงได้ และสามารถนำไปสู่การตัดสินใจที่ผิดพลาดได้อีกด้วย 
   ชุดข้อมูลที่ไม่สมดุลส่งผลให้โมเดลเกิดการรียนรู้แบบอคติเอนเอียงไปทางคลาสส่วนใหญ่ ส่งผลให้ประสิทธิภาพโมเดล ความแม่นยำ ความถูกต้องลของโมเดลไม่มีคว่ามน่าเชื่อถือ ด้านการนำโมเดลไปใช้การทำนายในคลาสส่วนใหญ่ถูกต้องแต่ในทางกลับกันกับคลาสส่วนน้อยกลับทำนายที่ผิดพลาด ส่งผลให้ไม่สามารถสรุปหาข้อมูลได้อย่างตรงไปตรงมา และไม่สามารถหาข้อมูลใหม่เชิงลึกได้  การตีความตัววัดประสิทธิภาพการประเมินโมเดลอาจจะได้ผลลัพธ์ที่ไม่ถูกต้องอีกด้วย จึงเป็นเหตุผลที่ต้องมีกระบวนการในเตรียมข้อมูลให้สมดุล เหมาะกับการนำไปใช้งาน และการสร้างโมเดลเลือกใช้อัลกอริทึมให้เหมาะกับจุดประสงค์การใช้งานในแต่ละชุดข้อมูลอย่างมีประสิทธิภาพ
   โดยสรุปกล่าวได้ว่า ชุดข้อมูลเป็นสิ่งที่สำคัญสำหรับการพัฒนาโมเดลให้มีประสิทธิภาพ และสามารถตัดสินใจได้อย่างเป็นกลาง ไม่มีอคติ นี่จึงเป็นที่มาในการศึกษาหาวิธีการที่สามารถหาวิธีแก้ไขเรื่องของความไม่สมดุลของข้อมูล และการเลือกใช้อัลกอริทึมที่เหมาะให้กับโมเดล ทำให้โมเดลมีความถูกต้อง ไม่อคติ และสามารถนำไปประยุกต์ใช้งานจริงได้อย่างเหมาะสม หรือ การสร้างองค์ความรู้ใหม่โดยมีเหตุผลมารองรับองค์ความรู้ได้น่าเชื่อถือ

ผู้จัดทำ

สิริรัตน์ ไชยธงรัตน์
SIRIRAT CHAITHONGRAT

#นักศึกษา

สมาชิก
อนันตพร หรรษคุณาฒัย
Anantaporn Hanskunatai

#อาจารย์

อาจารย์ที่ปรึกษา

โหวตนวัตกรรมนี้

กำลังดาวน์โหลด