Back
The study of data level algorithms for Imbalanced dataset.
การศึกษาอัลกอริทึมระดับข้อมูล สำหรับชุดข้อมูลที่ไม่สมดุล
@คณะวิทยาศาสตร์
#KLLC 2024
#Digital Technology
Details
Data imbalance is one of the challenges in machine learning that impacts the performance of classification models. Random sampling techniques are widely used to address this issue. This research experimentally compared the effectiveness of three random sampling techniques: SMOTE, Tomek Links, and RUSBoostClassifier, in combination with machine learning algorithms including Decision Trees, Naive Bayes, Support Vector Machines, k-Nearest Neighbors, and Artificial Neural Networks. The experiment revealed that models learning through probability-based methods such as Decision Trees and Naive Bayes performed well with the RUSBoostClassifier technique. On the other hand, models that utilize mathematical computations or consider distances between data points, such as Artificial Neural Networks, Support Vector Machines, and k-Nearest Neighbors, worked effectively with the SMOTE technique. Additionally, it was found that the number of features had an impact on the choice of sampling technique. The experimental data were obtained from 10 datasets available on the Kaggle website.
Objective
ชุดข้อมูลที่ไม่สมดุล (Dataset Imbalanced) คือ ชุดข้อมูลที่มีการกระจายตัวของเซตคำตอบคลาสไม่สม่ำเสมอ หรือกล่าวได้ว่า ชุดข้อมูลที่มีจำนวนคลาสใดคลาสหนึ่งมีจำนวนเซตคำตอบที่มากกว่า หรือ น้อยกว่าคลาสอื่น ตัวอย่างที่เห็นได้ชัดเจนในการใช้งานแอปพลิเคชันจริง เช่น ข้อมูลของผู้ป่วย ข้อมูลการทำบัตรเครดิต ข้อมูลการทำนายอาชีพเกี่ยวกับสายงานเทคโนโลยี เป็นต้น ส่วนใหญ่จะพบว่าข้อมูลบางส่วนมีข้อมูลที่ขาดหายไป หรือ ข้อมูลที่เก็บจำนวนคลาสเซตคำตอบด้วยจำนวนที่ไม่เท่ากัน ทำให้ชุดข้อมูลเกิดความไม่สมดุลกัน ชุดข้อมูลที่ไม่สมดุลส่งผลให้เกิดการทำนายที่ผิดพลาดโดยเฉพาะในด้านการแพทย์ส่งผลกระทบเป็นอันตรายต่อชีวิตมนุษย์โดยตรงได้ และสามารถนำไปสู่การตัดสินใจที่ผิดพลาดได้อีกด้วย ชุดข้อมูลที่ไม่สมดุลส่งผลให้โมเดลเกิดการรียนรู้แบบอคติเอนเอียงไปทางคลาสส่วนใหญ่ ส่งผลให้ประสิทธิภาพโมเดล ความแม่นยำ ความถูกต้องลของโมเดลไม่มีคว่ามน่าเชื่อถือ ด้านการนำโมเดลไปใช้การทำนายในคลาสส่วนใหญ่ถูกต้องแต่ในทางกลับกันกับคลาสส่วนน้อยกลับทำนายที่ผิดพลาด ส่งผลให้ไม่สามารถสรุปหาข้อมูลได้อย่างตรงไปตรงมา และไม่สามารถหาข้อมูลใหม่เชิงลึกได้ การตีความตัววัดประสิทธิภาพการประเมินโมเดลอาจจะได้ผลลัพธ์ที่ไม่ถูกต้องอีกด้วย จึงเป็นเหตุผลที่ต้องมีกระบวนการในเตรียมข้อมูลให้สมดุล เหมาะกับการนำไปใช้งาน และการสร้างโมเดลเลือกใช้อัลกอริทึมให้เหมาะกับจุดประสงค์การใช้งานในแต่ละชุดข้อมูลอย่างมีประสิทธิภาพ โดยสรุปกล่าวได้ว่า ชุดข้อมูลเป็นสิ่งที่สำคัญสำหรับการพัฒนาโมเดลให้มีประสิทธิภาพ และสามารถตัดสินใจได้อย่างเป็นกลาง ไม่มีอคติ นี่จึงเป็นที่มาในการศึกษาหาวิธีการที่สามารถหาวิธีแก้ไขเรื่องของความไม่สมดุลของข้อมูล และการเลือกใช้อัลกอริทึมที่เหมาะให้กับโมเดล ทำให้โมเดลมีความถูกต้อง ไม่อคติ และสามารถนำไปประยุกต์ใช้งานจริงได้อย่างเหมาะสม หรือ การสร้างองค์ความรู้ใหม่โดยมีเหตุผลมารองรับองค์ความรู้ได้น่าเชื่อถือ
Project Members
สิริรัตน์ ไชยธงรัตน์
SIRIRAT CHAITHONGRAT
#นักศึกษา
Member
อนันตพร หรรษคุณาฒัย
Anantaporn Hanskunatai
#อาจารย์
Advisor
Vote for this Innovation!
Loading...
Powered By KMITL Innovation Project