กลับไปที่นวัตกรรมทั้งหมด

การเปรียบเทียบวิธีวิเคราะห์ความรู้สึกในเว็บอีคอมเมิร์ซสำหรับการตรวจจับรีวิวปลอม

A Comparative Study of Sentiment Analysis Methods for Detecting Fake Reviews in E-Commerce

@คณะวิทยาศาสตร์

#Cluster 2024
#Digital Technology
การเปรียบเทียบวิธีวิเคราะห์ความรู้สึกในเว็บอีคอมเมิร์ซสำหรับการตรวจจับรีวิวปลอม

รายละเอียด

ผู้บริโภคเมื่อทำการซื้อสินค้าหรือผลิตภัณฑ์ออนไลน์ต่าง ๆ มักจะอ่านข้อความรีวิวการซื้อสินค้าจากผู้ที่
เคยซื้อสินค้ามาก่อน เพื่อช่วยในการประกอบการตัดสินใจ ดังนั้นข้อความรีวิวสินค้าออนไลน์จึงมีบทบาทสำคัญใน
การช่วยตัดสินใจเลือกซื้อสินค้า ด้วยเหตุนี้จึงทำให้มีรีวิวปลอมเกิดขึ้น รีวิวปลอมเป็นข้อความรีวิวที่ถูกสร้างขึ้นทั้ง
จากมนุษย์และคอมพิวเตอร์ด้วยการกระทำที่ไม่สุจริต สร้างเพื่อปลอมแปลงข้อมูลหรือบิดเบือนความเป็นจริงของ
สินค้านั้น ๆ อีกทั้งยังเป็นการกระตุ้นยอดขายและเพิ่มความนิยมของร้านค้าเป็นต้น งานวิจัยฉบับนี้จึงมีจุดประสงค์
เพื่อศึกษาและเปรียบเทียบประสิทธิของแบบจำลองต่าง ๆ ที่ใช้ในการตรวจจับรีวิวปลอมเพื่อช่วยผู้บริโภคในการ
กรองข้อความรีวิวปลอมออก และสามารถตัดสินใจซื้อสินค้าจากข้อความรีวิวที่เป็นจริง โดยงานวิจัยนี้ใช้ชุดข้อมูล 
Amazon Review Data (2018) ซึ่งเป็นชุดข้อมูลที่น่าเชื่อถือและใช้กันอย่างกว้างขวาง ในส่วนของข้อมูลจะเป็นการ
ดึงข้อมูล 10 หมวดหมู่แรกของสินค้าที่มียอดรีวิวสูงสุดในเว็บไซต์ amazon.com จากนั้นทำการเตรียมข้อมูล
เบื้องต้น เช่น การตัดอักขระพิเศษ การทำ bag of words การทำ TF-IDF เป็นต้น และทำการสอนแบบจำลอง
เพื่อที่จะนำมาสร้างชุดข้อมูลในการตรวจจับรีวิวปลอม ซึ่งงานวิจัยนี้ได้ใช้แบบจำลองในการเปรียบเทียบประสิทธิ
ของการตรวจจับรีวิวปลอมทั้งหมด 4 แบบจำลองด้วยกัน มีทั้งแบบจำลองที่เป็นการเรียนรู้ของเครื่องและ
แบบจำลองที่เป็นการเรียนรู้เชิงลึก ได้แก่ GPT-2, NBSVM, BiLSTM, Roberta และมีการปรับจูนค่าไฮเปอร์
พารามิเตอร์ต่าง ๆ เพื่อทำการค้นหาค่าที่เหมาะสมกับแบบจำลอง ซึ่งผลการวิจัยสรุปได้ว่าแบบจำลอง Roberta ให้
ค่าประสิทธิภาพโดยรวมดีที่สุด โดยมีค่าเท่ากับ 97% GPT-2 มีค่าประสิทธิภาพโดยรวมเท่ากับ 82% NBSVM มีค่า
ประสิทธิภาพโดยรวมเท่ากับ 95% และ BiLSTM มีค่าประสิทธิภาพโดยรวมเท่ากับ 92% 

วัตถุประสงค์

ด้วยสถานการณ์ในปัจจุบันที่ผู้คนต้องดำเนินวิถีชีวิตใหม่หรือ New Normal เนื่องจากมีการระบาดของ
ไวรัสเมื่อปี 2019 จึงทำให้จากที่มนุษย์เราเคยออกจากบ้านเพื่อไปทำกิจวัตรประจำวันด้านนอก เช่นไปทำงาน 
ไปโรงเรียน ต้องหันมาทำทุกอย่างที่บ้านมากขึ้น การเปลี่ยนแปลงนี้ส่งผลให้มีการปรับเปลี่ยนทางด้านธุรกิจ
และบริการต่างๆ ให้ทันต่อสถานการณ์ในปัจจุบัน จึงทำให้มนุษย์เราหันมาทำสิ่งต่างๆ ผ่านทางช่องทาง
ออนไลน์มากขึ้น จากผลการสำรวจมูลค่าอีคอมเมิร์ซในประเทศไทยของสำนักงานพัฒนาธุรกรรมทาง
อิเล็กทรอนิกส์ หรือ ETDA เผยว่า ปี 2564 มีมูลค่าเพิ่มขึ้น 6.11% จากปีก่อน ซึ่งจะเห็นได้ว่าสถานการณ์โรค
ระบาดโควิด-19 ถือเป็นจุดเปลี่ยนสำคัญที่ทำให้คนสังคมใช้ชีวิตเปลี่ยนไป มีการซื้อสินค้าและบริการออนไลน์
เพิ่มขึ้นอย่างมาก และยังมีปัจจัยที่มีผลต่อการซื้อสินค้าและบริการออนไลน์อีกหลายอย่าง
 หนึ่งในปัจจัยที่สำคัญต่อการส่งผลในการตัดสินใจซื้อสินค้าออนไลน์นั้นก็คือ การอ่านรีวิวของผู้ที่เคยซื้อ
สินค้าหรือใช้บริการก่อนหน้า การรีวิวสินค้านั้นมีทั้งการรีวิวที่เป็นเชิงบวก กลางๆ และเชิงลบ มีทั้งการรีวิวทีใช้
ความรู้สึกหรืออารมณ์เข้ามาตัดสินตัวสินค้า มีการให้ดาวหรือเรตติ้งของสินค้า แม้ว่าบางครั้งการให้ดาวหรือเร
ตติ้งจะไม่สอดคล้องกับข้อความที่เขียนรีวิว หรือแม้กระทั่งการถูกจ้างให้มาเขียนรีวิวโดยเฉพาะในบุคคลที่เป็น
ที่นิยมหรือเป็นที่รู้จักของประชาชนเพื่อทำให้สินค้านั้นขายดี พบได้ในสื่อออนไลน์จำนวนมาก หรือการเขียน
รีวิวปลอมขึ้นมาเพื่อโจมตีสินค้าคู่แข่ง หรือเขียนรีวิวปลอมขึ้นมาเพื่อโปรโมตสินค้าของตัวเอง 
 มีงานวิจัยที่เกี่ยวข้องกับปัญหาการเขียนรีวิวปลอมมายาวนาน ไม่ว่าจะเป็นการพิจารณาคดีที่จะให้ผู้
พิพากษาแยกความแตกต่างระหว่างคำให้การเท็จและคำให้การจริง ปัญหาการตรวจจับการโกหกหรือรีวิว
ปลอมได้รับการศึกษาอย่างกว้างขว้าง ตัวอย่างเช่น การตรวจสอบรีวิวปลอมผ่านการวิเคราะห์คุณสมบัติทาง
ภาษาศาสตร์ โดยดูคุณลักษณะทางภาษาที่ใช้ในการเขียนรีวิวและนำมาตรวจจับการเขียนรีวิวปลอม ชุดข้อมูล
ที่ใช้คือรีวิวร้านอาหาร การเรียนรู้แบบกึ่งมีผู้สอนในการตรวจจับรีวิวปลอม โดยจะใช้หลักการของการเรียนรู้
แบบกึ่งมีผู้สอนกับชุดข้อมูลรีวิวโรงแรม การสร้างและตวรจจับรีวิวปลอมของสินค้าออนไลน์ โดยจะใช้หลักการ
การเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก ในการสร้างรีวิวปลอมและการตรวจจับรีวิวปลอม ชุดข้อมูลที่ใช้คือ 
Amazon Review Data (2018) เป็นต้น อย่างไรก็ตามงานวิจัยเหล่านี้ยังขาดการประยุกต์ใช้กับการเตรียม
ข้อมูลในส่วนต่างๆ เช่น การตัดคำ,การตัดอักขระพิเศษ,การใช้เทคนิคการแยกคำตามความสำคัญของคำ และ
การทดลองกับแบบจำลองที่มีความหลากหลายทั้งที่เป็นการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก
 ดังนั้นงานวิจัยนี้มุ่งเน้นไปที่การเปรียบเทียบกระบวนการการวิเคราะห์ความรู้สึกในบทวิจารณ์เว็บอี
คอมเมิร์ซเพื่อตรวจจับรีวิวปลอมโดยจะใช้ชุดข้อมูลมาตราฐานจาก Amazon Review Data (2018) และ
นำมาเข้ากระบวนการการเตรียมข้อมูล การทำความสะอาดข้อมูล การวิเคราะห์ความรู้สึกและทำการตรวจจับ
รีวิวปลอม และจะทำการเปรียบเทียบแบบจำลองที่สร้างขึ้นโดย เพื่อใช้ในการพิจารณาแบบจำลองที่ให้ค่า
ความแม่นยำสูงเพื่อช่วยให้ผู้บริโภคหรือผู้ซื้อสินค้ามั่นใจว่าตนได้ตัดสินใจเกี่ยวกับการซื้อสินค้านั้นๆ ไม่ได้ซื้อ
เพราะเป็นการถูกชักจูงจากการเขียนรีวิวปลอม และเพื่อที่เจ้าของสินค้าจะได้นำข้อความรีวิวนั้นไปใช้ในการ
ปรับปรุงสินค้าได้อย่างถูกต้อง และตอบโจทย์ความต้องการของลูกมากขึ้น ไม่ใช่พัฒนาสินค้าจากรีวิวปลอมที่
อาจจะต้องการโจมตีสินค้าทั้งๆที่สินค้าอาจจะดีอยู่แล้วก็เป็นได้

ผู้จัดทำ

ละออ บุญเกษม
Laor Boongasame

#อาจารย์

สมาชิก
มณีรัตน์ พุทธรัตนมณี
MANEERAT PUTTARATTANAMANEE

#นักศึกษา

สมาชิก

โหวตนวัตกรรมนี้

กำลังดาวน์โหลด