A Comparative Study of Sentiment Analysis Methods for Detecting Fake Reviews in E-Commerce @ KMITL Innovation Expo 2024

A Comparative Study of Sentiment Analysis Methods for Detecting Fake Reviews in E-Commerce

การเปรียบเทียบวิธีวิเคราะห์ความรู้สึกในเว็บอีคอมเมิร์ซสำหรับการตรวจจับรีวิวปลอม

@คณะวิทยาศาสตร์

#Cluster 2024

#Digital Technology

การเปรียบเทียบวิธีวิเคราะห์ความรู้สึกในเว็บอีคอมเมิร์ซสำหรับการตรวจจับรีวิวปลอม

Details

Online shoppers frequently examine reviews from previous buyers to help them make
decisions when purchasing products. Therefore, online product reviews play an important role
in assisting shoppers in choosing what to buy. As a result, false reviews are produced. Text reviews 
that are generated dishonestly by humans as well as computers are known as fake reviews. It is 
created to fake information or distort the reality of that product, as well as to stimulate sales and 
increase the popularity of the store, etc. The goal of this research is to examine and evaluate the 
performance of various methods for identifying fake reviews. The well-known and widely used
Amazon Review Data (2018) dataset was used for this research. The first 10 product categories on 
Amazon.com with favorable feedback will be provided in the data section. After that, perform 
fundamental data preparation procedures such as special character trimming, bag of words, TFIDF, etc. The models are trained to create a dataset for detecting fake reviews. This research 
compares the performance of four different models: GPT-2, NBSVM, BiLSTM, and Roberta. The
hyperparameters of the models are also tuned to find the optimal values. The researchconcludes 
that the Roberta model performs the best overall, with an accuracy of 97%. GPT-2 has an overall 
accuracy of 82%, NBSVM has an overall accuracy of 95%, and BiLSTM has an overall accuracy of 
92%.

Objective

ด้วยสถานการณ์ในปัจจุบันที่ผู้คนต้องดำเนินวิถีชีวิตใหม่หรือ New Normal เนื่องจากมีการระบาดของ
ไวรัสเมื่อปี 2019 จึงทำให้จากที่มนุษย์เราเคยออกจากบ้านเพื่อไปทำกิจวัตรประจำวันด้านนอก เช่นไปทำงาน 
ไปโรงเรียน ต้องหันมาทำทุกอย่างที่บ้านมากขึ้น การเปลี่ยนแปลงนี้ส่งผลให้มีการปรับเปลี่ยนทางด้านธุรกิจ
และบริการต่างๆ ให้ทันต่อสถานการณ์ในปัจจุบัน จึงทำให้มนุษย์เราหันมาทำสิ่งต่างๆ ผ่านทางช่องทาง
ออนไลน์มากขึ้น จากผลการสำรวจมูลค่าอีคอมเมิร์ซในประเทศไทยของสำนักงานพัฒนาธุรกรรมทาง
อิเล็กทรอนิกส์ หรือ ETDA เผยว่า ปี 2564 มีมูลค่าเพิ่มขึ้น 6.11% จากปีก่อน ซึ่งจะเห็นได้ว่าสถานการณ์โรค
ระบาดโควิด-19 ถือเป็นจุดเปลี่ยนสำคัญที่ทำให้คนสังคมใช้ชีวิตเปลี่ยนไป มีการซื้อสินค้าและบริการออนไลน์
เพิ่มขึ้นอย่างมาก และยังมีปัจจัยที่มีผลต่อการซื้อสินค้าและบริการออนไลน์อีกหลายอย่าง
 หนึ่งในปัจจัยที่สำคัญต่อการส่งผลในการตัดสินใจซื้อสินค้าออนไลน์นั้นก็คือ การอ่านรีวิวของผู้ที่เคยซื้อ
สินค้าหรือใช้บริการก่อนหน้า การรีวิวสินค้านั้นมีทั้งการรีวิวที่เป็นเชิงบวก กลางๆ และเชิงลบ มีทั้งการรีวิวทีใช้
ความรู้สึกหรืออารมณ์เข้ามาตัดสินตัวสินค้า มีการให้ดาวหรือเรตติ้งของสินค้า แม้ว่าบางครั้งการให้ดาวหรือเร
ตติ้งจะไม่สอดคล้องกับข้อความที่เขียนรีวิว หรือแม้กระทั่งการถูกจ้างให้มาเขียนรีวิวโดยเฉพาะในบุคคลที่เป็น
ที่นิยมหรือเป็นที่รู้จักของประชาชนเพื่อทำให้สินค้านั้นขายดี พบได้ในสื่อออนไลน์จำนวนมาก หรือการเขียน
รีวิวปลอมขึ้นมาเพื่อโจมตีสินค้าคู่แข่ง หรือเขียนรีวิวปลอมขึ้นมาเพื่อโปรโมตสินค้าของตัวเอง 
 มีงานวิจัยที่เกี่ยวข้องกับปัญหาการเขียนรีวิวปลอมมายาวนาน ไม่ว่าจะเป็นการพิจารณาคดีที่จะให้ผู้
พิพากษาแยกความแตกต่างระหว่างคำให้การเท็จและคำให้การจริง ปัญหาการตรวจจับการโกหกหรือรีวิว
ปลอมได้รับการศึกษาอย่างกว้างขว้าง ตัวอย่างเช่น การตรวจสอบรีวิวปลอมผ่านการวิเคราะห์คุณสมบัติทาง
ภาษาศาสตร์ โดยดูคุณลักษณะทางภาษาที่ใช้ในการเขียนรีวิวและนำมาตรวจจับการเขียนรีวิวปลอม ชุดข้อมูล
ที่ใช้คือรีวิวร้านอาหาร การเรียนรู้แบบกึ่งมีผู้สอนในการตรวจจับรีวิวปลอม โดยจะใช้หลักการของการเรียนรู้
แบบกึ่งมีผู้สอนกับชุดข้อมูลรีวิวโรงแรม การสร้างและตวรจจับรีวิวปลอมของสินค้าออนไลน์ โดยจะใช้หลักการ
การเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก ในการสร้างรีวิวปลอมและการตรวจจับรีวิวปลอม ชุดข้อมูลที่ใช้คือ 
Amazon Review Data (2018) เป็นต้น อย่างไรก็ตามงานวิจัยเหล่านี้ยังขาดการประยุกต์ใช้กับการเตรียม
ข้อมูลในส่วนต่างๆ เช่น การตัดคำ,การตัดอักขระพิเศษ,การใช้เทคนิคการแยกคำตามความสำคัญของคำ และ
การทดลองกับแบบจำลองที่มีความหลากหลายทั้งที่เป็นการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึก
 ดังนั้นงานวิจัยนี้มุ่งเน้นไปที่การเปรียบเทียบกระบวนการการวิเคราะห์ความรู้สึกในบทวิจารณ์เว็บอี
คอมเมิร์ซเพื่อตรวจจับรีวิวปลอมโดยจะใช้ชุดข้อมูลมาตราฐานจาก Amazon Review Data (2018) และ
นำมาเข้ากระบวนการการเตรียมข้อมูล การทำความสะอาดข้อมูล การวิเคราะห์ความรู้สึกและทำการตรวจจับ
รีวิวปลอม และจะทำการเปรียบเทียบแบบจำลองที่สร้างขึ้นโดย เพื่อใช้ในการพิจารณาแบบจำลองที่ให้ค่า
ความแม่นยำสูงเพื่อช่วยให้ผู้บริโภคหรือผู้ซื้อสินค้ามั่นใจว่าตนได้ตัดสินใจเกี่ยวกับการซื้อสินค้านั้นๆ ไม่ได้ซื้อ
เพราะเป็นการถูกชักจูงจากการเขียนรีวิวปลอม และเพื่อที่เจ้าของสินค้าจะได้นำข้อความรีวิวนั้นไปใช้ในการ
ปรับปรุงสินค้าได้อย่างถูกต้อง และตอบโจทย์ความต้องการของลูกมากขึ้น ไม่ใช่พัฒนาสินค้าจากรีวิวปลอมที่
อาจจะต้องการโจมตีสินค้าทั้งๆที่สินค้าอาจจะดีอยู่แล้วก็เป็นได้

Project Members

ละออ บุญเกษม

Laor Boongasame

#อาจารย์

Member

A Comparative Study of Sentiment Analysis Methods for Detecting Fake Reviews in E-Commerce

การเปรียบเทียบวิธีวิเคราะห์ความรู้สึกในเว็บอีคอมเมิร์ซสำหรับการตรวจจับรีวิวปลอม

Details

Objective

Project Members

ละออ บุญเกษม

Laor Boongasame

มณีรัตน์ พุทธรัตนมณี

MANEERAT PUTTARATTANAMANEE

Vote for this Innovation!