การวิเคราะห์ความรู้สึกของข้อความ กรณีศึกษาชุดข้อมูลของทวิตเตอร์ เรื่อง การศึกษาไทย
Thai sentiment analysis about education in Thailand on Twitter
Organization :
มหาวิทยาลัยขอนแก่น. วิทยาลัยการคอมพิวเตอร์
Email :
wipadasi@kkumail.com
Organization :
มหาวิทยาลัยขอนแก่น. วิทยาลัยการคอมพิวเตอร์
Email :
phithayarat.mwph@kkumail.com
Organization :
มหาวิทยาลัยขอนแก่น. วิทยาลัยการคอมพิวเตอร์
Email :
thanaphon@kku.ac.th
Abstract:
เหมืองความคิดเห็นบนโลกออนไลน์ มีความจำเป็นมากในปัจจุบัน สามารถนำไปพัฒนาธุรกิจ หรือพิจารณาอารมณ์ของข้อความได้ งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างโมเดลในจำแนกข้อความภาษาไทยที่แสคงความคิดเห็นในแง่มุมของการศึกษาไทยบนทวิตเตอร์ออกมาเป็น 3 ขั้วความคิดเห็นคือทางบวก ทางลบ และกลาง โดยนำชุดข้อมูลที่ ได้จากการเลเบลไปคัคเลือกค่าที่เป็นพีเจอร์ และพบปัญหาในเรื่องข้อมูลที่ไม่สมดุลจึงนำเสมอการจัดการข้อมูลที่ไม่สมดุลด้วยการปรับข้อมูลที่ไม่สมคุล 3 วิธีคือ การสุ่มตัวอย่างลด การสุ่มตัวอย่างเพิ่ม และ การสั่งเคราะห์ ข้อมูลเพิ่ม (SMOTE) แล้วฝึกโมเดลสำหรับจำแนกอารมณ์ของข้อความด้วยโมเดล Logistic regression, XGBoost, Decision tree, SVM, Random forest, K-NN โดยเลือกไฮเปอร์พารามิเตอร์ (Hrperparameter) ที่ดีที่สุดของแต่ละโมเดลจากการทำการค้นหาแบบกริด (Grid search) และเปรียบเทียบประสิทธิภาพของโมเดลก่อนและหลังการปรับข้อมูลที่ ไม่สมคุลด้วยเมทริกซ์ความสับสน (Confusion matix) พบว่าก่อนปรับข้อมูลค่าที่ ได้ส่วนใหญ่ลำเอียงไปที่คลาสถบ และค่าความถูกต้องในแต่ละโมเดลมีค่าต่ำ เฉลี่ยที่ 41% และการทำนายในคลาสบวกมีผลที่น้อยจากค่าเฉลี่ย FI score 17% หลังจากปรับข้อมูลทำให้ค่าเฉลี่ยความถูกต้องเพิ่มขึ้นทั้ง 3 วิธี โดยวิธีการสุ่มตัวอย่างลดมากที่สุดเฉลี่ยที่ 51% ซึ่งมี โมเดลที่ดีสุดคือ Random forest ที่ 559 อีกทั้งค่าเฉลี่ย FI score
Abstract:
เหมืองความคิดเห็นบนโลกออนไลน์ มีความจำเป็นมากในปัจจุบัน สามารถนำไปพัฒนาธุรกิจ หรือพิจารณาอารมณ์ของข้อความได้ งานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างโมเดลในจำแนกข้อความภาษาไทยที่แสคงความคิดเห็นในแง่มุมของการศึกษาไทยบนทวิตเตอร์ออกมาเป็น 3 ขั้วความคิดเห็นคือทางบวก ทางลบ และกลาง โดยนำชุดข้อมูลที่ ได้จากการเลเบลไปคัคเลือกค่าที่เป็นพีเจอร์ และพบปัญหาในเรื่องข้อมูลที่ไม่สมดุลจึงนำเสมอการจัดการข้อมูลที่ไม่สมดุลด้วยการปรับข้อมูลที่ไม่สมคุล 3 วิธีคือ การสุ่มตัวอย่างลด การสุ่มตัวอย่างเพิ่ม และ การสั่งเคราะห์ ข้อมูลเพิ่ม (SMOTE) แล้วฝึกโมเดลสำหรับจำแนกอารมณ์ของข้อความด้วยโมเดล Logistic regression, XGBoost, Decision tree, SVM, Random forest, K-NN โดยเลือกไฮเปอร์พารามิเตอร์ (Hrperparameter) ที่ดีที่สุดของแต่ละโมเดลจากการทำการค้นหาแบบกริด (Grid search) และเปรียบเทียบประสิทธิภาพของโมเดลก่อนและหลังการปรับข้อมูลที่ ไม่สมคุลด้วยเมทริกซ์ความสับสน (Confusion matix) พบว่าก่อนปรับข้อมูลค่าที่ ได้ส่วนใหญ่ลำเอียงไปที่คลาสถบ และค่าความถูกต้องในแต่ละโมเดลมีค่าต่ำ เฉลี่ยที่ 41% และการทำนายในคลาสบวกมีผลที่น้อยจากค่าเฉลี่ย FI score 17% หลังจากปรับข้อมูลทำให้ค่าเฉลี่ยความถูกต้องเพิ่มขึ้นทั้ง 3 วิธี โดยวิธีการสุ่มตัวอย่างลดมากที่สุดเฉลี่ยที่ 51% ซึ่งมี โมเดลที่ดีสุดคือ Random forest ที่ 559 อีกทั้งค่าเฉลี่ย FI score ในคลาสบวกสูงสุดที่ 58% และจาก 3 วิธีโมเดลที่ดีที่สุดคือ Logistic regression มีค่าเฉลี่ยความถูกต้องที่ 53%
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ. สำนักหอสมุดกลาง
Email:
library@kmutnb.ac.th
BibliograpyCitation :
ใน มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ. คณะเทคโนโลยสารสนเทศและนวัตกรรมดิจิทัล. การประชุมวิชาการระดับชาติด้านคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ครั้งที่ 18 (NCCIT 2022) (pp.184-189). กรุงเทพฯ : มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
©copyrights มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ