Dimensional reduction and restructuring of dataset using word embedding for development of narcotic drugs messages classification model from short messages on online social media in Asia
Abstract:
งานวิจัยชิ้นนี้นำเสนอตัวแบบจำแนกประเภทข้อความการเสพยาเสพติด (NDCM: Narcotic Drugs Data Classification Model) จากข้อความสั้นบนสื่อสังคมออนไลน์ การเตรียมชุดข้อมูลใช้ขั้นตอนวิธีเตรียมข้อมูลที่ใช้กันแพร่หลายคือ Bag-of-Words (BoW) อย่างไรก็ตาม ชุดข้อมูลที่เตรียมด้วย BoW ประกอบด้วยคุณลักษณะจำนวนมากและมีขนาดใหญ่ ดังนั้น งานวิจัยชิ้นนี้จึงนำเสนอขั้นตอนวิธีเตรียมข้อมูลแบบใหม่เพื่อลดจำนวนคุณลักษณะของชุดข้อมูล จำนวน 3 ขั้นตอนวิธี ได้แก่ (1) New Document Term Matrix Data (NDTMD), (2) Sentence Vector of Word Embedding (SVWE) และ (3) Sentence Vector of Word Embedding with Feature Extension (SWEF) ชุดข้อมูลที่ใช้ในการทดลองได้รวบรวมจาก 2 แหล่งข้อมูล ได้แก่ (1) ชุดข้อมูลข้อความจำนวน 7 ชุดข้อมูล รวบรวมจาก Data Science Community Kaggle Website (DSCK) (2) ชุดข้อมูลข้อความที่เกี่ยวข้องกับการเสพยาเสพติด คัดเลือกจากทวิตเตอร์ในทวีปเอเชีย แบ่งเป็น 2 คลาส คือ Abuse และ Non-Abuse การทดสอบประสิทธิภาพของขั้นตอนวิธีเตรียมข้อมูลที่นำเสนอ ได้แก่ NDTMD, SVWE และ SWEF ซึ่งเปรียบเทียบประสิทธิภาพกับขั้นตอนวิธีแบบดั้งเดิม 5 แบบ ได้แก่ BoW, TF-IDF (Term Frequency-Inverse Document Frequency), LSA (Latent Semantic Analysis), PV-DM (Paragraph Vector-Distributed Memory Model) และ PV-DBOW (Paragraph Vector without Word Ordering-Distributed Bag of Words) ผลการทดลองพบว่า ค่า FRR (Feature Reduction Rate) ของขั้นตอนวิธี LSA, PV-DM, PV-DBOW และ SVWE สูงกว่าขั้นตอนวิธีเตรียมข้อมูลอื่น ๆ สำหรับการพัฒนาตัวแบบ NDCM ใช้ขั้นตอนวิธีจำแนกประเภท 4 ขั้นตอนวิธี คือ SVM (Support Vector Machine), LR (Logistic Regression), J48 (Decision Tree) และ CNN (Convolutional Neural Network) จากผลการทดลองพบว่า (1) ตัวแบบการจำแนกประเภทใช้ขั้นตอนวิธี SWEF กับขั้นตอนวิธีจำแนกประเภท LR ให้ค่าตัววัดประสิทธิภาพการจำแนกสูงสุด 4 ชุดข้อมูลจาก 7 ชุดข้อมูลใน DSCK (2) ตัวแบบ NDCM ที่สร้างจากชุดข้อมูลจากทวิตเตอร์เตรียมข้อมูลด้วยขั้นตอนวิธี SWEF และใช้ขั้นตอนวิธีจำแนกประเภท LR ให้ค่าตัววัดประสิทธิภาพการจำแนกสูงสุด ได้แก่ Accuracy (0.8954), F-Measure (0.8950), Kappa (0.7506) และ AUC (0.9530) นอกจากนี้ (3) ผลการทดสอบ Wilcoxon Rank Sum Test, Likelihood Ratio Test, Pseudo R^2 พบว่า ตัวแบบ NDCM ที่นำเสนอในการศึกษาครั้งนี้มีประสิทธิภาพดีและมีความเหมาะสมกับชุดข้อมูลจากทวิตเตอร์ที่ได้รวบรวมจากงานวิจัยชิ้นนี้
This study proposed a model of Narcotic Drugs Data Classification (NDCM) for short messages in social media based on text classification. The development of the NDCM included the important method of data preprocessing. The most popular method for data preprocessing is BoW (Bag of Words). However, BoW involves a large number of features. Therefore, this study proposed a new data preprocessing method for dataset feature reduction. The three proposed feature reduction algorithms were: (1) NDTMD (New Document Term Matrix Data), (2) SVWE (Sentence Vector Word Embedding) and (3) SWEF (Sentence Vector Word Embedding with Feature Reduction). Two dataset sources with large numbers of features were used in this study. The first was 7 datasets from the Data Science Community Kaggle website (DSCK) and the second was the collection of short messages from Twitter in Asia. The Twitter dataset was divided into 2 classes: Abuse and Non-Abuse. The performance levels of NDTMD, SVWE and SVWF were compared with 5 previous data preprocessing algorithms (BoW, TF-IDF (Term Frequency-Inverse Document Frequency), LSA (Latent Semantic Analysis), PV-DM (Paragraph Vector-Distributed Memory Model) and PV-DBOW (Paragraph Vector without Word Ordering-Distributed Bag of Words)) using 7 large feature DSCK datasets. The results showed that the values of the FRR (Feature Reduction Rate) of LSA, PV-DM, PV-DBOW and SVWE were better than the others. Four classifiers (SVM (Support Vector Machine), LR (Logistic Regression), J48 (Decision Tree) and CNN (Convolutional Neural Network)) were applied for developing classification models from the DSCK and Twitter datasets. The experimental results revealed: (1) the NDCM model development using SWEF preprocessing and the LR classifier provided the best performance for four out of the 7 DSCK datasets; (2) for the Twitter dataset, the NDCM model using SWEF with the LR classifier provided the best performance with a high accuracy rate (0.8954), F-measure (0.8950), AUC (0.9530), and Kappa (0.7506); and (3) the Wilcoxon Rank Sum Test, Pseudo R2 and Likelihood Ratio Test were used to evaluate the NDCM model and the results showed that the model fitted the Twitter dataset collected in this research. Implications and future research topics were discussed.