Abstract:
วิทยานิพนธ์นี้ได้ศึกษาวิธีการทำความสะอาดข้อมูลด้วยวิธีต่าง ๆ ได้แก่ การตรวจสอบค่าผิดปกติด้วยวิธีการทางสถิติ (Statistical Outlier Detection) การตรวจสอบค่าผิดปกติด้วยวิธีการจัดแบ่งกลุ่ม (Clustering Outlier Detection) และการตรวจสอบค่าผิดปกติด้วยกฎความสัมพันธ์ (Association Rule) และได้นำวิธีเหล่านี้มาประยุกต์ใช้ในการทำความสะอาดข้อมูลการวิเคราะห์ปริมาณแก๊สที่ละลาย (Dissolved Gas Analysis หรือ DGA) ในน้ำมันของหม้อแปลงไฟฟ้ากำลัง ทั้งกรณีใช้เพียงวิธีเดียวและหลายวิธีรวมกัน งานวิจัยนี้ได้พัฒนาวิธีการตั้งค่าพารามิเตอร์สำหรับ แต่ละวิธีทำความสะอาดข้อมูลเพื่อให้ได้ความแม่นยำในการตรวจพบความผิดพลาดในข้อมูลสูงสุด ข้อมูล DGA ประกอบด้วยค่าปริมาณแก๊ส CO2 C2H4 C2H2 C2H6 CH4 CO และ H2 ความผิดพลาดในข้อมูลที่พิจารณาประกอบด้วยกรอกเลข 0 เกิน การกรอกตัวเลขสลับกันและความผิดปกติที่เกิดจากความผิดพลาดของเซ็นเซอร์ที่ตรวจวัดในแต่ชุดข้อมูลมีความผิดพลาดตำแหน่งเดียว ข้อมูลแบ่งออกเป็น 2 ชุด ด้วยกันคือ ข้อมูลสำหรับเรียนรู้ (Training Data) จำนวน 413 ตัวอย่าง และข้อมูลทดสอบ (Test Data) จำนวน 200 ตัวอย่าง วิธีการทำความสะอาดข้อมูลด้วยวิธีการทางสถิติมีค่าความถูกต้อง (Accuracy) เท่ากับ 92.00% ซึ่งสูงกว่าวิธีการทำความ สะอาดข้อมูลด้วยวิธีการจัดแบ่งกลุ่มแบบร่วมกับวิธีการทางสถิติที่มีค่าความถูกต้องเท่ากับ 91.00% และวิธีการทำความสะอาดข้อมูลด้วยกฎความสัมพันธ์ (Association Rule) ร่วมกับวิธีการทางสถิติมีค่าความถูกต้องเท่ากับ 89.00% วิธีการทำความสะอาดข้อมูลที่ศึกษาในวิทยานิพนธ์นี้จะเป็นประโยชน์ในการกระบวนการเตรียมข้อมูลสำหรับการประเมินสภาพหม้อแปลงไฟฟ้ากำลังและการบริหารทรัพย์สินหม้อแปลงไฟฟ้ากำลังต่อไป
This thesis presents a study of data cleaning methods including statistical outlier detection, clustering outlier detection, and association rule. Single usage and combined usage of these methods were applied to clean dissolved gas analysis (DGA) data of power transformer. In this research, an algorithm for setting parameters was developed to achieve the best data artifact detection. The DGA data includes the following gas measurement CO2, C2H4, C2H2, C2H6, CH4, CO, and H2. Condidered data error types are excess zeroes, number order switching, and incorrect measurement due to sensor error. Eror records contain only one incorrect gas value. The data were devided into two sets training and test sets. Training set has 413 records and test set has 200 samples. In the results, the statistical method provided the highest accuracy of 92% followed by clustering combined with statistic method with accuracy of 91% and association rule combined with statistic method with accuracy of 89%. Data cleaning methods studied in this thesis are very useful in data preprocessing of power transformer condition assessment and asset management.