Abstract:
ความก้าวหน้าของเทคโนโลยีสนับสนุนให้การจัดเก็บข้อมูลทำได้ง่ายและสามารถเก็บได้ในปริมาณมากเพื่อให้การจัดเก็บข้อมูลสามารถนำไปใช้ประโยชน์ได้อย่างกว้างขวางจึงก่อให้เกิดการกำหนดรูปแบบการจัดเก็บข้อมูลให้เป็นมาตรฐานเดียวกันองค์การอนามัยโลกได้กำหนดรหัสมาตรฐานของหัตถการทางการแพทย์เป็นจำนวนมาก เพื่อให้ครอบคลุมการรักษาทั้งหมดโดยไม่ได้แยกหัตถการตามโรค เนื่องจากการเลือกหัตถการเป็นไปตามอาการของผู้ป่วย ดังนั้นหากสามารถระบุชุดหัตถการของโรคอาจทำให้ทราบถึงโรคของผู้ป่วยหรือใช้ในการเฝ้าระวังโรคได้ในปัจจุบันโรคเบาหวานและความดันโลหิตสูงนับว่าเป็นภัยเงียบที่คุกคามคนไทยเป็นจำนวนมากและยังเป็นบ่อเกิดไปยังโรคร้ายแรงอีกหลายโรคเนื่องจากในระยะแรกของโรคจะไม่ค่อยแสดงอาการหรือแสดงอาการเพียงเล็กน้อย ทำให้ผู้ป่วยไม่ทราบหรือไม่ได้ตระหนักถึงความร้ายแรงของโรคและอาจนำไปสู่อาการหรือโรคแทรกซ้อนทั้งแบบเรื้อรังและแบบเฉียบพลัน ซึ่งเป็นสาเหตุของความพิการหรือเสียชีวิตได้ในงานวิจัยนี้เป็นการระบุหัตถการของโรคเบาหวานและโรคความดันโลหิตสูงโดยใช้วิธีการ C4.5 และ Naive Bayes กับชุดข้อมูลจากโรงพยาบาล 2 แห่งในประเทศไทยที่ถูกจัดเก็บตามระบบแฟ้มมาตรฐานสุขภาพในรูปแบบ 43 แฟ้ม ที่กระทรวงสาธารณะสุขกาหนดขึ้น และเพื่อแก้ปัญหาจำนวนข้อมูลไม่สมดุลที่อาจส่งผลกระทบต่อประสิทธิภาพของการจำแนกข้อมูลจึงได้ทำการสุ่มแบบไม่ใส่กลับเพื่อลดจำนวนข้อมูลกลุ่มมาก (Majority class) ให้มีปริมาณที่ใกล้เคียงหรือเท่ากันกับข้อมูลกลุ่มน้อย (Minority class) หรือวิธีการ Undersampling เพื่อลดความเอนเอียงของปริมาณข้อมูลในแต่ละป้ายกำกับหมวดหมู่ (Class label) ของข้อมูลในแต่ละโรงพยาบาลจากการทดลองพบว่าวิธีการ C4.5 สามารถระบุหัตถการของโรคได้อย่างมีประสิทธิภาพมากกว่าวิธีการ Naive Bayes
The advancement of technology supports the ability to collect mass data at ease. The standard data collecting system was established in order to provide the way to use the collected data beneficially and widely. World Health Organization (WHO) has assigned various standard codes for medical procedures to cover all the treatments because the selection of any applied procedures is depended on the symptoms of the patient. Therefore, if the codes can be specified, we can diagnose the patients' diseases and put it on the watch list effectively. Nowadays, Diabetes and Hypertension can be seen as shadow killers threatening lots of people in Thailand. They are also the origin of various fatal diseases because, in the early state, they wouldn't show any symptoms or just a little bit, Therefore the patients wouldn't notice how dangerous these diseases could be. If the patients cannot maintain the sugar level in their blood or they don't maintain their blood pressure level as the doctor suggested, it could lead to chronic diseases or instantaneous ones, and make the patients becoming disable or dead easily. In this research, the purpose is to specify the medical procedures for Diabetes and Hypertension by using C4.5 and Naive Bayes methods with the data collected in form of 43 standard healthcare folders that the Ministry of Public Health prescribed, from 2 hospitals in Thailand. Moreover, in order to solve the unbalance of the collected data that might affect the classification's performance, the sampling without replacement, or undersampling, is applied to reduce the data of majority class into the same level as minority class, to maintain the equality in any class label of the data from each hospital. The research found that C4.5 could specify the medical procedures for each disease more effective than Naive Bayes.