Abstract:
ปัจจุบันการเทคโนโลยีการเรียนรู้ของเครื่อง (Machine learning) และการเรียนรู้เชิงลึก (Deep learning) ได้ถูกนำมาใช้อย่างกว้างขวางในการแก้ไขปัญหาที่ซับซ้อน อย่างไรก็ตามระบบการเรียนรู้เชิงลึกนั้นอ่อนไหวต่อสัญญาณรบกวนที่เรียกว่า Adversarial noise ซึ่งถูกสร้างขึ้นมาสำหรับใช้แปลงคุณลักษณะของข้อมูลโดยเรียกข้อมูลนี้ว่าข้อมูลปรปักษ์ (Adversarial samples) เพื่อทำให้โมเดลทำการทำนายหรือตัดสินใจผิดพลาดแม้แต่มนุษย์ก็ไม่สามารถแยกแยะออกได้ว่าเป็นข้อมูลปกติหรือข้อมูลปรปักษ์ได้ ถือว่าเป็นอันตรายต่อการประยุกต์ใช้โมเดลในงานด้านต่างๆ งานวิจัยนี้ได้เสนอวิธีในการป้องกันการโจมตีจากข้อมูลปรปักษ์โดยการประยุกต์ใช้สถาปัตยกรรม Discover GANs เพื่อหาความสัมพันธ์ระหว่างการโจมตีและการป้องกัน โดยได้ทำการจำลองระบบการโจมตีขึ้นมาจากข้อมูลปรปักษ์ในขณะที่การป้องกันนั้นจะอาศัยการกู้ข้อมูลต้นฉบับจากข้อมูลปรปักษ์ วิธีการนี้เปรียบเสมือนการกรองสัญญาณรบกวนที่ทำให้โมเดลเกิดความสับสนออกก่อนที่ส่งข้อมูลที่กู้มาได้ส่งไปยังโมเดลเพื่อทำนายผลต่อไป จากผลการทดลองโดยทดสอบกับฐานข้อมูลพบว่าวิธีการป้องการโจมตีจากข้อมูลปรปักษ์ที่นำเสนอในงานวิจัยนี้สามารถป้องกันการโจมตีได้หลากหลายรูปแบบทั้งการโจมตีแบบ Black-box และ White-box ได้อย่างมีประสิทธิภาพ
With rapid progress and significant successes in a wide domain of applications, deep learning has been extensively employed for solving complex problems. However, performance of deep learning has been vulnerable to well-designed samples, called adversarial examples. These samples are carefully designed to deceive the deep learning models without human perception. Therefore, vulnerability to adversarial attacks becomes one of the major concerns in life-critical applications of deep learning. In this paper, a novel approach to counter adversarial examples is proposed to strengthen the robustness of a deep learning model. The proposed defense framework is based on DiscoGANs to discover the relation between attacker and defender characteristics. Attacker models are created to generate the adversarial examples from the training data, while the proposed defender model is trained to reconstruct original samples from the adversarial examples. The strategy is to filter the perturbation noise in adversarial examples prior to prediction. The experimental results on different attack models are compared with popular defense mechanisms on benchmark datasets. Our proposed method shows promising results and can improve the robustness on both white-box and black-box attacks.