Search ThaiLIS Digital Collection 2019 x

แจ้งเอกสารไม่ครบถ้วน, ไม่ตรงกับชื่อเรื่อง หรือมีข้อผิดพลาดเกี่ยวกับเอกสาร ติดต่อที่นี่ ==>
หากไม่มีอีเมลผู้รับให้กรอก thailis-noc@uni.net.th

ธีรพงศ์  งามพร้อมวงษ์.  การพัฒนาแบบจำลองเรียนรู้แบบลึกเชิงพื้นที่และเวลาสำหรับการจดจำคำพูดด้วยภาพ.  ปริญญาโท(วิทยาการคอมพิวเตอร์).  มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ. สำนักหอสมุดกลาง. : มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ, 2567.

Title

การพัฒนาแบบจำลองเรียนรู้แบบลึกเชิงพื้นที่และเวลาสำหรับการจดจำคำพูดด้วยภาพ

Title Alternative

Development of Spatio-temporal deep learning model for visual speech recognition

Creator

Name: ธีรพงศ์ งามพร้อมวงษ์

Subject

keyword: Convolutional Neural Networks.

ThaSH: การเรียนรู้เชิงลึก (การเรียนรู้ของเครื่อง)

; Recurrent Neural Network.

ThaSH: การรู้จำใบหน้ามนุษย์ (วิทยาการคอมพิวเตอร์)

; Attention Mechanisms.

ThaSH: การรู้จำภาพ

ThaSH: การประมวลผลภาพ

ThaSH: การอ่านริมฝีปาก -- การจำลองระบบ

Description

Abstract: การอ่านริมฝีปาก (lipreading) มุ่งเน้นการพัฒนาแบบจำลองที่มีประสิทธิภาพในการถอดรหัสคำพูดจากภาพการเคลื่อนไหวของริมฝีปาก ถึงแม้จะมีความก้าวหน้าอย่างต่อเนื่อง แต่ยังคงมีความท้าทายที่สำคัญ 2 ประการ คือ 1) ความซับซ้อนของแบบจำลอง (Model Complexity) แบบจำลองที่ซับซ้อนมักถูกสร้างขึ้นโดยมีจุดมุ่งหมายเพื่อเพิ่มความแม่นยำในการอ่านริมฝีปาก แต่ก็มีข้อเสียคือต้องใช้ทรัพยากรในการประมวลผลสูง ทำให้ไม่เหมาะสำหรับการใช้งานใน อุปกรณ์พกพาหรือระบบที่มีข้อจำกัดด้านทรัพยากร 2) ความคล้ายคลึงในการขยับริมฝีปาก (Lip movement homophones) คำหลายคำมีการออกเสียงที่ใกล้เคียงกัน ทำให้ริมฝีปากขยับในลักษณะที่คล้ายคลึงกันมาก ตัวอย่างเช่น คำว่า "million" และ "millions" ซึ่งแบบจำลองต้องพยายามแยกแยะความแตกต่างจากข้อมูลภาพเพียงอย่างเดียว เพื่อแก้ไขปัญหาเหล่านี้ งานวิจัยนี้จึงมุ่งเน้นไปที่การพัฒนาแบบจำลองที่ไม่ซับซ้อนแต่ยังคงมีความแม่นยำสูงและสามารถแยกแยะความแตกต่างของการเคลื่อนไหวริมฝีปากที่มีความคล้ายคลึงกันได้โดยใช้เทคนิคการเรียนรู้เชิงลึกแบบผสมผสานประกอบ CNN, RNN และ Attention เพื่อให้การอ่านริมฝีปากมีความสามารถนำไปใช้ทำงานได้ในสถานการณ์จริงและมีประสิทธิภาพมากยิ่งขึ้น

Abstract: Lipreading focuses on developing efﬁcient models to decode spoken words from the motion of the lips. Despite continuous advancements, there remain two signiﬁcant challenges: Model Complexity and Lip Movement Homophones. Complex models are often designed with the aim of increasing lipreading accuracy; however, this complexity comes at the cost of high computational resource requirements, rendering them unsuitable for use in portable devices or resource-constrained systems. Additionally, many words exhibit similar pronunciations, leading to lip movements that closely resemble one another; for instance, the words "million" and "millions" demonstrate such similarities, necessitating that models discern differences based solely on visual data. To address these issues, this research focuses on developing a streamlined yet highly accurate model capable of distinguishing between lip movements that closely resemble one another. This is achieved through the use of a hybrid deep learning approach that integrates Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), and Attention mechanisms, with the aim of enhancing the applicability and efﬁciency of lipreading in real-world scenarios.

Publisher

มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ. สำนักหอสมุดกลาง

Address: กรุงเทพมหานคร

Email: library@kmutnb.ac.th

Contributor

Name: ลือพล พิพานเมฆาภรณ์

Role: ที่ปรึกษาวิทยานิพนธ์

Email : luepol.p@sci.kmutnb.ac.th

Date

Created: 2567

Modified: 2568-12-01

Issued: 2568-12-01

Type

วิทยานิพนธ์/Thesis

Format

application/pdf

Language

tha

Thesis

DegreeName: วิทยาศาสตร์มหาบัณฑิต

Level: ปริญญาโท

Descipline: วิทยาการคอมพิวเตอร์

Grantor: มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ

Rights

RightsAccess:

ลำดับที่.	ชื่อแฟ้มข้อมูล	ขนาดแฟ้มข้อมูล	จำนวนเข้าถึง	วัน-เวลาเข้าถึงล่าสุด
1	B17723383.pdf	3.48 MB

ใช้เวลา

0.02537 วินาที

Creator : ธีรพงศ์ งามพร้อมวงษ์

Title	Contributor	Type
การพัฒนาแบบจำลองเรียนรู้แบบลึกเชิงพื้นที่และเวลาสำหรับการจดจำคำพูดด้วยภาพ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ธีรพงศ์ งามพร้อมวงษ์	ลือพล พิพานเมฆาภรณ์	วิทยานิพนธ์/Thesis

Contributor : ลือพล พิพานเมฆาภรณ์

Title	Creator	Type and Date Create
การออกแบบชุดรหัสคำแบบกระชับสำหรับอีซีโอซี มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	มงคล เอียดอ้น	วิทยานิพนธ์/Thesis
การทำเหมืองข้อมูลของเส้นวิถีการโคจรจากข้อมูลระบบวีเอ็มเอสเพื่อระบุประเภทเครื่องมือทำการประมงโดยอัตโนมัติ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	สาธร พรสุพิกุล	วิทยานิพนธ์/Thesis
การสร้างแบบจำลองโปรไฟล์ผู้ใช้ซึ่งมาจากหัวเรื่องสำหรับการแนะนำสถานที่เฉพาะบุคคล มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	พัสกร คันธาอาภา	วิทยานิพนธ์/Thesis
การตรวจจับพฤติกรรมความรุนแรงในวิดีโอ โดยใช้โครงข่ายประสาทเทียมเชิงลึก มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	เอกนรินทร์ ดิษฐ์สันเทียะ	วิทยานิพนธ์/Thesis
การเรียนรู้เชิงลึกสำหรับการติดต่อกันโดยตรงระหว่างสมองกับคอมพิวเตอร์ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	ปิยะวัฒน์ แสงเพชร	วิทยานิพนธ์/Thesis
การพัฒนาแบบจำลองเรียนรู้แบบลึกเชิงพื้นที่และเวลาสำหรับการจดจำคำพูดด้วยภาพ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	ธีรพงศ์ งามพร้อมวงษ์	วิทยานิพนธ์/Thesis
การลบภาพวัตถุสำหรับระบบจัดทำแผนที่ชนิดเคลื่อนที่โดยใช้โครงข่ายเจเนอเรทีฟแอดเวอเซอเรียล มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ ลือพล พิพานเมฆาภรณ์	อาซีซ่าร์ ลอดิง	วิทยานิพนธ์/Thesis