แจ้งเอกสารไม่ครบถ้วน, ไม่ตรงกับชื่อเรื่อง หรือมีข้อผิดพลาดเกี่ยวกับเอกสาร ติดต่อที่นี่ ==>
หากไม่มีอีเมลผู้รับให้กรอก thailis-noc@uni.net.th ติดต่อเจ้าหน้าที่เจ้าของเอกสาร กรณีเอกสารไม่ครบหรือไม่ตรง

Spectral and latent representation distortion for TTS evaluation
การใช้คุณสมบัติทางสเปคตรัลกับคุณลักษณะซ่อนสำหรับการประเมินระบบสังเคราะห์เสียงพูด

Abstract: One of the main problems in the development of text-to-speech (TTS) systems is its reliance on subjective measures, typically the Mean Opinion Score (MOS). MOS requires a large number of people to reliably rate each utterance, making the development process slow and expensive. Recent research on speech quality assessment tends to focus on training models to estimate MOS, which requires a large number of training data, something that might not be available in low-resource languages. We propose an objective assessment metric based on the DTW distance using the spectrogram and the high-level features from an Automatic Speech Recognition (ASR) model to cover both acoustic and linguistic information. Experiments on Thai TTS and the Blizzard Challenge datasets show that our method outperformed other baselines in both utterance- and system-level by a large margin in terms of correlation coefficients. Our metric also outperformed the best baseline by 9.58% when used in head-to-head utterance-level comparisons. Ablation studies suggest that the middle layers of the ASR model are most suitable for TTS evaluation when used in conjunction with spectral features.
Abstract: ปัญหาหลักประการหนึ่งในการพัฒนาระบบแปลงข้อความเป็นเสียงพูด (TTS) คือการวัดนิยมใช้การวัดเชิงอัตวิสัยอย่าง Mean Opinion Score (MOS) ซึ่งต้องใช้คนจำนวนมากในการให้คะแนนเสียงพูดแต่ละเสียงเพื่อความน่าเชื่อถือ ทำให้กระบวนการพัฒนาช้าและมีค่าใช้จ่ายสูง งานวิจัยล่าสุดเกี่ยวกับการประเมินคุณภาพเสียงพูดมีแนวโน้มที่จะมุ่งเน้นไปที่ใช้สร้างโมเดลมาประเมิน MOS ซึ่งต้องใช้ข้อมูลการฝึกฝนจำนวนมาก ซึ่งข้อมูลเหล่านี้อาจไม่มีให้ใช้งานในภาษาที่ใช้ทรัพยากรต่ำ งานนี้จึงนำเสนอการประเมินเชิงวัตถุประสงค์แบบ DTW โดยใช้สเปกโตรแกรมและคุณสมบัติระดับสูงจากแบบจำลองการรู้จำเสียงอัตโนมัติ (ASR) เพื่อให้ครอบคลุมทั้งข้อมูลเสียงและภาษาศาสตร์ การทดลองบนชุดข้อมูล Thai TTS และ Blizzard Challenge แสดงให้เห็นว่าวิธีการที่นำเสนอมีประสิทธิภาพเหนือกว่าวิธีการวัดอื่นๆ ที่นำมาเป็นบรรทัดฐาน ทั้งในระดับประโยคและระดับระบบในแง่ของค่าสัมประสิทธิ์สหสัมพันธ์ เมตริกของเรายังทำได้ดีกว่าบรรทัดฐานที่ดีที่สุด 9.58% เมื่อใช้ในการเปรียบเทียบระดับประโยคแบบตัวต่อตัว จากการศึกษาเพิ่มเติมแนะนำว่าชั้นกลางของแบบจำลอง ASR เหมาะสมที่สุดสำหรับการประเมิน TTS เมื่อใช้ร่วมกับคุณลัก
Chulalongkorn University. Office of Academic Resources
Address: BANGKOK
Email: cuir@car.chula.ac.th
Role: advisor
Role: co-advisor
Created: 2021
Modified: 2024-01-04
Issued: 2024-01-04
วิทยานิพนธ์/Thesis
application/pdf
eng
©copyrights Chulalongkorn University
RightsAccess:
ลำดับที่.ชื่อแฟ้มข้อมูล ขนาดแฟ้มข้อมูลจำนวนเข้าถึง วัน-เวลาเข้าถึงล่าสุด
1 6370120621[1].pdf 511.19 KB
ใช้เวลา
0.02982 วินาที

Thananchai Kongthaworn
Title Contributor Type
Spectral and latent representation distortion for TTS evaluation
จุฬาลงกรณ์มหาวิทยาลัย
Thananchai Kongthaworn
Ekapol Chuangsuwanich
Atiwong Suchato
วิทยานิพนธ์/Thesis
Ekapol Chuangsuwanich
Title Creator Type and Date Create
Lithological Classification By Deep Learning Algorithm
จุฬาลงกรณ์มหาวิทยาลัย
Waruntorn Kantipanyacharoen;Ekapol Chuangsuwanich
Worapop Thongsame
วิทยานิพนธ์/Thesis
A generative adversarial network for generating realistic users using embedding from recommendation systems
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich
Parichat Chonwiharnphan
วิทยานิพนธ์/Thesis
Knowing when not to answer: positional peptide sequencing with encoder-decoder networks
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Sira Sriswasdi
Korrawe Karunratanakul
วิทยานิพนธ์/Thesis
Semi-supervised deep learning with malignet for bone lesion instance segmentation using bone scintigraphy
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Yothin Rakvongthai
Terapap Apiparakoon
วิทยานิพนธ์/Thesis
Deep sequential real estate recommendation approach for solving item cold start problem
จุฬาลงกรณ์มหาวิทยาลัย
Proadpran Punyabukkana;Ekapol Chuangsuwanich
Jirut Polohakul
วิทยานิพนธ์/Thesis
Redesigning weakly supervised localization architectures for medical images
จุฬาลงกรณ์มหาวิทยาลัย
;Boonserm Kijsirikul;Ekapol Chuangsuwanich;Sira Sriswasdi
Konpat Preechakul
วิทยานิพนธ์/Thesis
Accurate surface ultraviolet radiation forecasting for clinical applications with deep neural network
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Sira Sriswasdi
Raksit Raksasat
วิทยานิพนธ์/Thesis
Spectral and latent representation distortion for TTS evaluation
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Atiwong Suchato
Thananchai Kongthaworn
วิทยานิพนธ์/Thesis
Automatic cardioembolic stroke prediction using clinical features and non-contrast CT images
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Proadpran Punyabukkana
Pasit Jakkrawankul
วิทยานิพนธ์/Thesis
Adaptive image preprocessing and augmentation for disease screening on multi-source chest x-ray datasets
จุฬาลงกรณ์มหาวิทยาลัย
Proadpran Punyabukkana;Ekapol Chuangsuwanich
Wasunan Chokchaithanakul
วิทยานิพนธ์/Thesis
Incorporating context into non-autoregressive model using contextualized CTC for sequence labelling
จุฬาลงกรณ์มหาวิทยาลัย
Atiwong Suchato;Ekapol Chuangsuwanich
Burin Naowarat
วิทยานิพนธ์/Thesis
ReCasNet: reducing mismatch within the two-stage mitosis detection framework
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich
Chawan Piansaddhayanon
วิทยานิพนธ์/Thesis
A Comparative Study on Out of Scope Detection for Chest X-ray Images
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Proadpran Punyabukkana
Nuttapol Kamolkunasiri
วิทยานิพนธ์/Thesis
Radiomics-based prediction of radiation-induced hypothyroidism in nasopharyngeal cancer patients
จุฬาลงกรณ์มหาวิทยาลัย
Yothin Rakvongthai;Ekapol Chuangsuwanich
Napat Ritlumlert
วิทยานิพนธ์/Thesis
Article feed recommendation for Thai social network application using article context based on deep learning
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich
Pannawit Athipatcharawat
วิทยานิพนธ์/Thesis
Atiwong Suchato
Title Creator Type and Date Create
USING SOUND TO DESCRIBE SCENES WITH STILL AND MOVING OBSTACLES
จุฬาลงกรณ์มหาวิทยาลัย
Proadpran Punyabukkana;Atiwong Suchato
Kawin Metsiritrakul
วิทยานิพนธ์/Thesis
A real estate valuation model using boosted feature selection
จุฬาลงกรณ์มหาวิทยาลัย
Proadpran Punyabukkana;Atiwong Suchato
Kankawee Chanasit
วิทยานิพนธ์/Thesis
Spectral and latent representation distortion for TTS evaluation
จุฬาลงกรณ์มหาวิทยาลัย
Ekapol Chuangsuwanich;Atiwong Suchato
Thananchai Kongthaworn
วิทยานิพนธ์/Thesis
Data augmentation for Thai natural language processing using different tokenization
จุฬาลงกรณ์มหาวิทยาลัย
Atiwong Suchato
Patawee Prakrankamanant
วิทยานิพนธ์/Thesis
Incorporating context into non-autoregressive model using contextualized CTC for sequence labelling
จุฬาลงกรณ์มหาวิทยาลัย
Atiwong Suchato;Ekapol Chuangsuwanich
Burin Naowarat
วิทยานิพนธ์/Thesis
Copyright 2000 - 2026 ThaiLIS Digital Collection Working Group. All rights reserved.
ThaiLIS is Thailand Library Integrated System
สนับสนุนโดย สำนักงานบริหารเทคโนโลยีสารสนเทศเพื่อพัฒนาการศึกษา
กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม
328 ถ.ศรีอยุธยา แขวง ทุ่งพญาไท เขต ราชเทวี กรุงเทพ 10400 โทร. โทร. 02-232-4000
กำลัง ออน์ไลน์
ภายในเครือข่าย ThaiLIS จำนวน 19
ภายนอกเครือข่าย ThaiLIS จำนวน 1,843
รวม 1,862 คน

More info..
นอก ThaiLIS = 60,397 ครั้ง
มหาวิทยาลัยราชภัฏ = 56 ครั้ง
มหาวิทยาลัยสังกัดทบวงเดิม = 52 ครั้ง
มหาวิทยาลัยเทคโนโลยีราชมงคล = 10 ครั้ง
มหาวิทยาลัยสงฆ์ = 1 ครั้ง
หน่วยงานอื่น = 1 ครั้ง
รวม 60,517 ครั้ง
Database server :
Version 2.5 Last update 1-06-2018
Power By SUSE PHP MySQL IndexData Mambo Bootstrap
มีปัญหาในการใช้งานติดต่อผ่านระบบ UniNetHelp


Server : 8.199.134
Client : Not ThaiLIS Member
From IP : 216.73.216.87