Abstract:
对基于神经网络的丢包隐藏方法而言,输入特征是直接影响最终恢复效果的重要因素.此外,如何通过丢包隐藏恢复高自然度的语音,也是亟待解决的难题.为有效恢复丢包语音并提高自然度,本文提出了一种基于先验梅尔谱和神经声码器的语音丢包隐藏方法.该方法采用一种非对称的编解码网络结构.在编码端,用两个独立的编码网络分别从时域波形和梅尔谱中提取深层时频特征.在解码端,将时频深层特征一同送入由时序自适应反归一化层构成的声码器中,以恢复丢失的语音信号并提高自然度.仿真实验表明,该方法在语音感知质量和短时客观可懂度上均优于现有的两种丢包隐藏算法.
Keyword:
Reprint Author's Address:
Email:
Source :
电子学报
ISSN: 0372-2112
Year: 2024
Issue: 8
Volume: 52
Page: 2581-2590
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 9
Affiliated Colleges: