[发明专利] 语音场景篡改鉴别的方法、装置、电子设备及存储介质 – CN114155875B 全文链接一   全文链接二

 
基本信息
申请号
CN202210120276.8
申请日
20220209
公开(公告)号
CN114155875B
公开(公告)日
20220308
申请(专利权)人
中国科学院自动化研究所
申请人地址
100190 北京市海淀区中关村东路95号
发明人
陶建华;王成龙;易江燕 专利类型 发明专利
摘要
本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。
主权项
1.一种语音场景篡改鉴别的方法,其特征在于,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,其中,所述提取输入的待鉴别音频的对数功率谱的声学特征,包括:对待鉴别音频信号的时域波形图进行短时傅里叶变换,得到变换后的复数矩阵;根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征,其中,所述复数矩阵包括实部矩阵和虚部矩阵,根据变换后的复数矩阵生成二维像素矩阵,作为对数功率谱的声学特征,包括:调整实部矩阵和虚部矩阵的横坐标和纵坐标,使得实部矩阵和虚部矩阵的横坐标和纵坐标的最值均相同;将调整后的实部矩阵和虚部矩阵拼接为二维像素矩阵,以作为双通道矩阵输入预先训练的语音场景篡改识别模型。

 

 
IPC信息
IPC主分类号
G10L25/30
G 物理

G10 乐器;声学

G10L 语言分析或合成;语言识别

 

 
法律状态信息
法律状态公告日
20220308
法律状态
公开 法律状态信息
CN202210120276 20220308 公开 公开

 

 
代理信息
代理机构名称
北京华夏泰和知识产权代理有限公司 11662
代理人姓名
李永叶