机器听觉组

一、简介

机器听觉组研究复杂场景中前端语音信号处理技术和基于语音的人工智能技术,具体包括:声源定位和分离、语音增强、语音识别和说话人识别等内容。致力于研究远距离、多人声、混响等复杂环境下鲁棒的智能语音识别技术。

目前已建成了音频信号采集、评估和处理的全套设备系统,包括:面积约15m2 左右的全隔音听音室,用于录音及评估;麦克风、前置放大器、数据采集卡及扬声器,用于信号的采集;相关控制设备,如监听级耳机、高性能GPU集群,用于算法研究和仿真。

IMG_0480

二、研究课题

噪声鲁棒性波束形成

研究目标

基于参数模型估计的低复杂度波束形成算法

核心创新

波束形成算法:不需要估计导向向量,使得算法更鲁棒

EM算法:在功率谱域估计模型参数,使得算法复杂度更低

智能语音交互系统

语音识别

E:\百度云\个人计划&总结\类脑实验室\语音识别.png

智能交互

E:\百度云\个人计划&总结\类脑实验室\智能交互.png

实现功能:

1、在含噪声情况下,可以实现2到3米距离精准识别唤醒词

2、在保证90%正确识别说话内容的同时,将系统反馈的延迟2秒左右

三、已完成科研项目

  • 基于冗余字典和感知研所的空间音频对象编码(国家自然科学基金委员会资助)
  • 超低码率语音编解码技术研究(国家某部委资助)
  • MIMO音频信号传感处理技术研究项目(华为公司资助)
  • 面向特定人的语音增强技术研究(中兴公司资助)

四、已有成果

1. 代表性论文

  • Wenbin Jiang, Peilin Liu, and Fei Wen. “An improved vector quantization method using deep neural network,” AEU-International Journal of Electronics and Communications, 72 (2017): 178–183.
  • Wenbin Jiang, Peilin Liu, and Fei Wen, “Speech magnitude spectrum reconstruction from MFCC using DNN,” Chinese Journal of Electronics, 27 (2018): 393–398.
  • Wenbin Jiang, Rendong Ying, Peilin Liu, “Speech reconstruction for MFCC-based low bit-rate speech coding,” 2014 IEEE International Conference on Multimedia and Expo Workshops, 2014: 1–6.
  • Jiang Sumxin, Rendong Yin, and Peilin Liu. “A memory efficient finite-state source coding algorithm for audio MDCT coefficients.” EURASIP Journal on Audio, Speech, and Music Processing 2014.1 (2014): 22.
  • Jiang Sumxin, Rendong Yin, and Peilin Liu. “Finite-state entropy-constrained vector quantiser for audio modified discrete cosine transform coefficients uniform quantisation.” IET Signal Processing 9.1 (2015): 30-36.
  • Jiang Sumxin, et al. “Compressive Sensing of Audio Signal via Structured Shrinkage Operators.” IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences 97.4 (2014): 923-930.
  • Jia Xiaoli, Jiang Xiaobo, Jiang Sumxin, Liu Peilin. A Reconstruction Algorithm for Speech Compressive Sensing Using Structural Features. Journal of Shanghai Jiao Tong University,2017,51(9):1111-1116.

2. 代表性专利

  • 一种采用深度神经网络的矢量量化器,专利号:CN201310224360.5
  • 一种极低码率语音编解码设备及编解码方法,专利号:CN201310732544.2
  • 基于深度神经网络的矢量量化系统及方法,专利号:CN201610466518.3
  • 一种基于压缩感知的音频信号采样和重建方法,专利号:CN2018102101096