机器听觉组 – 上海交通大学类脑智能应用与技术中心

一、简介

机器听觉组研究复杂场景中前端语音信号处理技术和基于语音的人工智能技术，具体包括：声源定位和分离、语音增强、语音识别和说话人识别等内容。致力于研究远距离、多人声、混响等复杂环境下鲁棒的智能语音识别技术。

目前已建成了音频信号采集、评估和处理的全套设备系统，包括：面积约15m² 左右的全隔音听音室，用于录音及评估；麦克风、前置放大器、数据采集卡及扬声器，用于信号的采集；相关控制设备，如监听级耳机、高性能GPU集群，用于算法研究和仿真。

二、研究课题

噪声鲁棒性波束形成

研究目标

基于参数模型估计的低复杂度波束形成算法

核心创新

波束形成算法：不需要估计导向向量，使得算法更鲁棒

EM算法：在功率谱域估计模型参数，使得算法复杂度更低

智能语音交互系统

语音识别

$E:\百度云\个人计划&总结\类脑实验室\语音识别.png$

智能交互

$E:\百度云\个人计划&总结\类脑实验室\智能交互.png$

实现功能：

1、在含噪声情况下，可以实现2到3米距离精准识别唤醒词

2、在保证90%正确识别说话内容的同时，将系统反馈的延迟2秒左右

三、已完成科研项目

四、已有成果

1. 代表性论文

Wenbin Jiang, Peilin Liu, and Fei Wen. “An improved vector quantization method using deep neural network,” AEU-International Journal of Electronics and Communications, 72 (2017): 178–183.
Wenbin Jiang, Peilin Liu, and Fei Wen, “Speech magnitude spectrum reconstruction from MFCC using DNN,” Chinese Journal of Electronics, 27 (2018): 393–398.
Wenbin Jiang, Rendong Ying, Peilin Liu, “Speech reconstruction for MFCC-based low bit-rate speech coding,” 2014 IEEE International Conference on Multimedia and Expo Workshops, 2014: 1–6.
Jiang Sumxin, Rendong Yin, and Peilin Liu. “A memory efficient finite-state source coding algorithm for audio MDCT coefficients.” EURASIP Journal on Audio, Speech, and Music Processing 2014.1 (2014): 22.
Jiang Sumxin, Rendong Yin, and Peilin Liu. “Finite-state entropy-constrained vector quantiser for audio modified discrete cosine transform coefficients uniform quantisation.” IET Signal Processing 9.1 (2015): 30-36.
Jiang Sumxin, et al. “Compressive Sensing of Audio Signal via Structured Shrinkage Operators.” IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences 97.4 (2014): 923-930.
Jia Xiaoli, Jiang Xiaobo, Jiang Sumxin, Liu Peilin. A Reconstruction Algorithm for Speech Compressive Sensing Using Structural Features. Journal of Shanghai Jiao Tong University，2017,51(9):1111-1116.

2. 代表性专利