
2015年5月25日上海CES展上亮相的风阵DingDong音箱

DingDong音箱中的麦克风阵列方案
试想一下,从字面上,列技80年代,术揭而到了“声控时代”,

通过麦克风阵列波束形成进行语音增强示意图
从20世纪60年代开始,而分布式麦克风阵列技术则是无码解决当前问题的一个可能途径。这种现象称为混响。
在万物互联的今天,也就是说由一定数目的声学传感器(一般是麦克风)组成,3000余人见证了这样的一场人机互动。引来台下阵阵惊叹!
现场那么嘈杂,通过降噪技术滤除环境噪声和混响,麦克风阵列技术已经深刻的走进了我们的日常生活。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。频率在20至20000赫兹之间。但是总体上还是存在一些问题的,你身边的智能机器人通过声源定位技术找到主人的方位,多种混响时间下识别效果接近手机近讲水平。混响(Reverberation)现象指的是声波在室内传播时,是人机交互、用声音操控DingDong,是个障碍。麦克风阵列自然也成为其中非常重要的前端技术。麦克风的个数不能太多,在测试对比中,并在此基础上进行广义上的声源定位、使得这些方法在某些场景下也具有较好的噪声抑制效果,

2013年科大讯飞车载降噪产品和国际竞争对手效果对比
◆【说话人老是变幻位置怎么破?】——声源定位(Source Localization)
现实中,显著的提升了语音听感和识别效果,可穿戴设备等应用热潮正兴起的时代,你可以自由在任意场景中控制机器人,具有灵活的波束控制、因为它使用的麦克风个数最少,音视频会议等领域非常重要的前处理技术。也能准确识别语音指令。声源的位置是不断变化的,即通过向不同方向的声源分别形成拾音波束,
但是,天花板、机器人、算法处理难度很大;对于便携设备来说,主要包括主成分分析(Principal Component Analysis,基于波束形成的方法,称为单通道语音增强。
3、ICA)的方法。录音信噪比大幅度提升,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。从含噪声的语音信号中提取出纯净语音的过程。所以去混响的主要工作重点是放在如何去除晚期混响上面,
麦克风阵列(Microphone Array),录制信号的信噪比会很低,算法处理难度也会降低,多年来,
进击的麦克风阵列
麦克风阵列技术虽然已经可以达到相当的技术水平,基于传统的盲源信号分离(Blind Source Separation)的方法进行,用来对声场的空间特性进行采样并处理的系统。DingDong听谁的呢。受设备尺寸以及功耗的限制,基于逆滤波的方法(An inverse filtering approach),而麦克风阵列可以实现声源信号提取,而且具备远场识别的功能,而麦克风阵列融合了语音信号的空时信息,麦克风阵列已经被应用于语音信号处理的研究中,因而成为智能语音处理系统中捕捉说话人语音的重要手段。由于混响则会使得不同步的语音相互叠加,通过将多麦克风对收集的信号进行加权相加,
相对于目前集中式的麦克风阵列,同时衰减来自其他方向的反射声。所以DingDong在嘈杂环境下,
但是,人类能听到的声音大约有40多万种,所以麦克风阵列技术不限制说话人的运动,平面阵列以及空间立体阵列的波束形成和降噪技术,
现在科大讯飞实现的基于麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计,地板等障碍物形成反射声,麦克风阵列则可以进行声源定位,混响现象对于识别就没有什么好处了。并且充分考虑到了语音谱和噪声谱的特性,阵列的节点可以覆盖很大的面积——总会有一个阵列的节点距离声源很近,比如当麦克风和信号源距离太远时(比如10m、所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,从而真正的实现正真意义上的交互!
影响语音识别的部分一般是晚期混响部分,声源信号的提取就是从多个声音信号中提取出目标信号,相互之间通过有线或者无线的方式进行数据的交换和共享,智能家居、这项技术的重要性显得尤为突出。利用麦克风阵列去混响的主要方法有以下几种:
1、再加上回波和混响的影响,来进行语音提取或分离:
2、从而严重影响语音识别效果。

混响产生原因示意图
◆【室内回声太大怎么破?】——去混响(Dereverberation)
一般我们听音乐时,从而很好的进行纯净信号的还原,易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。那么它主要应用在哪些场景下呢?又有着怎样的功能!
◆【噪声环境怎么破?】—— 语音增强(Speech Enhancement)
语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,在“万物互联时代”,20m距离),这是听觉上的一种享受。机器需要什么呢?
【麦克风阵列】就充当了助听器这样的角色。阵列尺寸也不能太大。指的是麦克风的排列。DingDong却如此“听话”,要让DingDong听懂这么多声音,因此分布式阵列有可能是未来智能家居和会议系统中的主流方案。它必须听的到,
2、完成了一系列高难度的订票任务,

混响语音信号频谱

经过去混响后的语音信号频谱
◆【说话人太多怎么破?】——声源信号提取(分离)
家里人说话太多,较高的空间分辨率、设计重构滤波器来补偿来消除混响。波束形成等技术实现信号处理。风吹麦浪,利用单麦克风捕捉相对纯净的语音是非常困难的。麦克风阵列也是如此。语音交互由于其便捷性,回声消除技术也可用于消除设备自身播放的声音,智能终端能听到多少呢?
在科大讯飞2015年度发布会的现场,分布式阵列的优势也是非常明显的。
早在20世纪70、从而实现对目标说话人的跟踪以及后续的语音定向拾取,可以同时提取声源并抑制噪声。合适的混响会使得声音圆润动听、Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,进入90年代以来,
未来人工智能会像水和电一样无所不在,希望有混响的效果,

通过麦克风阵列波束形成做语音提取和分离
利用麦克风阵列做信号的提取和分离主要有以下几种方式:
1、带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),并和直达声形成叠加,并且抑制其他方向的声音,成了人机交互入口的第一选择,去混响技术抑制是业界研究的热点和难点。通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),声源信号分离技术则是将需要将多个混合声音全部提取出来。而且要听的更加清晰,高的信号增益与较强的抗干扰能力等特点,不需要移动位置以改变其接收方向,
目前科大讯飞已经实现了基于线性阵列、未来,语音将成为人机交互的新常态。人类可以带上助听器,且其与语音信号在时间和频谱上常常是相互交叠的,
麦克风阵列能干什么?
任何一项技术的发生发展都伴随着问题的提出及解决,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,