最新发布!查看 MagicData 成品数据集

新闻

press images

行业洞察 | 智能家居,引领你的精致女王生活

发布时间 : 2022-06-14     阅读量 : 400

“Hello 小瓜,请播放一首莫扎特的小星星变奏曲。”

“Hi 米亚,请把空调温度调到23度。”

“小爱同学,请打开扫地机器人。”

“小度小度,请打开热水器。”

...

以前的传统机器都需要手动打开才能进行各种指令,现在都已被智能家居设备所取代,智能家居设备让每个人拥有成为“精致女王”的权力。

智能家居场景主要包含智能窗帘、智能冰箱、智能洗衣机、智能扫地机器人、智能油烟机、智能视频监控、智能音箱、智能空调等,各式各样需要手控的设备都可以通过声控来代替。它是以住宅为平台,基于物联网技术、软件系统、云计算平台构成的家居生态圈,并通过数据收集、分析用户行为数据,为用户提供个性化服务。

目前,智能家居正迈入“全屋智能化”的时代,对话式AI是智能家居语音交互能力的集中体现,对话式语音技术一直是智能家居领域的核心技术。在对话智能家居设备中,智能语音技术主要应用于人与设备之间的对话交互,由声纹识别(SR)、语音识别(ASR)和语音合成(TTS)组成。从工作流程来看,用户真人的语音会先通过SR(声纹识别)、ASR(语音识别)技术将其身份和内容转化为文本,再接入NLU(自然语言理解)进一步理解用户意图。因此,语音识别准确率至关重要,决定后续自然语言理解效果。同时语音合成决定着用户接收信息的体验,因此清晰、有逻辑、拟人化的语音合成至关重要。

智能家居设备的使用中,对话式语音处理的挑战主要在于复杂的家居环境噪声、方言和成员年龄多样化问题以及远场语音识别的困难。

复杂的家居环境噪声

家居环境通常会存在多人说话的声学场景,此时唤醒智能家居设备执行任务,需要智能家居设备从众多声音中拾取指令信息,并自动过滤掉其他人声、噪声。当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这是语音识别领域经典的“鸡尾酒会问题”。此外,家居环境特有的噪声环境,开门声、混响、空调噪声、宠物噪声等,都会导致说话人身份识别和语音识别的准确度下降。

方言和成员年龄多样化

智能家居的产品是面对全国甚至全球的用户市场。中国幅员辽阔使得我国方言众多,如何让不同地域用户能够自如的与智能家居设备交互,就需要解决方言导致的说话人和语音识别不准确问题。同时,家庭环境一般包括儿童、成人和老人,年龄跨度较大,年龄也会影响音色。儿童和老人可能口齿不伶俐,给智能家居设备的语音识别带来很多困难。

远场语音识别

智能家居设备在室内放置时,由于房间布局或放置位置不同,会带来设备拾取的语音混响严重、噪声较多的情况。这种远场语音识别相比于近距离的语音识别,房间混响会造成麦克风接收到的信号有很长的拖尾,让人听起来感觉发闷。而在实际生活中,人耳具有自动解混响的能力,所以人在室内交流中并不会受到影响,反而觉得声音饱满,但是这对于语音识别来说却是致命的。主要由于房间的冲击响应太长,一般有400ms-1000ms,而语音识别一帧的长度只有50ms,即便神经网络模型有记忆能力,但也有限,所以混响中的语音识别率有所降低。

面对上述各种问题,很大程度上是由于数据多样性不够,覆盖场景不全面导致的。一方面,可以用算法增强的方法对远场语音去噪、去混响、增强远场拾音;另一方面,应该覆盖更加全面的语音场景噪声、增加语音音色多样性、增加方言口音。数据全面覆盖是解决问题的关键。

远场拾音增强

对于远场语音首先用语音增强的方法,对混响去除,用波束形成的方法增强多麦阵列麦克风信号成一路信号。减少非平稳噪声干扰和房间混响,提升识别的性能。但是,前端增强信号处理算法与后端语音识别算法结合较难。分成两个模块优化会导致局部最优问题,联合优化是趋势。增强算法研究仍然离不开家居环境中对话数据的支撑,Magic Data 所提供的高质量对话式AI语音数据,就能够帮助算法工程师解决该问题。

多种场景数据覆盖

面对家居环境的复杂多变性,覆盖不同语种、方言、年龄、以及真实的家居噪声的数据库,才是提升智能家居设备识别性能的关键。这些数据的多样性、繁冗性需要耗费大量的人力、物力、财力去录制、标注和处理。科研人员只有使用高质量的数据提升效率和准确度,才能够将更多的时间放在算法研究上。目前,Magic Data 拥有各种对话式AI语音数据库,其中包括多语种、多方言等各种场景的对话语音数据库。样例如下:

命令控制数据集https://www.magicdatatech.cn/datasets/mdt-asr-f055-mandarin-chinese-scripted-speech-corpus-1631603649

天津话对话音频数据集https://www.magicdatatech.cn/datasets/mdt-asr-f054-tianjin-dialect-conversational-speech-corpus-1631600301

家居噪音音频数据集https://www.magicdatatech.cn/datasets/mdt-asr-b007-a3-residential-noise-dataset-computer-1640687567

深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。而智能家居要想为“精致女王”提供更高质量的服务,关键还需要家居场景对话式数据的支撑。

更多MD数据集欢迎访问:https://www.magicdatatech.cn/datasets

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们