最新发布!查看 MagicData 成品数据集

新闻

press images

数据开源 | Magic Data中英文座舱功能点泛化语料

发布时间 : 2022-11-10     阅读量 : 59

在智能座舱中,人机交互是智能座舱与车内人员关联的桥梁,其中的人机交互技术主要涉及语音交互、文本交互。我们在舱内所说的内容,会由交互系统转换成语义文字,然后经过后台算法的决策,给出合理的反馈信息,最终系统才能听懂我们的表达,做出相应指令动作。让我们来看看智能座舱中功能点泛化语料相关的技术应用。

人机交互的核心

人机交互的核心就是自然语言处理(NLP),也就是车载处理器可以理解人类的语言(NLU),并且生成合理的反馈信息(NLG)。

人与汽车最基础的交互就是指令词的使用,但“打开窗户”这一句简单的命令,根据每个人的说话习惯不同,同样的指令可能会有几十甚至几百种表达方式。

如“请打开车窗”、“帮我打开车窗一下”、“开一下窗”、“窗户开开”。可能还会包含方言,如“帮俺打开车窗”、“给俺开下窗户”、“把窗户给俺弄开”。此外也会有中英文混合、以及全英文的情况“帮我Open一下Window啦”、“Open the window please”。语音识别系统需要识别所有的可能性,才能更好的对应到舱内相应的指令,完成指定操作。完整的自然语言人机交互的流程图,如下所示:

上面车载交互中对于天气的询问属于自然语言技术支撑的搜索引擎,能够在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,在两者之间建立起更高效、更深层的信息传递。目前,上述技术主流方法都是基于复杂的神经网络模型,因此需要大量与场景匹配的语音、文本语料库进行训练,以支持大体量数据的学习,从而得到更好的效果。

舱内泛化语料稀缺

智能座舱能够直观地提升视听娱乐和人机交互体验,个性化、定制化的座舱配置和功能将成为车企的特色,提升品牌和车型认知度。因此,智能座舱成为各大整车厂商及零部件供应商的布局重点。但是由于人机交互的深度学习算法,依赖大量的数据训练,而高质量数据的缺乏,是导致目前车载交互成本较高、准确率低的重要原因之一。

由于车载场景的特殊性,导致车载场景的NLP数据非常稀缺,也是目前车载场景交互技术的壁垒。针对目前各智能交互系统普遍存在的冷启动无数据可用、产品车机交互功能覆盖不足、长尾命令识别性能较差等痛点。Magic Data构建了本中文和英文座舱功能点泛化数据集。共有语料90,000+条,其中中文70,000+ 英文20,000+。同步持续更新,确保时效性。

Magic Data数据开源:中英文座舱功能点泛化语料库

Magic Data拥有中文和英文座舱功能点泛化语料库90,000+条,本次开源1000+语料,涉及常见的车载场景的指令词,非常适合车载场景交互的研究与落地。

开源的数据集包含众多舱内功能点,包含了车内外常用部件的关闭与打开等意图。如打开蓝牙、关闭车窗、调节摄像头角度、调节方向盘、通话音量、打开远光灯等等。句式多样性丰富,同时对功能点的多样性表达进行泛化。这些泛化的命令文本具有较强的适用性,对传统车企及新势力车企的部件功能均兼容。

中文座舱功能点泛化语料库

该开源数据集包含500句中文座舱功能点泛化语料,涵盖10种车载命令控制功能,每个功能相关含10-100种通用语料。

如开启车道保持、开启遮阳帘、打开远光灯、打开蓝牙、打开WiFi、启动ESP等等。句式多样性丰富,在语句结构上充分考虑了动词、实体词、句式及其组合,同时对功能点的多样性表达进行泛化,如车身稳定系统=ESP,延时摄像=缩时录像。在泛化部件功能时文本有预留Slot,涉及槽位有Position、Fraction、Percent等,如position=[前,后,左,右,中,左后方,全部]等。

英文座舱功能点泛化语料库

该开源数据集包含500句英文座舱功能点泛化语料,由具有驾驶经验的以欧洲和美国英语为母语的人提供。涵盖3个领域的16种车载命令控制功能,每个功能相关含2-100种通用语料。

如打开蓝牙Activate Bluetooth、车窗打开百分比Set the window down to a quarter、调大通话音量Turn up the call volume by a notch、打开远光灯Turn on high beam light等等。句式多样性丰富,在语句结构上充分考虑了动词、实体词、句式及其组合,同时对功能点的多样性表达进行泛化,如Panoramic Camera=Omnidirectional Camera=Full View Camera。在泛化部件功能时文本有预留Slot,涉及槽位有Position、Fraction、Percent等,如Position=[Front, Real, Driver, Pilot, Rear Left, Real Right, Left, All]。

海量数据的开源是众多科研工作者的诉求,Magic Data希望通过开源数据激发技术的革新,促进行业进步。

欢迎访问 MagicHub 开源社区:https://magichub.com/

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们