最新发布!查看 MagicData 成品数据集

新闻

press images

客户案例|Magic Data助力新能源车企高效迭代智能座舱语音交互功能

发布时间 : 2023-02-23     阅读量 : 326

作为时下最热的赛道之一,新能源汽车制造业的“内卷”程度有目共睹。而电动化、智能化、网联化、自动化的“新四化”发展趋势,也正重新定位汽车行业的价值链。

本期客户就是国内高端智能电动汽车领航者之一,其愿景是将智能汽车打造为数智化第三空间。

客户需求背景

一直以来,智能驾舱都是客户公司“智行”战略重点方向之一,是客户产品的重要卖点。在接触Magic Data前,客户已有部分基础智能模型,秉承着更好服务车主的想法,客户希望借助Magic Data全链条数据服务,通过迭代当前基础模型和不断增加新功能,实现产品智能座舱差异化优势,打造市场领先产品。

其中,客户需求重点是针对自然对话场景迭代人机交互模型(特别是提高噪音环境下的识别),提高智能助手的语音识别、交互理解能力以及常见使用场景下的任务完成能力(对话场景下的具体任务,例如:订餐)。

客户痛点与挑战

受限于数据合规、语料不足等问题,客户座舱内语音助手模型迭代存在一些掣肘,如:

  • 缺乏可用的舱内对话数据:客户直接使用用户舱内数据可能存在合规风险,进而导致模型迭代进度滞后。
  • 缺乏对话数据中具体场景、领域对话数据:当前市面上,垂直领域对话数据稀缺,导致模型多轮对话训练难以正常进行。
  • 个性化控制命令泛化语料匮乏:对于舱内人机交互现有的,以及在使用中用户新产生的个性化指令与需求,需要有基于真实场景下的个性化定制数据供模型训练使用。

客户希望借助Magic Data的服务,使模型达到“无论用户有什么新的想法、需求,舱内智能助手都能够顺利识别用户意图并与之产生自然交互”的成熟状态。

Magic Data解决方案

Magic Data通过与客户多次深入沟通,分析客户的需求,针对客户痛点提供了成品数据集为主、定制化采标为辅助的整体解决方案:

  • 针对舱内人机交互不自然问题,Magic Data提供了大量基于模拟真实场景下的自然对话成品数据集,包括无噪音及带噪音模拟舱内对话数据,包含人们自然说话状态下可能包含的犹豫、迟疑等发音特点,帮助提升机器在自然对话场景下的语音识别准确率。
  • 针对智能助手完成功能型任务需求,Magic Data提供了各类领域相关对话数据,如旅游度假、数码产品、休闲娱乐、商业经济、家庭生活等领域的丰富多样的主题语料,帮助提高机器完成特定领域具体任务能力。
  • 针对命令控制的泛化需求,Magic Data在提供成品泛化库同时,提供了定制命令泛化服务。针对单个功能点,最多泛化语料高达400条,以覆盖用户可能使用的每个潜在短语,帮助机器准确捕捉用户意图。

(为了确保数据的高质量合规交付,Magic Data提供的成品数据集及定制采标数据都经由智能标注平台Annotator和文本泛化平台处理。)

方案中使用的部分Magic Data成品数据集

(点击可直接跳转)

ASR:

MDT-ASR-C001中文普通话朗读音频数据集–人机交互、命令控制

MDT-ASR-E056中文普通话对话音频数据集–自由对话

MDT-ASR-G022实验室级语音数据集–自由对话

NLP:

MDT-NLP-B002中文命名实体识别语料库–中文新闻命名实体

MDT-NLP-G030中文车载命令控制文本语料库–空调命令文本母句,含有槽位及槽值

MDT-NLP-G031中文车载命令控制文本语料库–座椅命令文本为母句数据,涉及到动词及句式的泛化,对功能(实体),连词及介词充分设计成槽位及槽值

TTS:

MDT-TTS-D003中文女声情感TTS数据集–亲切女生(中文、英文、中英混)

MDT-TTS-G005中文男声TTS多情感库–男中音(中文)

客户反馈

通过采用Magic Data整体数据解决方案,客户高效完成了其智能座舱人机交互系统迭代,智能语音识别模型性能有显著提升,特别是在自然对话交互中,字识别错误率下降了大约30%。对此,客户表示:”Magic Data的专业团队反馈高效,可以在最短时间内明确我们的需求并提供相应的整体解决方案,对于我们这类时间紧迫的项目有相当大的帮助”。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们