最新发布!查看 MagicData 成品数据集

新闻

press images

企业布局AI客服 如何选择高质量训练数据?

发布时间 : 2020-11-09     阅读量 : 565

相信很多人都接打过AI客服电话,大家心里多少有点不适应,一方面思维惯性,希望对方是真人才体现对我们的重视;另一方面AI客服很难解决我们的问题,最后多数都要转人工服务。事实上,AI客服正在帮助越来越多企业完成相应工作。

AI客服将成企业未来布局方向

AI客服当前水平一如1997年前后的互联网,尚处在萌芽期,无论用户对它的接受程度还是服务能力都处在较低水平。但能想象到的是,AI客服包括更广泛的人机对话技术不断发展,一定程度上减轻了传统客服中心一线员工工作负担,减少用户等待应答,从而实现企业降本增效。

根据2018年5月发布的《中国智能客服行业研究报告》显示,机器人客服正在以40%~50%的比例替代人工客服的工作。另根据权威顾问公司Gartner研究,截止到2020年,280万美国客服中,超过85%客户互动将会在没有人工坐席的情况下处理。

当下AI客服的痛点与难点

在这个节点,无论对于企业还是AI客服的研发者来说,他们不得不面临诸多亟待解决的问题。AI客服要想无限接近人工水平,那就要思考AI客服将面对哪些实际环境和技术瓶颈。实际工作环境将给语音识别技术带来巨大挑战,比如复杂的噪音、声源的远近、口音、方言等。

此外,对于AI客服来说,较短的口语识别是一个难点,特别缺少上下文信息时,语音识别很难确定发的音和对应的字之间关系,比如:“yan jiu”,在不同语境下可能是“研究”,也可能是“烟酒”。人与人对话行为模型非常复杂,在对话信息中有时没有逻辑,会省略很多词,发音含糊甚至夹杂俚语、外语等,这为AI客服进行语音理解造成很大困难。如果这些问题不能得到有效解决,企业搭建AI客服将面临转化率低、呼入服务应答转人工率高、成本与效果性价比低、对话灵活度不够等系列难题。

提升AI客服语音识别率,深度神经网络等算法外很大程度上要依赖大量数据集训练。但并不是所有数据都能用于AI训练,目前训练AI主要是监督式学习,它需要从标注后的数据中提取信息,如果信息标签质量不合格,数据匹配度不高,难以训练出高性能的AI模型。所以,数据将决定机器学习的上限。

Magic Data官网上线多场景语音数据

在帮助企业训练AI客服或商用机器人等人工智能模型上,Magic Data官网近期新增大量适用于语音识别和语音合成领域的方言及外语数据集,包括上海、四川、广东、郑州、武汉、湖南、山西等地方言,以及泰语、西班牙语、印尼语等外语,覆盖不同年龄性别的人群和场景的数据集。

Magic Data方言数据集

对于训练AI模型的研发人员来说,AI将面对不同地域用户,要具备识别方言或者重口音的能力,那么就需要用匹配性的方言数据来训练模型,比如Magic Data推出的用于客服、消费机器人等领域方言数据集。

Magic Data语音合成数据集

理想的情况下,AI客服与用户对话时能够理解上下文并给出恰当回答,甚至语气带有感情色彩。对于AI研发人员来说,AI客服如果缺乏真实度较高的对话数据训练,在对话场景下将力不从心。这时候我们推荐您TTS数据集训练AI客服。

Magic Data各国语言语音识别数据集

互联网技术的发展,企业跨国业务增多,人工智能语音翻译交互系统可用于解决不同国家语言不通问题,让跨语言高效沟通成为可能。对AI科研人员来说,提高人工智能理解语言的准确度,要求AI模型使用针对语种下大量语音训练数据集。

人工智能正在服务诸多生活工作场景,随着5G和物联网等技术的发展,无人驾驶、AI客服、智能家居等大量出现在我们日常生活中,这些场景的实现有赖于它们背后大量高质量的语音等数据支撑。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们