企业布局AI客服如何选择高质量训练数据？

发布时间 : 2020-11-09 阅读量 : 4321

相信很多人都接打过AI客服电话，大家心里多少有点不适应，一方面思维惯性，希望对方是真人才体现对我们的重视；另一方面AI客服很难解决我们的问题，最后多数都要转人工服务。事实上，AI客服正在帮助越来越多企业完成相应工作。

AI客服将成企业未来布局方向

AI客服当前水平一如1997年前后的互联网，尚处在萌芽期，无论用户对它的接受程度还是服务能力都处在较低水平。但能想象到的是，AI客服包括更广泛的人机对话技术不断发展，一定程度上减轻了传统客服中心一线员工工作负担，减少用户等待应答，从而实现企业降本增效。

根据2018年5月发布的《中国智能客服行业研究报告》显示，机器人客服正在以40%~50%的比例替代人工客服的工作。另根据权威顾问公司Gartner研究，截止到2020年，280万美国客服中，超过85%客户互动将会在没有人工坐席的情况下处理。

当下AI客服的痛点与难点

在这个节点，无论对于企业还是AI客服的研发者来说，他们不得不面临诸多亟待解决的问题。AI客服要想无限接近人工水平，那就要思考AI客服将面对哪些实际环境和技术瓶颈。实际工作环境将给语音识别技术带来巨大挑战，比如复杂的噪音、声源的远近、口音、方言等。

此外，对于AI客服来说，较短的口语识别是一个难点，特别缺少上下文信息时，语音识别很难确定发的音和对应的字之间关系，比如：“yan jiu”，在不同语境下可能是“研究”，也可能是“烟酒”。人与人对话行为模型非常复杂，在对话信息中有时没有逻辑，会省略很多词，发音含糊甚至夹杂俚语、外语等，这为AI客服进行语音理解造成很大困难。如果这些问题不能得到有效解决，企业搭建AI客服将面临转化率低、呼入服务应答转人工率高、成本与效果性价比低、对话灵活度不够等系列难题。

提升AI客服语音识别率，深度神经网络等算法外很大程度上要依赖大量数据集训练。但并不是所有数据都能用于AI训练，目前训练AI主要是监督式学习，它需要从标注后的数据中提取信息，如果信息标签质量不合格，数据匹配度不高，难以训练出高性能的AI模型。所以，数据将决定机器学习的上限。

Magic Data官网上线多场景语音数据

在帮助企业训练AI客服或商用机器人等人工智能模型上，Magic Data官网近期新增大量适用于语音识别和语音合成领域的方言及外语数据集，包括上海、四川、广东、郑州、武汉、湖南、山西等地方言，以及泰语、西班牙语、印尼语等外语，覆盖不同年龄性别的人群和场景的数据集。

Magic Data方言数据集

对于训练AI模型的研发人员来说，AI将面对不同地域用户，要具备识别方言或者重口音的能力，那么就需要用匹配性的方言数据来训练模型，比如Magic Data推出的用于客服、消费机器人等领域方言数据集。

Magic Data语音合成数据集

理想的情况下，AI客服与用户对话时能够理解上下文并给出恰当回答，甚至语气带有感情色彩。对于AI研发人员来说，AI客服如果缺乏真实度较高的对话数据训练，在对话场景下将力不从心。这时候我们推荐您TTS数据集训练AI客服。

Magic Data各国语言语音识别数据集

互联网技术的发展，企业跨国业务增多，人工智能语音翻译交互系统可用于解决不同国家语言不通问题，让跨语言高效沟通成为可能。对AI科研人员来说，提高人工智能理解语言的准确度，要求AI模型使用针对语种下大量语音训练数据集。

人工智能正在服务诸多生活工作场景，随着5G和物联网等技术的发展，无人驾驶、AI客服、智能家居等大量出现在我们日常生活中，这些场景的实现有赖于它们背后大量高质量的语音等数据支撑。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

晴数智慧推出MagicData-CLAM高质量SFT数据集，助力大模型实现更优效果

如果开源大模型使得企业不再制肘于自研大模型，那么基于大模型的生成式AI决胜关键将只有一个答案：数据。

新闻

企业布局AI客服如何选择高质量训练数据？

即刻与 Magic Data 建立联系？