Magic Data

开发一个好的应用标准是，要么你能帮别人省钱，要么你能帮别人赚钱。

我们想招一些想做事的人，并且努力在寻找一些有趣的方向做研究。

我们自己也想做得好一点，总要超越昨天的自己。

这些年我们一直在做尝试，做别人没有做过的应用，就是当时技术还支撑不了的，我们突破了这个技术然后把它做了出来。

我们作为科研单位就要努力解决从零到一的问题，做出一个产品然后在所有行业复制，这些代表性应用会对整个行业起到牵引作用。

在CNCC大会前的专访中，颜永红说出上面的金句。

第十八届中国计算机大会（CNCC 2021）将于10月28日在深圳国际会展中心举行，CNCC由中国计算机学会（CCF）主办，国家超级计算深圳中心承办（深圳云计算中心），香港中文大学（深圳）协办，是中国计算机领域最宏大的年度盛会。

值Magic Data五周年之际，Magic Data借助此次CNCC大会联合产业界大咖主办一场《人机交互的机遇与挑战》分论坛。中科院声学所研究员、博士生导师颜永红担任论坛主席并做《智能语音技术商用价值与应用前景》的主题报告。

在论坛正式开展前，主办方Magic Data采访了演讲嘉宾颜永红，以下为采访整理，希望给大家带来启发。

以下为采访正文

创办世界一流实验室

Magic Data：您来到中科院声学所后，创建了中科信利语音实验室，是什么契机推动您建立这一实验室？当初要实现什么样的目标？可以说一说语音实验室现在的发展情况吗？

颜永红：当时中国科学院找我回来，正好我之前的同事想做实验室，然后他们就推举我办中科信利语音实验室，所以当时没有多想就组建了实验室，没想到一干就干了20年。当时实验室有个目标，将其建设成世界一流的实验室。现在实验室总人员大概230多人，超编了400%，其中工作人员160多人，研究生大概70人。现在来看，实验室可能是全世界较大的语音实验室。从实验室的经费、每年培养的博士生数量，以及正高的人数，基本上在国内占据了科研院所的半壁江山。

Magic Data：我们Magic Data创始人兼CEO张晴晴也是从您创办的这个实验室出来的。

颜永红：对，晴晴是我的博士生，她当时在实验室工作过一段时间。晴晴是我们实验室最年轻的副高，北邮通讯学院600多个学生里第七名保送到实验室来的，她做得非常优秀。

科研就要解决从零到一的问题

Magic Data：通过声学所网站一篇早期关于您的报道，我们了解到，您曾经带着年轻的团队获得授权发明专利20项，软件著作权登记40项，在国内外各种学术会议和刊物发表200多篇高质量的学术文章。到现在已经远远不止这个数量了吧？您作为一名资深科研工作者，您和您的团队如何保持如此高频率的科研创新节奏的？

颜永红：现在实验室授权发明专利100多项，发表文章大概500多篇。关于创新主要有三个方面，一方面实验室最初成立带点理想主义色彩，目标是冲击世界一流实验室，规模上现在算是世界一流。但是从原创成果来讲，我们尚需努力。一方面是在招人上，我们想招一些想做事的人，并且努力在寻找一些有趣的方向做研究。还有一方面是竞争压力。过去十几年语音技术发展很快，重大的创新基本还是来自美国公司，整个行业快速发展客观上逼迫我们跑得快一点。我们自己也想做得好一点，总要超越昨天的自己，所以我们的团队是很努力的。

Magic Data：刚才听您说在努力寻找一些有趣的方向做研究，在您看来什么方向算是有趣的方向？

颜永红：实验室作为一个科研单位，要解决的问题就是从零到一的问题。过去十几年国内主要的语音识别应用，大部分是我们实验室率先做的，然后卖给了头部企业。由于我们平常不太宣传，所以外面对此了解很少。比如2004年中国手机助手就是我们做的，在网上被网友自发评为十大必装软件之一。用户可以对该软件喊个名字，手机就能拨打电话或者发送短信。这个软件是装在夏新手机上的。

2006年我们做了电信级的语音识别引擎，包括前六大省用的点歌的语音引擎。这几年人工智能热大家都说可以做个考试系统，实际上2006年我们就做出当时全中国较早的考试系统。

当年国家语委给香港人出了普通话的标准，我们按照这个标准做的系统，通过了国家语委鉴定。香港人现在如果拿国家语委的普通话证书，还需通过该系统进行颁发。后来我们通过技术改造，将系统做成教孩子学英语的工具，就是步步高和诺亚舟。电子词典中哪里不会点哪里的技术是我们做的。同时，我们做了语音语言解决方案，把软件和工具做好后卖给百度。掌上百度语音搜索上线的时候就是用的我们的语音引擎。后来我们又做了语音输入法，用在腾讯的QQ语音输入法上。

前几年大家都在讲机器人，事实上2013年我们做了虚拟机器人的语音识别，然后卖给了阿里。淘宝支付宝的客服上线时，所用的语音识别引擎都是我们的。在2014年，我们跟美国公司亚马逊同步推出远场交互解决方案，亚马逊把它用在音箱上，我们把它用在海信电视上。因为麦克风是装在电视上的，你看着电视通过语音命令就可以换台和挑选节目等。

2015年以后，我们尝试把语音技术和自然语言理解、数据分析融合，做出中国领先智能客服的智能质检，用在广发信用卡上。 2015年开始我们开始专注于智能客服也就是虚拟机器人研发，到2016年就用在了中国移动10086上，2017年把它推广到中国电信的10000号后面。所以，这些年我们一直在做尝试，做别人没有做过的应用，过去没有的技术，我们突破了这个技术然后把它做了出来。我们作为科研单位就要努力解决从零到一的问题，做出一个产品然后在所有行业复制，这些代表性应用会对整个行业起到牵引作用。 2017年谷歌人工智能发布，基本针对客服的是虚拟机器人。事实上我们早在2013年的时候已经在做了，并且在阿里、中国移动、中国电信这种超大型的应用上都部署了。

语音产业化要做出“杀手级”的应用

Magic Data：听您讲完之后，感觉就是整个语音界的这种创新都是在咱们声学所出来的，从声学所的实验室里从零到一孵化出来的，而且是跟美国基本同步的。颜永红：对，是的，因为我本人以前在美国工作，美国博士毕业以后工作了十年，我一直就是做语音的。

Magic Data：刚才说到技术，跟您讨论一下技术问题。语音技术产业化过程中遇到的泛化性差，迁移能力弱，您认为如何从技术研发和产业布局上发力解决？

颜永红：这完全是两个层面的问题。技术层面，我们过去五年技术研究的着力点或者进展就是在努力解决这些问题。现在无论语音行业，或者是更宽广一点的人工智能行业，它的一个显著特征就是大数据、大模型、大计算。它把各种各样的数据放在一起训练，然后提炼出一个模型来，这种预训练的模型，再加上少量的训练数据就可以把应用做好。这个跟过去比，对数据量的要求实际是在减少，这是技术进步带来的结果。从产业角度讲，我认为需要有一个Killer APP，推出一个大家真正需要的应用。因为做应用肯定用到所有人工智能相关技术，这时存在一个冷启动的问题。一开始需要一些真实场景的数据，也就是前面讲到的迁移能力泛化性问题。所以，要从做产业的角度来讲，我们做出来的应用要考虑是不是大家真的想要的。

Magic Data：语音技术对于广泛的声信号处理会有何启发和促进？

颜永红：现在这一代语音技术实际上迁移了好几代，最早从DTW即模板匹配到走向统计，从80年代到2010年之前，统计方式即混合高斯方式比较流行，2012年以后开始转到神经网络的方法。

它实际上主要还是底层的变化，是通讯成本和计算成本不断下降的一个产物。现在是基于深度学习，是因为现在有了云计算，获取数据更容易，存储也很便宜。从研究层面，基本所有都可以用学习的方法来解决。所以，诸如IT、ICT技术的变化对声音声信号处理大有帮助。这种变化对所有的行业来说，是一个研究范式的变化。在过去，我们是对物理现象进行观察，然后总结出规律，写一个数学公式来逼近这个规律，然后通过实验的方法把公式参数定下来，不断的削减它的误差，这是过去传统的研究方法。

而现在不需要写数学公式了，通过大量的数据，用学习的方法把参数和数学公式都给学出来，相当于用数据来反演这些规律。现在深度学习的发展变革了整个声音信号处理方法。例如传统的语音消噪、把叠音分开和阵列信号处理，过去用信号处理的方法做，现在只要有足够的数据和先验知识，通过学习的方法就可以很好地得到解决。

数据标注将更加精细化

Magic Data：语音技术经历了多次起伏，您是如何评价最近十年语音技术取得的研究与产业成就，以及语音技术的下一步发展趋势？

颜永红：语音技术过去十年进展很大，主要原因还是IT、ICT技术的发展。语音应用从用户体验的角度，过去语音识别基本上是不能用，现在最起码凑合着能用，在很多场合底下，大家觉得也够用了，是这样的趋势。从技术上，我觉得这几年整个行业有比较显著的两个特征：一是开源工具的大量出现，包括一部分的开源数据，降低了从业的门槛。另一个趋势是大模型提供了一个很好的初始状态，然后通过一些跟场景结合的数据，很少的数据就能裁剪出来一个能用的模型。我觉得大概的进步就是这些。

Magic Data：刚才您在说就是大模型加小数据，就是说未来对数据量的一个需求会慢慢减少，但是不是也需要像您刚才讲的要有更精准的数据给到机器学习？颜永红：是的，以后人工智能训练的数据不再是粗放式的，而是像Magic Data这样让数据精细化和有针对性，算法公司会寻找更有针对场景的数据进行训练，让模型裁剪得更好更快。

Magic Data：您在最近的一次采访中曾说过，与文字搜索相比，音视频搜索门槛更高，未来利用AI技术对海量音视频进行快速精准搜索将是重要的发展方向之一。那么，AI在音视频搜索上整个行业现在已经做到哪种程度了？未来是怎样的？

颜永红：我认为媒资管理上，在海量媒体库里寻找某个电影或者视频片段的搜索技术，现在已经基本成型了。音视频搜索和文字搜索相比成本较高。文字搜索不耗费计算量，但对音视频基于内容的检索，需要对内容进行解析，计算成本比文本高好几个数量级。技术发展的下一步就是更精准的搜索，需要在算法上去提升。另外就是半导体成本还在不断地下降，还要等待半导体技术的发展。

要么帮别人省钱要么帮别人赚钱

Magic Data：关于智能语音技术商用价值与应用前景如何，谈谈您的看法？

颜永红：人工智能前景很广阔，它好比人的五官，语音技术对应耳朵和嘴，很多应用等待去发掘。但是，如何发掘到真正符合市场需求的应用需要时间，所以道路也是曲折的。

但是现在也出现了一些符合市场需求的应用，比如用于大型服务行业的智能客服。以后的趋势是，计算机处理问题能力越来越强，IT技术的成本一定是比人工成本低。所以我觉得，开发一个好的应用标准是，要么你能帮别人省钱，要么你能帮别人赚钱。

Magic Data：颜老师，您的实验室一直在做前沿的技术，作为我们这些应用层的公司，您能预测5年以后什么样的应用可能是最Popular的？

颜永红：我不好去预测，一个市场真正需要的应用也许一开始并不那么Sexy，但随着时间推移，可能被验证是对的。例如我们实验室做的智能客服，服务人次达到数十亿计，服务于中国移动、中国电信、上海上汽集团、阳光保险、苏宁等。我们做的这个应用切中了市场的需求，Magic Data同样如此，创始人张晴晴懂语音和这个行业，也在开发市场真正需要的数据产品，因为符合市场需求的产品才能够真正持久地做下去。

Magic Data：Magic Data今年也是在转型，我们除了做数据采集和标注，也推出了Annotator® 5.0 智能化标注平台，平台分为私有化部署版和SaaS免费版，然后给我们服务的五大行业的客户使用。现在已经有一些企业机构和我们签署合同，然后私有化部署到他们的企业后台。

我们公司的另外一个核心就是拥有更细分化的数据集，就是我们靠什么去做更细分化处理，更细分应用的数据集，给到您刚才讲的这种大模型里面去做训练，然后能够帮助这些企业省钱和降本增效。

颜永红：对，我觉得Magic Data推出的标注平台就很好。事实上国家开始认识到数据安全的重要性，大型的政企客户和服务型行业的数据是不能出内网的，只能私有化部署。Magic Data在标注平台上通过不断的技术迭代，让客户标注成本不断降低，我认为是很符合市场需求的。

Magic Data：希望未来我们可以把标注平台智能化的程度提升，比如从90%提升到95%甚至更高，这也是我们公司的一个目标。

颜永红：是的，我觉得挺好。

Magic Data：谢谢颜老师百忙之中抽时间和我们一起交流。10月28日，让我们一起期待CNCC2021《人机交互的机遇与挑战》分论坛上嘉宾们更加精彩的分享。

新闻

Magic Data5周年 | 专访颜永红：开发好应用标准，帮别人省钱，或帮别人赚钱

即刻与 Magic Data 建立联系？