最新发布!查看 MagicData 成品数据集

新闻

press images

Magic Data5周年 | 专访颜永红 :开发好应用标准,帮别人省钱,或帮别人赚钱

发布时间 : 2021-10-25     阅读量 : 503

开发一个好的应用标准是,要么你能帮别人省钱,要么你能帮别人赚钱。

我们想招一些想做事的人,并且努力在寻找一些有趣的方向做研究。

我们自己也想做得好一点,总要超越昨天的自己。

这些年我们一直在做尝试,做别人没有做过的应用,就是当时技术还支撑不了的,我们突破了这个技术然后把它做了出来。

我们作为科研单位就要努力解决从零到一的问题,做出一个产品然后在所有行业复制,这些代表性应用会对整个行业起到牵引作用。

在CNCC大会前的专访中,颜永红说出上面的金句。

第十八届中国计算机大会(CNCC 2021)将于10月28日在深圳国际会展中心举行,CNCC由中国计算机学会(CCF)主办,国家超级计算深圳中心承办(深圳云计算中心),香港中文大学(深圳)协办,是中国计算机领域最宏大的年度盛会。

值Magic Data五周年之际,Magic Data借助此次CNCC大会联合产业界大咖主办一场《人机交互的机遇与挑战》分论坛。中科院声学所研究员、博士生导师颜永红担任论坛主席并做《智能语音技术商用价值与应用前景》的主题报告。

在论坛正式开展前,主办方Magic Data采访了演讲嘉宾颜永红,以下为采访整理,希望给大家带来启发。

以下为采访正文

创办世界一流实验室

Magic Data:您来到中科院声学所后,创建了中科信利语音实验室,是什么契机推动您建立这一实验室?当初要实现什么样的目标?可以说一说语音实验室现在的发展情况吗?

颜永红:当时中国科学院找我回来,正好我之前的同事想做实验室,然后他们就推举我办中科信利语音实验室,所以当时没有多想就组建了实验室,没想到一干就干了20年。 当时实验室有个目标,将其建设成世界一流的实验室。现在实验室总人员大概230多人,超编了400%,其中工作人员160多人,研究生大概70人。 现在来看,实验室可能是全世界较大的语音实验室。从实验室的经费、每年培养的博士生数量,以及正高的人数,基本上在国内占据了科研院所的半壁江山。

Magic Data:我们Magic Data创始人兼CEO张晴晴也是从您创办的这个实验室出来的。

颜永红:对,晴晴是我的博士生,她当时在实验室工作过一段时间。晴晴是我们实验室最年轻的副高,北邮通讯学院600多个学生里第七名保送到实验室来的,她做得非常优秀。

科研就要解决从零到一的问题

Magic Data:通过声学所网站一篇早期关于您的报道,我们了解到,您曾经带着年轻的团队获得授权发明专利20项,软件著作权登记40项,在国内外各种学术会议和刊物发表200多篇高质量的学术文章。到现在已经远远不止这个数量了吧?您作为一名资深科研工作者,您和您的团队如何保持如此高频率的科研创新节奏的?

颜永红:现在实验室授权发明专利100多项,发表文章大概500多篇。 关于创新主要有三个方面,一方面实验室最初成立带点理想主义色彩,目标是冲击世界一流实验室,规模上现在算是世界一流。但是从原创成果来讲,我们尚需努力。 一方面是在招人上,我们想招一些想做事的人,并且努力在寻找一些有趣的方向做研究。还有一方面是竞争压力。过去十几年语音技术发展很快,重大的创新基本还是来自美国公司,整个行业快速发展客观上逼迫我们跑得快一点。 我们自己也想做得好一点,总要超越昨天的自己,所以我们的团队是很努力的。

Magic Data:刚才听您说在努力寻找一些有趣的方向做研究,在您看来什么方向算是有趣的方向?

颜永红:实验室作为一个科研单位,要解决的问题就是从零到一的问题。 过去十几年国内主要的语音识别应用,大部分是我们实验室率先做的,然后卖给了头部企业。由于我们平常不太宣传,所以外面对此了解很少。 比如2004年中国手机助手就是我们做的,在网上被网友自发评为十大必装软件之一。用户可以对该软件喊个名字,手机就能拨打电话或者发送短信。这个软件是装在夏新手机上的。

2006年我们做了电信级的语音识别引擎,包括前六大省用的点歌的语音引擎。这几年人工智能热大家都说可以做个考试系统,实际上2006年我们就做出当时全中国较早的考试系统。

当年国家语委给香港人出了普通话的标准,我们按照这个标准做的系统,通过了国家语委鉴定。香港人现在如果拿国家语委的普通话证书,还需通过该系统进行颁发。 后来我们通过技术改造,将系统做成教孩子学英语的工具,就是步步高和诺亚舟。电子词典中哪里不会点哪里的技术是我们做的。 同时,我们做了语音语言解决方案,把软件和工具做好后卖给百度。掌上百度语音搜索上线的时候就是用的我们的语音引擎。后来我们又做了语音输入法,用在腾讯的QQ语音输入法上。

前几年大家都在讲机器人,事实上2013年我们做了虚拟机器人的语音识别,然后卖给了阿里。淘宝支付宝的客服上线时,所用的语音识别引擎都是我们的。 在2014年,我们跟美国公司亚马逊同步推出远场交互解决方案,亚马逊把它用在音箱上,我们把它用在海信电视上。因为麦克风是装在电视上的,你看着电视通过语音命令就可以换台和挑选节目等。

2015年以后,我们尝试把语音技术和自然语言理解、数据分析融合,做出中国领先智能客服的智能质检,用在广发信用卡上。 2015年开始我们开始专注于智能客服也就是虚拟机器人研发,到2016年就用在了中国移动10086上,2017年把它推广到中国电信的10000号后面。 所以,这些年我们一直在做尝试,做别人没有做过的应用,过去没有的技术,我们突破了这个技术然后把它做了出来。 我们作为科研单位就要努力解决从零到一的问题,做出一个产品然后在所有行业复制,这些代表性应用会对整个行业起到牵引作用。 2017年谷歌人工智能发布,基本针对客服的是虚拟机器人。事实上我们早在2013年的时候已经在做了,并且在阿里、中国移动、中国电信这种超大型的应用上都部署了。

语音产业化 要做出“杀手级”的应用

Magic Data:听您讲完之后,感觉就是整个语音界的这种创新都是在咱们声学所出来的,从声学所的实验室里从零到一孵化出来的,而且是跟美国基本同步的。 颜永红:对,是的,因为我本人以前在美国工作,美国博士毕业以后工作了十年,我一直就是做语音的。

Magic Data:刚才说到技术,跟您讨论一下技术问题。语音技术产业化过程中遇到的泛化性差,迁移能力弱,您认为如何从技术研发和产业布局上发力解决?

颜永红:这完全是两个层面的问题。技术层面,我们过去五年技术研究的着力点或者进展就是在努力解决这些问题。现在无论语音行业,或者是更宽广一点的人工智能行业,它的一个显著特征就是大数据、大模型、大计算。它把各种各样的数据放在一起训练,然后提炼出一个模型来,这种预训练的模型,再加上少量的训练数据就可以把应用做好。这个跟过去比,对数据量的要求实际是在减少,这是技术进步带来的结果。 从产业角度讲,我认为需要有一个Killer APP,推出一个大家真正需要的应用。因为做应用肯定用到所有人工智能相关技术,这时存在一个冷启动的问题。一开始需要一些真实场景的数据,也就是前面讲到的迁移能力泛化性问题。所以,要从做产业的角度来讲,我们做出来的应用要考虑是不是大家真的想要的。

Magic Data:语音技术对于广泛的声信号处理会有何启发和促进?

颜永红:现在这一代语音技术实际上迁移了好几代,最早从DTW即模板匹配到走向统计,从80年代到2010年之前,统计方式即混合高斯方式比较流行,2012年以后开始转到神经网络的方法。

它实际上主要还是底层的变化,是通讯成本和计算成本不断下降的一个产物。现在是基于深度学习,是因为现在有了云计算,获取数据更容易,存储也很便宜。从研究层面,基本所有都可以用学习的方法来解决。所以,诸如IT、ICT技术的变化对声音声信号处理大有帮助。这种变化对所有的行业来说,是一个研究范式的变化。 在过去,我们是对物理现象进行观察,然后总结出规律,写一个数学公式来逼近这个规律,然后通过实验的方法把公式参数定下来,不断的削减它的误差,这是过去传统的研究方法。

而现在不需要写数学公式了,通过大量的数据,用学习的方法把参数和数学公式都给学出来,相当于用数据来反演这些规律。 现在深度学习的发展变革了整个声音信号处理方法。例如传统的语音消噪、把叠音分开和阵列信号处理,过去用信号处理的方法做,现在只要有足够的数据和先验知识,通过学习的方法就可以很好地得到解决。

数据标注将更加精细化

Magic Data:语音技术经历了多次起伏,您是如何评价最近十年语音技术取得的研究与产业成就,以及语音技术的下一步发展趋势?

颜永红:语音技术过去十年进展很大,主要原因还是IT、ICT技术的发展。语音应用从用户体验的角度,过去语音识别基本上是不能用,现在最起码凑合着能用,在很多场合底下,大家觉得也够用了,是这样的趋势。 从技术上,我觉得这几年整个行业有比较显著的两个特征:一是开源工具的大量出现,包括一部分的开源数据,降低了从业的门槛。 另一个趋势是大模型提供了一个很好的初始状态,然后通过一些跟场景结合的数据,很少的数据就能裁剪出来一个能用的模型。我觉得大概的进步就是这些。

Magic Data:刚才您在说就是大模型加小数据,就是说未来对数据量的一个需求会慢慢减少,但是不是也需要像您刚才讲的要有更精准的数据给到机器学习? 颜永红:是的,以后人工智能训练的数据不再是粗放式的,而是像Magic Data这样让数据精细化和有针对性,算法公司会寻找更有针对场景的数据进行训练,让模型裁剪得更好更快。

Magic Data:您在最近的一次采访中曾说过,与文字搜索相比,音视频搜索门槛更高,未来利用AI技术对海量音视频进行快速精准搜索将是重要的发展方向之一。那么,AI在音视频搜索上整个行业现在已经做到哪种程度了?未来是怎样的?

颜永红:我认为媒资管理上,在海量媒体库里寻找某个电影或者视频片段的搜索技术,现在已经基本成型了。 音视频搜索和文字搜索相比成本较高。文字搜索不耗费计算量,但对音视频基于内容的检索,需要对内容进行解析,计算成本比文本高好几个数量级。 技术发展的下一步就是更精准的搜索,需要在算法上去提升。另外就是半导体成本还在不断地下降,还要等待半导体技术的发展。

要么帮别人省钱 要么帮别人赚钱

Magic Data:关于智能语音技术商用价值与应用前景如何,谈谈您的看法?

颜永红:人工智能前景很广阔,它好比人的五官,语音技术对应耳朵和嘴,很多应用等待去发掘。但是,如何发掘到真正符合市场需求的应用需要时间,所以道路也是曲折的。

但是现在也出现了一些符合市场需求的应用,比如用于大型服务行业的智能客服。 以后的趋势是,计算机处理问题能力越来越强,IT技术的成本一定是比人工成本低。所以我觉得,开发一个好的应用标准是,要么你能帮别人省钱,要么你能帮别人赚钱。

Magic Data:颜老师,您的实验室一直在做前沿的技术,作为我们这些应用层的公司,您能预测5年以后什么样的应用可能是最Popular的?

颜永红:我不好去预测,一个市场真正需要的应用也许一开始并不那么Sexy,但随着时间推移,可能被验证是对的。 例如我们实验室做的智能客服,服务人次达到数十亿计,服务于中国移动、中国电信、上海上汽集团、阳光保险、苏宁等。我们做的这个应用切中了市场的需求,Magic Data同样如此,创始人张晴晴懂语音和这个行业,也在开发市场真正需要的数据产品,因为符合市场需求的产品才能够真正持久地做下去。

Magic Data:Magic Data今年也是在转型,我们除了做数据采集和标注,也推出了Annotator® 5.0 智能化标注平台,平台分为私有化部署版和SaaS免费版,然后给我们服务的五大行业的客户使用。现在已经有一些企业机构和我们签署合同,然后私有化部署到他们的企业后台。

我们公司的另外一个核心就是拥有更细分化的数据集,就是我们靠什么去做更细分化处理,更细分应用的数据集,给到您刚才讲的这种大模型里面去做训练,然后能够帮助这些企业省钱和降本增效。

颜永红:对,我觉得Magic Data推出的标注平台就很好。事实上国家开始认识到数据安全的重要性,大型的政企客户和服务型行业的数据是不能出内网的,只能私有化部署。Magic Data在标注平台上通过不断的技术迭代,让客户标注成本不断降低,我认为是很符合市场需求的。

Magic Data:希望未来我们可以把标注平台智能化的程度提升,比如从90%提升到95%甚至更高,这也是我们公司的一个目标。

颜永红:是的,我觉得挺好。

Magic Data:谢谢颜老师百忙之中抽时间和我们一起交流。10月28日,让我们一起期待CNCC2021《人机交互的机遇与挑战》分论坛上嘉宾们更加精彩的分享。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们