最新发布!查看 MagicData 成品数据集

新闻

press images

女神节特辑 | 专访中国AI女神张晴晴从女学霸到女企业家的蜕变

发布时间 : 2021-03-08     阅读量 : 1026

又是一年“女神节”,如今女性为社会和家庭做出很大贡献,创造了很多社会公共价值,为此产生“女神力”一词,表达一种女性独有的力量。

特殊的日子里,编者采访了Magic Data创始人兼CEO张晴晴,我们一起领略一位女学霸如何一步一步蜕变为成功的女企业家。

求学:女学霸与语音的不解之缘

张晴晴是一位语音数据科学家,初见她却没有“数据科学家”那种严肃,反而给人一种干练又阳光的风格。

因为一门课,她对语音产生很大兴趣;因为兴趣,她一直从事语音领域工作;也因为在法国国家实验室的经历,让她认识到好的数据的标准以及研究中保持科学严谨的态度。

以下是对张晴晴的专访内容:

提到语音数据科学家,这个领域似乎很少见到女性的身影。

张晴晴:是的,别人说我是语音数据科学家,但我更想称自己是个程序员,因为刚开始工作接触的就是编写程序,有一点不同的是我编写的是人工智能的程序。我认为任何一个行业都不应该有性别差异,因为我们的理想是不分性别的。

最初是什么原因让你接触到语音技术并且作为研究的方向? 张晴晴:我本身是学通信工程的,最早接触到语音是在本科大三的时候,那时候我选修一门课叫“语音信号数字处理”。那时候还不像现在有很多的语音识别专家,是由大唐电信主要研究通讯的老师给我们上的这门课。

从那个时候开始我就对语音有了很大兴趣,我对于人如何通过自己的声带,然后口腔发声,并且通过自己的耳朵能接收到声音产生了很多的兴趣,希望自己在这个方向上能进一步做一些更深入的研究。所以当时在保送博士期间,我就选择了中科院声学所,从那个时候开始,我就一直在语音识别方向不停的往前进。

在中科院声学所完成语音信号数字处理的博士学位之后,我又远赴法国,在法国国家实验室继续从事相应的研究工作,在那边完成了我的博士后的攻读。我当时研究的课题是大词汇连续语音识别的声学建模。在法国的时候也参与了一些欧盟的语音项目,涉及到很多包括欧盟地区多语种的声学构建技术。

在法国国家实验室的经历,对您在语音专业研究有哪些影响?

张晴晴:当时在法国参加过一个国际的评测比赛,这是一个全球范围比较大的评测比赛,要求参赛者所使用的数据必须完全一致。如果有任何一家参赛者使用了自己特殊的数据,都将被拿出来给所有参赛者共享,主要是确保所有的参赛者都在同一个数据的量级上来评价各家的系统指标。

这件事情从侧面说明了一件事情,就是数据量对于我们模型性能的影响是非常大的。我们国家现在也在很多行业进行一些评价评测,我也希望我们国家的这些评测参考海外做法,我们要在同样的尺度下进行评价,确保每家都是使用同样的数据,最终才能体现各家性能的差异。这样能体现我们科学严谨的态度,像这样严谨态度,也对我以后进行专业研究产生很大的影响。

创业:创办Magic Data成为女企业家

随着对语音技术和行业理解的深入,张晴晴想做的事情越来越多,终于在2016年创办了数据服务公司Magic Data。作为一位女性,她承认创业艰辛,也承认当初很有信心,因为Magic Data在解决一些行业的痛点。

至此,张晴晴从一位女学霸蜕变成为一位成功的女企业家。

回国之后,当时最想做的事情是什么呢?

张晴晴:我回国后在中科院声学研究所做研究工作,当时最想做的事情就是将我过去十几年积累的语音识别相关的研究经验应用到实际生产生活中,接触了包括给华为、腾讯、阿里、360、UCweb等企业项目,帮助搭建语音识别的基础系统。

在做的过程当中我发现整个行业都缺乏对数据的认知,到底什么样的数据能解决我们的模型,让我们的人工智能有更好的效果。这个是缺乏行业标准的,所以从那个时候开始,对数据开始产生浓厚的兴趣,慢慢的萌生一个想法,也许有一天我会做一家数据公司。

那时候在成立公司这件事情上是否有信心?

张晴晴:当然,从创业第一天起我们就有信心,而且信心是越来越足。大概2015~2016年前后正是人工智能和大数据风起云涌的时候,很多公司都在开发相应的人工智能软件和硬件产品,过程中我们发现,谁用的数据量更多、质量更好,产品的性能提升的就更直观。

我在人工智能领域很多年积累了关于如何清洗、结构化、筛选和处理数据的方法,并且形成一套完整的体系,这套体系恰好解决了人工智能数据处理的困难点,这个点成就了人工智能领域的蓝海。MagicData,Magic Data就是基于这个点孕育而生的。这五年时间里,Magic Data伴随着整个人工智能的发展也越做越大,被越来越多行业客户所认可,我们的信心也越来越足。

特别对于女性来说,创业不是一件容易的事。

张晴晴:首先,创业本就不是一件容易的事情。曾经有人说过,创业就是反人性的,在我创业五年里对这句话感受越来越深。

记得2016年刚开始创业时人手不够,确保公司运转,很多事情小到做清洁、组装电脑,大到团队的组建、公司的运营都要亲力亲为。记得那个时候我们有一个大的项目,公司十几个人都出动了,甚至包括公司的财务都在帮我们做数据。

创业艰不艰辛?我想很艰辛,但是在这个艰辛的过程中,感受到所有的同事伴随着我们,陪伴着公司一起成长。这个爱,这份温情在大家一起的努力下成就一件事情,本身也是一件非常愉悦和兴奋的事情。

现在Magic Data在为行业解决哪些痛点?如何解决这些痛点的?

张晴晴:对于行业来说,最大的痛点就是缺乏大量的高质量、可靠的语音数据,因为数据数量和质量决定机器学习的上限。对于AI企业乃至整个行业来说,获取高效的训练数据是问题成败的关键。拿我自己来讲,我曾经的博士论文是研究中国人说英语的发音特征,需要收集200个中国人说英语的声音用于实验。为了收集这200个人的声音,我请了同事、朋友、家人甚至路上的陌生人,我会拉着他说,你能不能帮我来录个音?

我花了300天终于收集到200个人的声音,然后处理好清洗好,送到系统里之后,1天的时间系统就给我送出来第1个实验的结果。也就是说,301天的时间里,300天我都在处理数据,像这样的情况不止是我,整个人工智能行业,很多AI从业者们都在面临着同样的问题。

其实,我们希望将更多的时间放在AI模型的优化上,以及如何构建一个更好的体系去得到一个更好的结果,但是困于数据我们不得不停下脚步。那么今天,我们Magic Data所希望做到的,就是为所有人工智能工作者们提供更专业的数据服务,让大家都不用再费心于数据的收集和数据的清洗。

对AI公司来讲,对数据量一般都会有较高的要求,对获取的周期也会有较高的期待,基于这一点,我们公司提前储备了不同的行业以及一些垂直场景下会用到的训练的数据。目前我们根据场景有针对性地开发数据,包括像智能家电、呼叫中心、在线教育等,我们都会有相应的训练数据储备。

近期我们还将打造一个面向全球的开源社区,会将我们所储备的很多数据放到开源平台上,供正在进行人工智能训练的工作者使用。我们非常希望通过这样一个开源动作,能够推动AI更快的向前发展。

开拓:推动行业发展锻造AI女神

事实上,张晴晴不仅仅在做自己的企业,她还担负起作为企业家的责任,为数据行业的普及和推广不断发声,也为建立相关规范标准献计献策,甚至积极参与到行业标准的制定中。

在这特殊的节日里,AI女神张晴晴结合自己的经历,将为广大女同胞带来哪些祝福?

作为一个创业者,对语音数据行业有哪些畅想与期望?

张晴晴:从我创立Magic Data的第一天起,就非常渴望能够为人工智能行业带来更多的价值,推动AI行业更快的向前发展。

数据行业属于一个新兴行业,很多人不太了解,需要有人反复普及和推广。现在Magic Data包括我自己希望有更多机会站出来普及数据的应用,我们也希望参加更多的行业的峰会以及国内外展会,让更多正在进行数字化转型的企业认识到数据的重要性,并且帮助他们更快的以及更好的理解如何处理数据,能够真正意义上帮助他们降本增效,最终为行业以及社会带来更多贡献。

数据作为一个新兴行业,除了普及数据的价值外,还有哪些事情值得我们去做?

张晴晴:数据是一个新兴行业,在技术层面就有非常多规范标准亟待去规整和制定,制定规范的标准是一个利在千秋的工作。早在公司刚刚创立之初,我们就参与了国标委《中文语音识别系统评测规范》制定工作。

去年我们又和行业专家们商讨,主要是家电厂商的专家们一起探讨智能家居语音识别相关标准的技术规范议题,希望进一步推动语音相关的行业标准和规范的制定。其他的行业我们也在积极参与,我们希望在数据这个行业所积累下来的知识,沉淀下来的经验,能够变成标准,被更多AI从业者们所使用。

在女神节这个特殊的日子里,您作为一个成功的女性企业家,有没有给广大女性同胞一些寄语和祝愿?

张晴晴:女性在社会中扮演非常重要的角色,女性代表着温柔,同时又非常的坚毅。我自己在语音识别领域已经做了近20年,其实20年前乃至10年前,语音都不是一个非常热门的行业,那个时候很多人毕业并没有找到理想的工作,有的可能也都转行了,但是兴趣让我一直愿意继续在这个行业里钻研。直到后来我们看到人工智能普及,大家开始对语音、图像等越来越重视。这20年的时间我没有离开过语音,我始终把它当做一生的事业在做。

今天是女神节,世界因为有我们才会丰富多彩,我们总是为家庭和社会创造价值、财富,但我们也要记得:要坚持做自己!我们有权利为理想、为美好的生活而奋斗,为做自己而坚持!这些就是今天我想和大家分享的内容,非常感谢大家!谢谢!

张晴晴说:“女性在社会扮演非常多的角色,是女儿,是母亲,是妻子,是同事,是老板。请不要忘记,我们还是自己。”

今天是女神节,Magic Data祝女神们节日快乐!

更多服务和数据产品欢迎咨询客服:400-900-5251。近期Magic Data将面向开发者开源部分数据产品,欢迎加入数据开源社群“AI炼丹炉社群”,以获取开源数据产品和最新信息。

即刻与 Magic Data 建立联系?

联系我们

TOP
联系我们