李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样,参加了第一届ImageNet挑战赛的竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。还有些在获奖算法基础上创立公司,如马修•泽勒(Matthew Zeiler)2013年赢得ImageNet挑战赛后,创办了Clarifai公司,之后获得了4000万美元风险投资。 2014年的ImageNet挑战赛冠军中的两位牛津大学研究者,赛后很快被谷歌吸收,并进入谷歌收购的DeepMind实验室工作。 现在,参与ImageNet挑战赛获奖的企业和个人已遍布科技行业的每个角落。
从历史经验中不难看出,想要拿到名企实习工作机会,或加速自己的职业生涯进程,亦或赢得行业投资者的关注,参加技术评测大赛都是一条有效途径。目前国内科研数据集规模最大,平台资源最丰富,当属由创新工场、搜狗和今日头条三家AI企业同发起“AI challenger全球AI挑战赛”。据悉,该大赛设立的优胜者奖金高达200万元人民币。
众所周知,在人工智能领域,要想获得好的机器学习模型,数据的质和量是至关重要的。高质量训练数据对机器学习模型的建立和优化一直起着关键性作用。人工智能领域领军人物李飞飞发起建立的ImageNet图片数据集曾在计算机视觉、乃至整个人工智能发展史上都发挥过里程碑式的作用。李飞飞曾说:“数据将重新定义我们对模型的看法“ 。尽管深度学习今后的发展会趋向于半监督或无监督学习,但至少从目前来看数据的质和量仍是科学研究与产品技术研发的核心。
虽然深知数据对模型的重要性,但在AI Challenger 诞生之前,国内人工智能领域成规模的、大型权威的评测比赛还是一片空白。反观国际,无论是在图像识别领域还是语音交互领域,都已经有很多举办多年且口碑、效果皆不错的赛事。AI Challenger 的诞生可谓是给国内AI领域大规模赛事起了一个好头,而且从官方给出的数据集来看,某些方面提供的条件甚至已超过国际同类赛事。
单从机器翻译这个赛道来说,国际上的评测比赛几乎全是机器文本翻译,而AI Challenger 在这个赛道上提供了两个方向的赛题——英中机器同声传译和英中机器文本翻译。AI科技评论专程采访了提供这两个赛题的设计方案,同时也是大赛主办方之一的搜狗科技,为大家介绍更详细的赛事情况。
机器同传的魅力何在?
在技术进步和文化扩散的双重推动下,这个世界总体是在趋向于互通互联。不同国家之间平等便捷获取信息,低成本地有效沟通成为一种强烈需求。从这个意义上讲,机器同传正是为了实现人类打破不同语言壁垒的愿望而生。搜狗语音交互技术中心总经理王砚峰说道:“搜狗是去年十一月在业界首发机器同传,之后在近百场会议现场中演示过,「一边用中文演讲、一边同步显示英文翻译」无论是给讲者还是观众都带来了很大的视听震撼。”
雷锋网发现有一段时间经常在朋友圈看到「AI将会使同声传译职业消亡」之类的文章,这或许正是搜狗同传的出现震撼到了大家!
而实际上,机器同传离真正的人工同声传译还有一段距离,实时翻译的速度虽已达到人类水平,甚至超越人类,但翻译的准确度还有待提高。
机器同传表面上看来是把语音识别和机器翻译叠加起来达成的效果,其实这里面还涉及到很多技术难题,比如语音识别之后的文本后处理,而文本后处理不单单是常见的语句分割,还包括噪声去除,语气词去除等等。正是这些因素直接影响到机器翻译出来的准确度。
王砚峰总经理告诉雷锋网,「目前机器同传遇到的这些问题还不是一个非常成熟的问题,像如何保证语义完整性,怎么断句,怎么去除口语等问题,这些都不是一个统一标准,不是大家用一个深度学习模型就能解决好的。通过举办评测比赛来解决这类问题,在比赛过程中就会有一些好的自发创意出来,不管是是技巧性的创意,还是理论上的创新,最终这些创新、创意汇聚起来很可能就会比现有系统处理的效果好。机器同传吸引大家的还有一点就是看起来很酷,很多具有国际参赛经验的赛手都报名参加了,他们对具有挑战性,新鲜感的赛题更感兴趣,从比赛中获得的成就感和快乐值也会更高。机器同传就是一个这样比较新兴的方向,是未来机器翻译的发展趋势。搜狗开创这样一个赛题,希望能在行业中引领大家往更实用的方向发展。」
精心打磨数据集,专注提升赛手参赛体验
数据集对模型生成的重要性不言而喻,但并不是所有人都知道怎么来评判一个数据集的优缺点,赛手也几乎没有机会接触并参与到数据集的制作过程中。
搜狗在机器翻译领域中有着深厚的技术积累,在WMT 2017 中英、英中比赛中取得双向第一
拥有国际大赛获奖经历的搜狗机器翻译技术团队,自然会对国际上同类赛事有着比较深刻的观察和见解,在对数据集的评价上也比较有发言权。搜狗语音交互技术中心总监陈伟告诉记者,「 NIST,IWSLT,WMT,这三大比赛是机器翻译界的顶级评测,过去几年这些比赛放出来的最大有效数据量(不包括完全公开的千万级联合国数据),其独有的数据量是在两百到三百万之间。而AI Challenger赛事中,搜狗提供给参赛者是一千万独有数据量。这也是最大规模的口语领域英中比赛数据集。」
另外他还向雷锋网透露一些之前参加 WMT 2017的细节。他回忆道:“当时我们参加WMT 2017时,主办方最多给到了六百万数据,这些数据来自不同的组织和学术机构,数据的质量参差不齐。在参加评测的时候,由于数据的噪声特别大,我们用了三到四个人,处理了两周才把数据清洗完。”
也许正是体会到了数据清洗过程给赛手带来的干扰和折磨,搜狗在此次AI Challenger 大赛中格外重视赛手的参赛体验。“我们要把除了模型算法以外的准备工作做到极致,让赛手专心跑模型,不被其他因素干扰。”他说道:“搜狗这次给出的数据,都是找的专业译员一条一条精标过的数据,这一千万数据标准准确率都在97%以上。用了五十个全职译员,花了三个月,全力以赴地才把这一千万数据处理完。再加上前期的数据抓取,数据清洗等一系列准备工作,整个数据集的制作花费了大概半年时间。”
“ 相信在这些精心准备的数据前提下,参赛选手可以实现训练出一个好的机器翻译系统。" 陈伟总监最后满怀信心地说道。
除了瓜分百万奖金,参赛队伍还将有哪些收获?
雷锋网认为是包括搜狗在内的三家大公司提供的GPU资源、与全球AI人才交流的机会,计算平台,以及学术专家相关的技术指导机会、及直接进入主办方工作或获得投资的机会。毕竟现在大多数在校学生和科研机构面临的共同问题是计算平台能力不足,数据量不够。当算力和数据量都有限制的时候,会严重制约在科研上面的的发展速度。并且科研的最终成果是要到产业中落地应用,如果只是在实验室跑算法,模型再好也未必能在真实环境中经得住考验。搜狗机器翻译技术负责人王宇光也向记者表达了相似的观点。
" 机器翻译基础能力,最好的技术还是在工业界,搜狗在过去一直专注于直接能在商业中落地,效果好且实用的算法。另外搜狗在国际评测比赛中也积累了不少经验,也有能力来指导大家做出更好的算法。除了有专门的导师给予指导,搜狗在以往国际评测中使用的技术也会以评测报告的方式提交出来供大家参考。"
赛事最新动态
参赛者的正向反馈使得主办方们对接下来的比赛很有信心。搜狗方面向记者分享了他们目前从赛手身上获得的一些惊喜。
- 第一,参赛的队伍比预期要多。目前英中文本翻译和同传赛道提交的结果的队伍已经有百多支。
- 第二,比赛报名除了来自于一些做机器翻译的学校研究组或者研究机构以外,还有来自于其它相似研究方向的选手,例如NLP机器翻译之外的研究方向。
另外赛手在后台对于赛制规则不清楚之处,或赛题不明白之处也做出了一些反馈,他们也都给了详细解答。
随着赛事的推进,搜狗负责大赛服务的团队也从参赛者的反馈中看到了一些存在的问题,比如,选手可能会使用外部数据集来提升效果,这是大赛不推荐的。
雷锋网了解到,搜狗采取的措施是:首先比赛要求选手不能使用外部数据集合进行训练,对于使用外部数据的结果系统不参与最终颁奖排名。此外,要求选手提交比赛系统详细报告。最终要求选手参与答辩。这样可以最大程度过滤掉一些“刷分”行为。
总结
雷锋网小结:AI Challenger 的全球AI挑战赛提供的数据集,源自真实生活应用场景都是从工业而来,从现实应用中获取,这无疑会对算法的开发以及实用性评估带来更多的现实意义。此次搜狗与创新工场、今日头条搜狗语音技术团队在他们自己的赛道上联合,投入了巨大的人力,物力和计算资源,目的就是希望能和大家一起来发挥聪明才智,共同把机器同传做的更成熟,更有社会应用价值。有过从业经验的行业人士都知道,从企业中获取大规模数据并不容易,企业主动开放共享数据集更是难得一见。这样的机遇并不是年年都有,希望已经在积极备赛的选手都能收获自己满意的成绩,从比赛中得到能力的锻炼和水平的提升,早日走向人生巅峰!
本文作者:杨文
本文转自雷锋网禁止二次转载,原文链接