从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位

李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样,参加了第一届ImageNet挑战赛的竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。还有些在获奖算法基础上创立公司,如马修•泽勒(Matthew Zeiler)2013年赢得ImageNet挑战赛后,创办了Clarifai公司,之后获得了4000万美元风险投资。 2014年的ImageNet挑战赛冠军中的两位牛津大学研究者,赛后很快被谷歌吸收,并进入谷歌收购的DeepMind实验室工作。 现在,参与ImageNet挑战赛获奖的企业和个人已遍布科技行业的每个角落。

从历史经验中不难看出,想要拿到名企实习工作机会,或加速自己的职业生涯进程,亦或赢得行业投资者的关注,参加技术评测大赛都是一条有效途径。目前国内科研数据集规模最大,平台资源最丰富,当属由创新工场、搜狗和今日头条三家AI企业同发起AI challenger全球AI挑战赛。据悉,该大赛设立的优胜者奖金高达200万元人民币。

众所周知,在人工智能领域,要想获得好的机器学习模型,数据的质和量是至关重要的。高质量训练数据对机器学习模型的建立和优化一直起着关键性作用。人工智能领域领军人物李飞飞发起建立的ImageNet图片数据集曾在计算机视觉、乃至整个人工智能发展史上都发挥过里程碑式的作用。李飞飞曾说:“数据将重新定义我们对模型的看法“ 。尽管深度学习今后的发展会趋向于半监督或无监督学习,但至少从目前来看数据的质和量仍是科学研究与产品技术研发的核心。

虽然深知数据对模型的重要性,但在AI Challenger 诞生之前,国内人工智能领域成规模的、大型权威的评测比赛还是一片空白。反观国际,无论是在图像识别领域还是语音交互领域,都已经有很多举办多年且口碑、效果皆不错的赛事。AI Challenger 的诞生可谓是给国内AI领域大规模赛事起了一个好头,而且从官方给出的数据集来看,某些方面提供的条件甚至已超过国际同类赛事。

单从机器翻译这个赛道来说,国际上的评测比赛几乎全是机器文本翻译,而AI  Challenger 在这个赛道上提供了两个方向的赛题——英中机器同声传译和英中机器文本翻译。AI科技评论专程采访了提供这两个赛题的设计方案,同时也是大赛主办方之一的搜狗科技,为大家介绍更详细的赛事情况。

机器同传的魅力何在?

在技术进步和文化扩散的双重推动下,这个世界总体是在趋向于互通互联。不同国家之间平等便捷获取信息,低成本地有效沟通成为一种强烈需求。从这个意义上讲,机器同传正是为了实现人类打破不同语言壁垒的愿望而生。搜狗语音交互技术中心总经理王砚峰说道:“搜狗是去年十一月在业界首发机器同传,之后在近百场会议现场中演示过,「一边用中文演讲、一边同步显示英文翻译」无论是给讲者还是观众都带来了很大的视听震撼。”

雷锋网发现有一段时间经常在朋友圈看到「AI将会使同声传译职业消亡」之类的文章,这或许正是搜狗同传的出现震撼到了大家!

而实际上,机器同传离真正的人工同声传译还有一段距离,实时翻译的速度虽已达到人类水平,甚至超越人类,但翻译的准确度还有待提高。

机器同传表面上看来是把语音识别和机器翻译叠加起来达成的效果,其实这里面还涉及到很多技术难题,比如语音识别之后的文本后处理,而文本后处理不单单是常见的语句分割,还包括噪声去除,语气词去除等等。正是这些因素直接影响到机器翻译出来的准确度。

王砚峰总经理告诉雷锋网,「目前机器同传遇到的这些问题还不是一个非常成熟的问题,像如何保证语义完整性,怎么断句,怎么去除口语等问题,这些都不是一个统一标准,不是大家用一个深度学习模型就能解决好的。通过举办评测比赛来解决这类问题,在比赛过程中就会有一些好的自发创意出来,不管是是技巧性的创意,还是理论上的创新,最终这些创新、创意汇聚起来很可能就会比现有系统处理的效果好。机器同传吸引大家的还有一点就是看起来很酷,很多具有国际参赛经验的赛手都报名参加了,他们对具有挑战性,新鲜感的赛题更感兴趣,从比赛中获得的成就感和快乐值也会更高。机器同传就是一个这样比较新兴的方向,是未来机器翻译的发展趋势。搜狗开创这样一个赛题,希望能在行业中引领大家往更实用的方向发展。」

精心打磨数据集,专注提升赛手参赛体验

数据集对模型生成的重要性不言而喻,但并不是所有人都知道怎么来评判一个数据集的优缺点,赛手也几乎没有机会接触并参与到数据集的制作过程中。

 

搜狗在机器翻译领域中有着深厚的技术积累,在WMT 2017 中英、英中比赛中取得双向第一

拥有国际大赛获奖经历的搜狗机器翻译技术团队,自然会对国际上同类赛事有着比较深刻的观察和见解,在对数据集的评价上也比较有发言权。搜狗语音交互技术中心总监陈伟告诉记者,「 NIST,IWSLT,WMT,这三大比赛是机器翻译界的顶级评测,过去几年这些比赛放出来的最大有效数据量(不包括完全公开的千万级联合国数据),其独有的数据量是在两百到三百万之间。而AI Challenger赛事中,搜狗提供给参赛者是一千万独有数据量。这也是最大规模的口语领域英中比赛数据集。」

另外他还向雷锋网透露一些之前参加 WMT 2017的细节。他回忆道:“当时我们参加WMT 2017时,主办方最多给到了六百万数据,这些数据来自不同的组织和学术机构,数据的质量参差不齐。在参加评测的时候,由于数据的噪声特别大,我们用了三到四个人,处理了两周才把数据清洗完。”

也许正是体会到了数据清洗过程给赛手带来的干扰和折磨,搜狗在此次AI Challenger 大赛中格外重视赛手的参赛体验。“我们要把除了模型算法以外的准备工作做到极致,让赛手专心跑模型,不被其他因素干扰。”他说道:“搜狗这次给出的数据,都是找的专业译员一条一条精标过的数据,这一千万数据标准准确率都在97%以上。用了五十个全职译员,花了三个月,全力以赴地才把这一千万数据处理完。再加上前期的数据抓取,数据清洗等一系列准备工作,整个数据集的制作花费了大概半年时间。”

“ 相信在这些精心准备的数据前提下,参赛选手可以实现训练出一个好的机器翻译系统。" 陈伟总监最后满怀信心地说道。

除了瓜分百万奖金,参赛队伍还将有哪些收获?

雷锋网认为是包括搜狗在内的三家大公司提供的GPU资源、与全球AI人才交流的机会,计算平台,以及学术专家相关的技术指导机会、及直接进入主办方工作或获得投资的机会。毕竟现在大多数在校学生和科研机构面临的共同问题是计算平台能力不足,数据量不够。当算力和数据量都有限制的时候,会严重制约在科研上面的的发展速度。并且科研的最终成果是要到产业中落地应用,如果只是在实验室跑算法,模型再好也未必能在真实环境中经得住考验。搜狗机器翻译技术负责人王宇光也向记者表达了相似的观点。

" 机器翻译基础能力,最好的技术还是在工业界,搜狗在过去一直专注于直接能在商业中落地,效果好且实用的算法。另外搜狗在国际评测比赛中也积累了不少经验,也有能力来指导大家做出更好的算法。除了有专门的导师给予指导,搜狗在以往国际评测中使用的技术也会以评测报告的方式提交出来供大家参考。"

赛事最新动态

参赛者的正向反馈使得主办方们对接下来的比赛很有信心。搜狗方面向记者分享了他们目前从赛手身上获得的一些惊喜。

  • 第一,参赛的队伍比预期要多。目前英中文本翻译和同传赛道提交的结果的队伍已经有百多支。
  • 第二,比赛报名除了来自于一些做机器翻译的学校研究组或者研究机构以外,还有来自于其它相似研究方向的选手,例如NLP机器翻译之外的研究方向。

另外赛手在后台对于赛制规则不清楚之处,或赛题不明白之处也做出了一些反馈,他们也都给了详细解答。

随着赛事的推进,搜狗负责大赛服务的团队也从参赛者的反馈中看到了一些存在的问题,比如,选手可能会使用外部数据集来提升效果,这是大赛不推荐的。

雷锋网了解到,搜狗采取的措施是:首先比赛要求选手不能使用外部数据集合进行训练,对于使用外部数据的结果系统不参与最终颁奖排名。此外,要求选手提交比赛系统详细报告。最终要求选手参与答辩。这样可以最大程度过滤掉一些“刷分”行为。

总结

雷锋网小结:AI Challenger 的全球AI挑战赛提供的数据集,源自真实生活应用场景都是从工业而来,从现实应用中获取,这无疑会对算法的开发以及实用性评估带来更多的现实意义。此次搜狗与创新工场、今日头条搜狗语音技术团队在他们自己的赛道上联合,投入了巨大的人力,物力和计算资源,目的就是希望能和大家一起来发挥聪明才智,共同把机器同传做的更成熟,更有社会应用价值。有过从业经验的行业人士都知道,从企业中获取大规模数据并不容易,企业主动开放共享数据集更是难得一见。这样的机遇并不是年年都有,希望已经在积极备赛的选手都能收获自己满意的成绩,从比赛中得到能力的锻炼和水平的提升,早日走向人生巅峰!

本文作者:杨文

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-23 21:18:23

从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位的相关文章

【重磅】中国新一代人工智能规划专家解读,外媒:中国要统治AI

一图看懂<新一代人工智能发展规划>:3 大战略目标,4 大重点任务 图片来源:中国科技网 专家点评:认识是清醒的.决心是坚定的.力度是前所未有的 规划发布后,中国的 AI 专家们在朋友圈进行了疯狂转发.在他们看来<新一代人工智能发展规划>意义是什么?影响如何? 新智元采访了北大计算机系主任黄铁军:教育部长江学者特聘教授王田苗:北大人工智能创新中心主任.著名天使投资人,百度创始七剑客之一.酷我音乐创始人雷鸣:慈星股份执行董事.慈星机器人董事长李立军:清华大学计算机系教授邓志东:前上海

微软协作 AI 挑战赛开始报名,沉迷 Minecraft 无法自拔的你不去试试?

对 Minecraft 游戏感兴趣的 AI 开发者可能都知道 Project Malmo:一个微软发起的基于 Minecraft 的 AI 技术研究和测试平台. 近日,基于 Project Malmo,微软发起了一项协作 AI 挑战赛:The Malmo Collaborative AI Challenge,目前已经开始注册报名. 微软在赛事介绍中表示:与人类协作是当前 AI 研究的一项长期目标,因为协作是最终开发出真正的类人 AI 的关键.当前诸多 AI 研究的热门领域,包括语音识别.机器翻译

专访寒武纪CEO陈天石:AI芯片是中国主导世界AI产业的机会

上周五出了个大新闻--国内AI芯片创业公司寒武纪科技(Cambricon)完成了A轮融资,融资总额达到1亿美元.除了数额,本轮融资的参与者同样抢眼:领投方国投创业(国投集团子公司),阿里巴巴.联想.国科投资.中科图灵加入,原pre-A轮投资方,元禾原点创投.涌铧投资继续跟投. 雷锋网也向寒武纪进行了求证,确认寒武纪已经成为全球AI芯片中的第一只独角兽创业公司. 寒武纪板卡 作为全球第一个成功流片(批量生产实物芯片)的AI芯片公司,寒武纪在2016年就已经发布了"寒武纪1A"深度学习专用

回顾与展望|欲超越ImageNet影响力的“AI Challenger全球AI挑战赛”落幕

8月14日启动,历时130天,全球AI届最大盛事之一,来自65个国家上万名选手参与的首届 "AI Challenger全球AI挑战赛"在12月21日落下帷幕. AI Challenger视觉和翻译两大类共五个赛道,各自决出了最终的冠军,以及亚军.季军.优秀奖.获奖团队合计分享了超过200万人民币的奖金. 颁奖典礼现场,三家主办方代表,创新工场董事长兼CEO.创新工场人工智能工程院院长李开复,搜狗CEO王小川,今日头条顾问.技术战略研究院院长张宏江,以及大赛评委林德康.赵铁军等人为获奖团

AI成国家战略,上百位专家聚杭州:“中国正迎来AI发展的黄金时代”

7月22日,2017中国人工智能大会在杭州召开.这一中国人工智能界级别最高.最权威的学术盛会,今年由中国人工智能学会与阿里巴巴.蚂蚁金服联合主办. 就在会议举办前数日,国务院印发<新一代人工智能发展规划>,规划要求2030年中国人工智能产业竞争力达到国际领先水平.人工智能已上升到国家战略高度.与会的中国人工智能学会理事长李德毅表示,"中国正迎来AI发展的黄金时代". 大会官网及图文直播:http://ccai.caai.cn/m/zone/ccai2017/live 大会现

中国最酷富豪朱骏:少挣25元学会管理

他可能是中国最cool的有钱人,有着最最奢侈的爱好,买下了中国足球的一个标杆--上海申花足球队. 能买下足球队的有钱人或许还有几个,譬如大连实德的徐明,重庆力帆的尹明善.但是,他们自己能上场指挥吗?他们自己能踢吗?偶尔踢踢球或许也不稀奇.但是,他们踢过正经的职业赛吗?2007年,披着16号球衣的朱骏,在申花与英超劲旅利物浦队在荷兰的邀请赛中以首发阵容上场. 全中国的足球老板,或许全世界的足球老板,能做到这么拉风,也没有几个.作为第九城市的董事长兼CEO,朱骏同样是在一个吸引眼球.挑起口水战的行业

现在墨迹天气稳坐中国天气应用第一位

摘要: 有这样一类应用,获取用户容易,往下走很难.天气类应用最典型. 2009 年 5 月墨迹天气塞班版上线,2010 年 推出Android版 ,2011 年IOS版上线.现在墨迹天气稳坐中国天气应用第一位. 有这样一类应用,获取用户容易,往下走很难.天气类应用最典型. 2009 年 5 月墨迹天气塞班版上线,2010 年 推出Android版 ,2011 年IOS版上线.现在墨迹天气稳坐中国天气应用第一位.2013年,它继微博.微信.美图秀秀以及高德地图进入亿级用户俱乐部,现在已经有3.3亿

剪开垄断锁链 主机市场迎来第一位中国主角

[天极网服务器频道2月19日消息]"棱镜门"的续集还在上演,这让许多人相信,只有自己动手搭建信息化舞台,才能让手中的网络武器所向披靡.才能让云计算和大数据步伐铿锵有力.才能让智慧与信念坚如磐石.正因如此,国内一些被IOH束缚太久的支柱产业,对拥有"全自主"小型机的应用需求已经达到了顶点,而"望梅止渴"在此时已经毫无意义. 自主创新之路的艰辛世人皆知,但真正能把握机会,并完成使命的国产服务器厂商却寥寥无几.在关乎国内IT产业命运的非常阶段,浪潮推出

天图资本1亿元投资酷漫居 “快刀手”朱拥华首次触电

天图资本(Tiantu Capital)日前宣布,旗下第六期消费品专项基金于近日通过了对广州"酷漫居"儿童动漫家具总额1亿元人民币的投资,有着"快刀手"之称的天图资本副总裁朱拥华代表投资方担任企业董事,这也是朱拥华近期的第二笔投资.广州酷漫居动漫科技有限公司成立于2008年,是一家O2O模式的儿童动漫家具平台型电子商务公司,目前在国内独家拥有迪士尼全系列动漫形象(米老鼠.白雪公主.小熊维尼等等).HelloKitty.哆啦A梦.哈利波特.超人.柯南.樱桃小丸子.奥特