什么样的机器翻译比Google还要占优? | 硬创公开课

今年8月,雷锋网(公众号:雷锋网)(搜索“雷锋网”公众号关注)将在深圳举办“全球人工智能与机器人创新大会”(GAIR),在本次大会上,我们将发布“人工智能与机器人Top25创新企业榜“,商鹊网是我们重点关注的公司之一。今天,我们邀请到了商鹊网CEO邹剑宇,以实战经验为我们解读,什么样的机器翻译比Google还要占优?雷锋网

先介绍下我们的创业团队,跟我合伙创业的,是清华的本科和硕士毕业的自然语言大拿,叫魏勇鹏。以及中科院的博士胡日勒,原来在诺基亚负责机器翻译。

▌机器翻译的现状

正如大家所想,能吸引我们在翻译行业创业的前提,肯定是翻译行业遇到了一些问题。下图比较完整地概括了翻译行业遇到的问题。

其实这是个小行业,规模特别小,没有大公司。但是翻译需求,貌似没有谁没有遇到过,所以很多人会拍脑袋一想——“这是个大生意”!但实际情况会是这行确实需求挺多,但生意不大。我们创业的时候,这一点看得很清楚,如果不跟上机器翻译的趋势,翻译一定没得做。

先说说机器翻译的现状吧,这个BLEU值的评测结果,说明了现在机器翻译的现状。一般人的体会,是机器翻译有很多不尽如人意的地方。商业伙伴第一句话问的也是:你们机器翻译准确度是多少?这一PPT讲清楚了背后的事实:目前通用的机器翻译的准确度约50%弱一点

这个一般的准确度,说起来都是泪。客户说:那你们这个太差了;投资人也说:那你们这个太差了。我不是技术出身,创业初期也对这个准确度有很大期待,对伙伴有无限期待。一年下来发现期待总是落空,所以就反省:事情出问题了还是我出什么问题了? 所以就开始学习,四处打探事实。找到的事实,见下图

这个理论引用的是英国特别NB的物理学家,也是世界知名的认知学家讲的,如果咱们不知道创造是怎么回事,那就别想创造一个创造的能力了,这个家伙的理论高度,个人觉得高于《人类简史》那个以色列教授。如果说《人类简史》是历史概述,那这个教授的书则是开创性的认知启蒙,他的意思,是图灵测试,有点诡辩和连蒙带诈地制造了一个AI。

这个是咱们中国的理论物理学家、科学网红李淼教授总结的:物理逻辑运转的计算方法,得不出类似量子运转的创造思维结果。总结下来:理论不够,方法不对。理解人性思维的AI做得有点辛苦。

是我现场去听了张钹教授的课,这里主要是讲机器智慧,与类人的AI的区别,按他的理论,AI极其有可能有自己的意志,即按照自己的逻辑行动,并有可能伤害人类。但是机器直接来理解人,这一点目前看不到。我是做机器翻译的,被称为AI的皇冠,是用机器来理解人类的认知,难度非常大。目前比较成熟的AI应用,主要集中在感知层,诸如视觉、听觉的机器识别,总结下来,这三个人物所讲理论,给了我一颗定心丸:我再也不期待工程师给我一个完美的翻译引擎了,跟客户说机翻结果时再也不忐忑不安了:我们就是这样的!

把大家对机器翻译的期待,转化为翻译的期待,是比较合理和现实的,——机器不会万能,人来帮忙。

现在大家能用到的机器翻译,包括口语翻译软件,基本上准确度都是50%左右的引擎,不过看看使用量:很惊人;但在商业服务领域,情况不太一样。

也就是说:机器翻译没有直接的商业模式。有价值的是流量。有时候会让我们这个圈子的人这么感慨,“这么难的事,我都去做了,却赚不到钱(哭)”。当然我们也哭,不过还是会看清楚自己的价值。

▌Google PK 垂直引擎

这里要补充一下:实际上我们公司开发的不是和谷歌百度一样的通用引擎,我们在垂直领域做工作。目前商鹊网的翻译引擎,针对科研、专利领域,所以我们的准确度应该比通用引擎高一些,因为垂直领域的数据研发后会更精准,如果垂直的引擎还不如通用的引擎在该领域的效果,就混不下去了(掩面ing)。我们在一个客户的竞标中,的确是打败了谷歌和必应的引擎服务,拿到了一个专利内容的机器翻译的常年订单,每个月都在干活。我们提供的主要服务叫人机结合的译后编辑 PE(Post Editing)服务

这是我们服务的技术架构,在这个技术架构上面,我们使用了大量的译员,这些译员需要参加PE生产的培训,因此,研发之外的BD和培训工作,是公司日常的大业务。

这是我们公司的培训矩阵。我们受译协委托,给中国300所外语院校培训翻译技能,就是我们研发的PE生产流程,这里发生了很有意思的事,这是我们培训的三个学员,他们跟机器的关系由浅入深,工作效率也由低到高。

里面的话,都是学员在答问卷的原话,非常真实的感受,所以,培训的逻辑,就是把半成品的机器翻译的结果,让译员最大程度的利用上,以减少译员自己的工作量和工作强度,提高效率,公司降低成本,这一点,培训中充分体现出来了,当然,也有一点点问题,不是所有译员对人机结合都感到舒适的。

这里涉及到了:“AI真的会取代人,减少工作机会”,这是一个重大的社会问题,从局部来看,是的。但是更大时间和范围来看,人还是有无数的事情要做。这里的一个技能是:人要学会和机器相处,让机器学会和人相处,就是咱们日常在做的AI研发,难度太大了。让人和机器相处,只需要学习和体验,就能做到。所以,让人屈尊配合机器,是眼前最现实的事情,虽然有不适,但应该不是大问题吧。Anyway,人机结合的不适,难道比时髦的VR大眼罩更不人性吗?

人屈尊去配合机器,意味着两件事:

第一、人可以给机器“更深度学习”的机会,对PE翻译来说,因为我们的译员,是最深度的用户,所以他们每一次对机器翻译结果的选择和修正,都是机器学习的最好样板。这种集中的人群应用,是谷歌等通用引擎梦寐以求,但是找不到的目标人群。(因为谷歌翻译不支持深度人机交互,只有一个选项:你觉得结果好还是不好)。

第二,人机结合的翻译,几乎只有在中国可以深度运转。不单是因为中国有最多的劳动力,还因为中国是世界上独一无二的全语种的体制课程教育体系。

也就是说教育部下属大学里,可以学到世界上所有实用的语言,在美国,人力很贵、译员更贵,不会有公司有成本动用这么多人力来做人机结合的服务。反过来,也没有这么多专业人士来反哺AI的成长。

这里顺便打个广告,嘿嘿。商鹊网5月21日,也就是上周六和猪八戒签署了一个战略合作协议,商鹊为猪八戒的翻译频道提供产品、系统、服务、招募和BD等一系列的运营支持服务。因此,商鹊网形成了一个翻译的闭环,从需求到生产,从研发到培训,生产和AI研发可以互相借力成长,猪八戒是“服务业的淘宝”,所以它有能力把分散的翻译需求集中到一个大平台上来。

▌众包 PK 垂直引擎之PE

这里要解释一下,PE和众包的关系

一般来说,像设计,法律、翻译等服务业,目前想到的互联网解决办法,就是众包,翻译类的众包有过很多平台,无一类外都含恨离去,我跟猪八戒的最资深外包服务的人探讨这个问题,最后都认为问题出在供应方。过去一般认为,有需求,把客户找上来,让服务商蜂涌上去,问题就解决了,实际上,一个服务的需求千奇百怪,匹配合适的供应商的成本,远高于服务本身的价值,所以我们的解决办法,是让供应商在服务的产品、流程和交付质量,以及服务商品牌上下功夫。

让最主要的需求有标准化的产品来服务,而翻译服务要做到这一点,IT技术和翻译技术是必须的,说了这么多,说一个实际案例。

商鹊网使用PE,为中国和日本的专利客户提供翻译服务。日本客户对信息管理、对质量苛求非常严格,我们从一个第五层的分包商成长为直接的翻译供应商,依靠的就是PE生产的高效、低成本,以及稳定的质量。资深翻译一定比我们的普通译员做得好,但是人总有累、病的时候,还有多个译员翻译习惯不同术语不统一等等,这些问题机器不怕。机器解决了术语准确和统一问题,人是辅助优化的。因此,我们刚毕业的本科学生,即胜任了工作5年以上的老译员,效率还更高。

▌PE说,它要飞得更高

那么,在专利领域是酱紫,我们做到了全世界(不含糊)最优的翻译成本,其他领域呢?

中国人不再把生活局限在出生的这个国家了,从上学、租房、买房、投资理财、养老保险、求医问药、学习移民等等,还有日常的跨境购物和旅游,生活空间出国了,但是俺们那嘎达的乡音难忘也难改,不懂英文咋办?

陪同翻译的服务不是我们要做的,但是有更大的需求:基本上大家认为超过60%的有价值的英文信息还是没有中文版的,现在大家能够看到大部分英文世界的NEWS的中文版,但是编辑好的information,以及更深度的Knowledge,咱们是看不到中文版的。或者看到的很晚、很不全,很贵。

譬如,魏泽西同学死于绝症,但是莆田人盈利导向的资讯,是让他遗恨的地方。中国人上网求医问药,一个字到网上,有1000个莆田人在等你。实际上欧美有很科学、真实的医、药、病的数据库,把这些数据库翻译成中文,是有价值的。还有就是投资,买美股。一般中国人除了中概股之外,能对4000家美国主要上市公司里的100家有所了解?还有更多的基金公司、基金产品,保险产品,能了解多少呢?

要想做一个国际人,即要有国际的资讯氛围。过去没有,是因为这里的翻译工程成本太高、效率太低了!

现在有机器翻译——针对浏览级的需求;人机结合的深度翻译——针对资料、精读级的需求,因此,现在翻译也变了。

翻译不再是一个不管内容的语言转换,是一个多语言转换和智能知识管理的综合工程。做到这一点,翻译很有意思了。我们在小规模的翻译服务里,发现生意可以反哺AI研究,不完全依靠VC输血。而另外呢,则对未来的AI智能应用前景充满期待。所以,很期待和同怀AI梦想的大家,一起走到那一天,我的唠叨先到此。

本文作者:宗仁

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-15 14:28:17

什么样的机器翻译比Google还要占优? | 硬创公开课的相关文章

商汤科技曹旭东:为何深度学习几乎成了计算机视觉研究的标配?| 硬创公开课

联合编辑 宗仁 黄鑫雷锋网(公众号:雷锋网)雷锋网雷锋网 今年夏天,雷锋网将在深圳举办一场盛况空前的"全球人工智能与机器人峰会"(简称CCF-GAIR).大会现场,谷歌,DeepMind,Uber,微软等巨头的人工智能实验室负责人将莅临深圳,向我们零距离展示国外人工智能震撼人心.撬动地球的核心所在.如果你不想错过这个大会的盛世狂欢,请点击文末购买我们的早鸟票. 本次CVPR 2016上,深度学习几乎成了如今计算机视觉研究的标配,人脸识别.图像识别.视频识别.行人检测.大规模场景识别的相

地图中的语义理解 | 硬创公开课

今年8月,雷锋网将在深圳举办一场盛况空前,且有全球影响力的人工智能与机器人创新大会.届时雷锋网(公众号:雷锋网)将发布"人工智能&机器人Top25创新企业榜"榜单.目前,我们正在拜访人工智能.机器人领域的相关公司,从中筛选最终入选榜单的公司名单.如果你也想加入我们的榜单之中,请联系:2020@leiphone.com. 编者按:本文整理自搜狗公司王砚峰在雷锋网硬创公开课上的演讲.王砚峰是搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人.承担输入法.号码通.个性化新

人工智能的冰与火之歌:回顾2016,展望2017(余凯)丨硬创公开课

编者按:本文内容来自地平线机器人创始人兼 CEO 余凯博士在雷锋网第 100 期硬创公开课的分享. 2016 年,人工智能在美好理想和残酷现实的夹缝中野蛮生长.当从业者们认为,人工智能时代是"技术为王"的时代,但面对价格战.商务战.公关战时,技术似乎不再是唯一的信仰.当从业者们认为,手握学术大牛.刷爆各种榜单就能所向披靡时,"AI 产品经理比科学家重要"."刷榜是没意义的"等反驳性观点也越来越被业内认可.当从业者们认为,招一大批名校博士就可与巨头

从世界冠军到数据科学家 他是如何炼成的? | 硬创公开课

大数据这个词我们听得太多了,可是很少有人意识到,随着互联网的发展,今时今日的这些"大"字究竟已经意味着一种什么样的量级.除去少数哗众取宠的使用这个词的公司外,那些真正拥有大数据的企业,经手和处理的都是一些普通人可能穷极一生也接触不到的数字:微信朋友圈每天会上传10亿张图片,支付宝日交易额峰值超过200亿元人民币,京东每天上传几百万张新的商品信息图-- 这些数字对于急需数据训练的人工智能算法来说是莫大的好消息.也意味着数据对于人工智能的重要性正在随着计算能力.算法的发展而呈直线上升.但是

牛人解读: 如何从一个青年科学家变成首席科学家? | 硬创公开课

相信不少学者在面对艰深的科研课题的时候,心中都有过那么一丝疑惑:这东西何时能实现产业化,真正造福社会?尽管心中的信念不会因此动摇,但疑惑仍然长时间的存在着.一项新技术从在实验室中诞生,到最终投入大规模使用,这其中经历的艰难和磨难会远远多于常人的想象.学术研究和商业化应用可以说是几乎同样困难的两个课题.有人醉心于探索科技最前沿的方向和理论,但也有人更希望自己能帮助将这些技术落地到具体的产品中去,真正的为大家服务.这些人中的很多最后都去到了相关公司的实验室中贡献出自己的一份力量,也有些自己创业,开始

探讨医疗人工智能之眼科AI的真实应用场景(肽积木CEO柏文洁)丨硬创公开课

雷锋网按:目前全球范围内大约有 4.15 亿的糖尿病患者,单是中国就有 1.1 亿左右,而糖尿病视网膜病变致盲问题也愈发受到人们的关注. 据悉,只要在发病初期定期进行眼底检查,失明风险可下降 94.4%.但由于眼底病灶微小,部分医生经验不足等原因,使得诊断中可能出现漏诊.误诊的情况,因此,借助 AI 辅助诊断是未来的一大趋势. 那么如何将人工智能应用在眼底检测当中,雷锋网(公众号:雷锋网)邀请医疗影像公司肽积木CEO柏文洁做了一期以<探讨医疗人工智能之眼科AI的真实应用场景>为主题的公开课,从

纯干货:微软漏洞中国第一人黄正——如何用正确姿势挖掘浏览器漏洞(附完整 PPT)|硬创公开课

       浏览器就像一扇窗,通过这扇窗,黑客可以攻入电脑的心脏. 就像情场高手,通过眼睛,融化一个人的心灵. 黄正,百度安全实验室 X-Team 掌门人.2016年,这个信仰"技术可以改变世界"的低调黑客大牛以一己之力挖掘无数浏览器漏洞,创下了排名微软 MSRC 2016 年度黑客贡献榜中国区第一(世界第八)的壮举. 从一个安全开发工程师华丽转身,成为安全研究员,黄正最终站在了中国浏览器漏洞挖掘的顶峰.本期硬创公开课,我们将会请到黄正为雷锋网宅客频道的读者童鞋们奉献一场纯干货--如

老罗推荐的讯飞语音,有这些 know-how | 硬创公开课

据说,看了锤子手机发布会的人,印象最深的就是老罗演示讯飞语音输入那一段(从视频的第100分钟开始).很多人表示自己受到了深深的震撼.但"震撼"之余,我们也应该冷静下来,清醒地认识到语音输入的春天,在科技史上已经来过 N 次了.究竟是什么,让2016年的语音输入变得不一样,让讯飞的语音输入变得不一样? 为了解答这个问题,雷锋网请来了讯飞输入法产品总监,或者用时髦的说法"讯飞输入法之父",为大家解解馋. 雷锋网雷锋网雷锋网 嘉宾简介 翟吉博,讯飞输入法产品总监.2009

语音识别的痛点在哪,从交互到精准识别如何做? | 硬创公开课

语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如Siri以及各种语音助手,到现在,语音识别的应用已经完成了向智能硬件以及机器人上延伸,不过,新的人机交互对硬件.算法要求更加苛刻,各企业正面临着巨大的挑战. 那么实现人机交互需要解决哪些问题?这其中的关键技术有哪些?人机交互的未来趋势如何?本期硬创公开课邀请了科大讯飞的研发主管赵艳军为大家答疑解惑.雷锋网雷锋网(公众号:雷锋网)雷锋网 分享嘉宾:赵艳军,AIUI项目负责人,科大讯飞云平台研发主管,负责讯飞