百度翻译研发500天 曾经困惑一个月

  早在计算机诞生之初的上世纪40年代,人类就开始了对用计算机自动进行人类语言翻译的梦想的追逐。几十年来,作为自然语言处理领域最重要的研究方向之一,机器翻译技术不断取得突破。6月30日,百度完全自主投入、研发的在线翻译产品——百度翻译(http://fanyi.baidu.com/)正式上线,受到了业界和用户的普遍关注。这款由世界级顶尖机器翻译研发团队历时一年多时间打造的最新翻译工具,也曾遭遇过瓶颈困惑期。百度翻译研发负责人日前独家披露产品背后的故事。

  组建顶尖机器翻译团队

  互联网的出现,为机器翻译的研发和应用带来了空前的机遇和挑战。在中文搜索领域处于绝对领先地位的百度,也敏锐意识到了机器翻译的重要性,并于2010年初,组建了由世界级机器翻译专家王海峰博士和吴华博士领衔的机器翻译核心研发团队。他们二人皆有着10年以上的机器翻译研发经验,曾成功开发过机器翻译产品,也曾在国际机器翻译评测中以绝对优势获得第一,并发表过数十篇高水平机器翻译论文。王海峰更是自然语言处理领域世界上影响力最大、也最具活力的国际学术组织ACL(Association for Computational Linguistics)50年历史上唯一当选副主席的华人。

  技术攻关 解围一个月的困惑

  由3名正式员工和1名实习生组成的百度最初的机器翻译核心研发团队成立后,便迅速开始了百度机器翻译的研发。调研、规划、语料抓取、训练工具、解码器等工作全面铺开。

  在百度做机器翻译,一个重要优势就在于,百度强大的海量计算平台和丰富的海量互联网数据处理经验,可以支撑机器翻译团队从海量互联网数据中挖掘超大规模的双语语料。作为机器翻译领域资深专家,王海峰非常清楚这些双语资源在机器翻译中的价值。于是,双语语料的探测、抓取和处理,就成了百度机器翻译团队初期的重要工作之一。

  随着工作的开展,双语语料数量也迅速增加,当达到1000万句对的规模时,团队成员们都十分振奋,从事机器翻译工作多年的他们,从未使用这么大规模的双语语料训练过系统。但当看到基于这1000万语料训练的系统的翻译结果时,大家一下子都沉默了,翻译质量远比预期要低!仔细分析后发现,虽然这1000万语料已经是从更多的语料中选出的质量较高的部分,却仍有一大半的低质句对,例如:“how old are you”这么常用而简单的英文在网上却被大量地翻译为“怎么老是你”,“好好学习、天天向上”这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻为了“good good study, day day up”。这样的句对,利用已经使用的常规双语处理技术很难过滤掉。而如果不解决这个问题,语料规模再大也没有意义。于是,语料工作的重点迅速转到了低质语料处理。

  接下来的一个月,大家反复地分析、开发及实验,但又一次次陷入困惑,大量被同行证明行之有效的方法一时间都失灵了,成功过滤的低质语料不足10%。经过这个过程,大家逐渐看清了一点,解铃还须系铃人,要想有效处理与传统的文本数据差别非常大的互联网数据,还要更多地将传统文本处理技术与互联网技术相结合。于是1个月后,一套全新的互联网双语语料挖掘技术方案出炉了。基于这套技术,1000万句对被有效过滤到约400万。令大家兴奋的是,过滤过的400万语料训练出来的系统,其质量远远好于基于1000万句对训练的系统。新的互联网双语语料挖掘技术成功了!

  之后的时间里,高质量双语语料不断增加,翻译系统质量得以一路攀升。

  更本地化 擅长网络流行语

  仅仅一年多的时间里,百度翻译即以令业界惊叹的速度上线发布,并获得大量用户的肯定。与业界同类产品相比,百度翻译具有四大技术亮点:机器翻译核心技术、语料挖掘和过滤技术、海量计算技术、可靠的web前端技术。

  依托于百度在中文互联网技术上的优势,百度翻译尤其对中文网络语言有着独特的应对能力。如翻译“有木有、我勒个去、神马都是浮云”等网络流行语,百度都能准确翻译。从评测结果来看,百度翻译在应对日常用语和网络语言方面优势明显,尤其在翻译结果忠实反映原文语义及符合目标语言习惯这两项指标上表现出色。如在百度翻译输入“你们有什么要问的吗?”,百度翻译结果为达意贴切的“Do you have any questions?”;而在其他较为热门的在线翻译工具中输入该词,则分别出现了“What you have to ask it?”、“What do you have to ask?”等含偏差理解和语法错误的翻译结果。

  百度翻译相关负责人最后表示,百度翻译团队对机器翻译技术突破和产品完善的追求永无止境,期待更多用户使用体验和反馈,以不断提升翻译质量和产品功能,让用户受益。

时间: 2024-11-05 12:27:51

百度翻译研发500天 曾经困惑一个月的相关文章

百度翻译研发500天幕后:团队曾经迷茫一个月

[TechWeb消息]7月12日消息,继百度翻译6月30日上线后,其研发负责人日前披露了产品背后的故事.百度翻译由百度自主投入,历时一年多时间打造,也曾遭遇过长达一个月的迷茫期. 去年组建顶尖机器翻译团队 2010年初,百度组建了由世界级机器翻译专家王海峰博和吴华博士领衔的机器翻译核心研发团队.他们二人皆有着10年以上的机器翻译研发经验,曾成功开发过机器翻译产品,也曾在国际机器翻译评测中以绝对优势获得第一,并发表过数十篇高水平机器翻译论文. 在王海峰和吴华博士的组织下,一个由3名正式员工和1名实

技术驱动产品 解密百度翻译缘何“后来居上”

中介交易 SEO诊断 淘宝客 云主机 技术大厅 与传统行业相比,互联网行业新产品在竞争中的"先发优势"并不明显,尤其是用户黏性不大的产品,但也时有发生"后发先至"的案例.近日,百度翻译(http://fanyi.baidu.com/)正式上线,立即受到了行业和用户的普遍关注,对其翻译质量和特色的好评如潮. 作为一个新秀,百度翻译受到广泛欢迎和认可的原因更多在于它"技术驱动产品"的价值诉求.这款由百度公司完全自主投入.研发的在线翻译产品,凭借百度强

百度秘密研发“影子导航” 已申请技术专利

缺乏方向感的用户可能常常遇到这种困惑:即便看手机导航,你也不清楚自己的方位.也许走了很久,才发现走错了方向.百度公司近日申请的一项名为"导航用户朝向确定方法及装置"的http://www.aliyun.com/zixun/aggregation/17705.html">技术专利,或许可以帮助"路痴"朋友解决麻烦.利用这一技术,用户通过比较现实影子和地图上的"影子",就可以判断出正确的方向. 记者在国家知识产权局专利检索系统中查询发

实战案例分析 一个月指数500排名第一

之前就看见了许多实战案例分析的例子,但大多还是一些理论,并没有细节到每一个动作与步骤.今天,我的站刚好上线一个月.今天关键词排名一跃升为第一.看似偶然的事,实是必然.今天和大家分析新站真正快速排名的奥秘,希望其中有某一些改动,某一些细节可以让大家灵感一现,找到自己网站的优化之道. 这个站域名注册时间是6月28日,7月22号上线,迄今为止刚好1个月时间.凤凰古城,指数是5000-6000.凤凰古城住宿,指数500+.其中的热门度不用我说,大家搜索一下便知.当今天打开电脑时,看到网站已经排名第一,说

javascript实现 百度翻译 可折叠的分享按钮列表

 这篇文章主要介绍了javascript实现 百度翻译 可折叠的分享按钮列表的方法,需要的朋友可以参考下     自从开始学习前端后,平时看到浏览器上的一些出彩的控件都想自己实现一下O(∩_∩)O,不知大家有没有这个感觉.接下来就和大家分享一个,原控件来自百度翻译右下方,大家仔细找找应该能找到,如图所示: 感觉蛮有意思的,实现起来也不复杂,比较适合练手.好吧,废话不多说了,直接上代码吧. html代码:   代码如下: <!DOCTYPE html> <html> <head

PhalApi-Translate百度翻译拓展

PhalApi-Translate百度翻译拓展 前言 在全球化的脚步下,为了更好的用户体验翻译是少不了的(总有一些和我一样的英文菜鸡),所以给到用户最好的时当地语言,但是很多地方并没提供多语言,比如地理位置一般采集上来 的都是当地的语言位置信息,这个时候我们就需要用到翻译了,对比了很多翻译有道,谷歌翻译和百度翻译,最终还是选择了百度翻译,那么话不多说我们就开始具体介绍一下此拓展! 附上: 官网地址:http://www.phalapi.net/ 开源中国Git地址:http://git.osch

金山词霸与百度合作 全线接入百度翻译

4月24日消息,金山词霸与百度今日共同宣布达成深度合作协议,金山词霸网站.PC客户端.移动客户端全线接入百度机器翻译技术,百度词典将接入金山词霸多年积累优化的海量词典内容.据介绍,百度于两年前组建起机器翻译研发团队,主要领衔成员为机器翻译专家王海峰和吴华,百度历时一年 多时间自主研发了 多语言挖掘和机器翻译核心技术,发布了机器翻译产品百度翻译,提供中英.中日文之间的字词.句子和网页翻译.据悉,百度翻译上线不到一年,日均使用量达到数百万频次,近期还将上线英语论文写作助手.据悉,此次与金山词霸深度合

百度翻译正式上线 凸显四大技术亮点

中介交易 SEO诊断 淘宝客 云主机 技术大厅 日前,百度在线翻译服务--百度翻译正式上线.作为一款百度公司完全自主投入.研发的语言翻译服务,百度翻译目前可以提供中英文之间的字词.句子和网页翻译,并提供一键清空.复制,双语对照查看等功能.据悉,百度翻译的技术原理是机器自动从大量语料中学习并自动生成翻译结果,翻译结果不经过人工整理与编辑. 据了解,到目前为止,百度机器翻译完全依靠自主研发,没有借力任何外部技术和资金,充分体现了百度强大的研发实力.最新上线的百度翻译拥有四大技术亮点:卓越的机器翻译核

百度上海研发中心启动成立来最大招聘规模将翻三倍

挖贝网7月15日消息,今天,百度上海研发中心宣布启动成立以来的最大规模招聘,在年内引入200多名优秀的技术研发精英加盟.这也意味着,在此次招聘结束后,百度上海研发中心的研发规模将较目前扩大三倍有余. 百度上海研发中心成立于2008年12月,是百度最重要的技术研发机构之一,承担着包括搜索技术国际化支持等百度若干重要项目的研发工作.资料显示,本次百度上海研发中心招聘开放的职位,除了常规的搜索引擎研发工程师.JAVA高级研发工程师.测试开发工程师.Web前端研发工程师等职位外,还包括若干经济学者的招募