谷歌发布大型数据集合 让程序更好地理解人类语言

据外媒报道,谷歌于近日发布了一个大型数据集合--Wikilinks Corpus,它将可以帮助开发人员构建出可以准确解释人类语言的软件。Wikilinks Corpus中包含了来自各大网页及维基百科文章的4000多万条个人链接,它们则被称为mention。开发人员则可以通过分析每一条mention的内容以及目标文章的内容,进而确定一些模棱两可单词的意思。

谷歌在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。比如说,当把dodge写成Dodge时,它就是一个车子的品牌,而当写成to dodge的时候,它就是一个动词。

跟谷歌搜索算法非常类似,Wikilinks Corpus也是由在来自马萨诸塞大学阿默斯特分校的研究人员的协助下完成的,并且它的规模要比以往的数据集合都要来得大。更重要的是,它是免费的。虽然由于版权问题,谷歌无法发布个人网页的实际内容,但是它却可以提供获得这些内容的代码。

(责任编辑:蒙遗善)

时间: 2024-07-30 16:56:00

谷歌发布大型数据集合 让程序更好地理解人类语言的相关文章

Google发布了能理解人类语言的云服务

上周三,Google智能云开发工具加入了一种云端自然语言API.这项服务可以帮助开发者的应用理解人类语言. 这对Google来说是重要的一步.现在共有云的领域中,提供商的平台对人工智能的支持是一个火热的竞争点.有了自然语言处理,开发者就可以通过程序理解人类的交流.这也是人工智能助理和聊天机器人的核心. 这个API可以返回给应用程序文本,例如一篇文章的大意梗概,或者一句话的结构分析等.这个系统也可以识别文章涉及的实体,例如人物.组织.地点.事件或产品等. 这套API基于Google之前创立的Par

D1net阅闻:Google发布了能理解人类语言的云服务

Google发布了能理解人类语言的云服务   Google智能云开发工具加入了一种云端自然语言API.这项服务可以帮助开发者的应用理解人类语言.   微软已成为iPhone应用重要开发商 推出最新应用Pix   微软正在成为iPhone应用世界中的一个重要开发商.它已经将Office放上iPhone平台并且将电子邮件应用Acompli和日历应用Sunrise整合到了改版后的iOS版Outlook中.现在,微软想在iPhone平台上推出一款新应用,与苹果自己开发的内置摄像头应用展开竞争.这款新应用

Visual C++优化对大型数据集合的并发访问

摘要 应用程序性能不仅仅与速度有关.在 Web 服务器环境中,卓越的性能还意味着确保可以并发地为最大数量的用户服务.这可以通过高效地使用多处理器计算机和线程管理来达到.本文介绍了可以解决许多并发性问题的技术.一种方法是使用线程管理,在线程基础上控制对数据库的访问 - 这可以保护数据的完整性.在本文中,生成并提供了可重用的线程类.然后,对这些类进行了测试,并在实际环境中分析了它们的性能. 服务器应用程序的成功与否迟早将归结为性能.但是,服务器应用程序中的性能不完全等同于纯粹的速度.您还必须考虑并发

微软眼中的科技未来:大数据、人工智能和更自然的人机交互

昨天,微软CEO高级顾问Craig Mundie在人满为患的北航学术交流厅发表"科技改变未来"主题演讲,分享了微软对未来科技发展趋势的一些看法. Mundie的演讲大致谈了三个方面:大数据.人工智能和人机互动.微软认为随着大数据时代的到来,人们的各种互动.设备.社交网络和传感器正在生成海量的数据.而机器学习等人工智能手段可以更好处理这些数据,挖掘其中的潜在价值.Xbox的Kinect 3D体感摄像机是近期微软最引以为豪的科技之一,微软也希望可以继续通过用户界面的创新,让人们可以通过语言

谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程

在实际的机器学习开发中,开发者通常需要对数据集进行大量的耗时费力的预处理过程,以适应各种不同标准的机器学习模型(例如神经网络).这些预处理过程根据待解问题的不同和原始数据的组织形式而各不相同,包括不同格式之间的转换,分词.词干提取和形成词汇,以及包括归一化在内的各种数值操作等等.实际上,数据的预处理已经成为了机器学习开发中无法回避的一个难题. 针对这一难题,谷歌于 22 日通过开发者博客正式发布了一个基于 TensorFlow 的全新功能组件 -- tf.Transform.它允许用户在大规模数

谷歌发布透明报告:3年内政府数据请求次数翻番

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;北京时间11月14日消息,据TheNextWeb网站报道,谷歌今日发布最新透明报告显示,政府对用户信息的数据请求次数自从2010年以来翻了一番. 谷歌在其最新的透明报告中表示(同时也是谷歌第八次声明),政府数据请求次数的增长一部分是因为谷歌服务的不断增长(更多用户意味着更多请求),而在2010年以来至今,谷歌收到政府对用户数据的请求次数也相应增长了逾100%. 根据谷

谷歌发布安卓平台设备统计数据

美国时间周二,谷歌发布安卓平台设备统计数据. 安卓手机屏幕及像素密度统计数据如图所示.4 英寸左右大小屏幕安卓手机占比 79.9%,每英寸像素点数 200 到 300 之间的高清屏安卓手机占比 36.7%,每英寸像素点数 300 以上的高清屏占比 28.5%. 安卓各个版本的装机比例如图所示.安卓 4.1 和 4.2 的 http://www.aliyun.com/zixun/aggregation/16692.html">Jelly Bean 所占比例增长至 33%.

谷歌发布Android 4.2 详解果冻豆新特性

Android 4.2是谷歌新一代移动操作系统,它沿用了4.1版"果冻豆"(Jelly Bean)这一名称,与Android 4.1相似性很高,但仍在细节之后做了一些改进与升级,比较重要的包括:Photo Sphere全景拍照:键盘手势输入:Miracast无线显示共享:手势放大缩小屏幕,以及为盲人用户设计的语音输出和手势模式导航功能等. (谷歌发布Android 4.2 支持全景拍照和手势输入) Android 4.2操作系统的亮点是支持行业标准的WiFi显示共享工具Miracast

谷歌发布强大AI芯片和超算 要转型硬件制造商?

5月18日消息,据technologyreview报道,如果说人工智能(AI)能够迅速蚕食掉软件,那么谷歌可能拥有最大的胃口.在今年的I/O开发者大会上,谷歌发布了更为强大的芯片和以机器学习为基础的超级计算机,它们将有助于谷歌成为以AI为重点的硬件制造商. 谷歌发布强大AI芯片和超算 要转型硬件制造商? 在I/O开发者大会上,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)介绍了谷歌研发的新计算机处理器,用于支持机器学习技术.近年来,机器学习已经在IT行业掀起强大风暴.此举也反映出快速