雅虎面向研究人员发布大规模机器学习数据集

据外媒报道,日前,雅虎推出了一个全新的“雅虎新闻推荐(Yahoo News Recommendation)”数据集,它被称为是有史以来对外公布最大的机器学习数据集。雅虎表示,这套数据集主要针对学术研究社团推出,这样他们在研究中再也不需要为无法获得大规模数据集而发愁了。

据悉,公开的数据集包括了1100亿个事件,其在未压缩的状态下总容量达13.5TB。

研究人员可以在数据集中找到匿名用户新闻交互数据等数据,这些数据则都是在去年早几个月从2000万名用户那里收集得到。

在Yahoo News Feed数据集中有来自用户与雅虎多个不同版块的互动数据,如雅虎电影、雅虎新闻、雅虎金融等。

另外,雅虎还在这套数据集中添加了一些人口分布数据,如性别、年龄及地理位置等。雅虎在一份声明中说道:“我们的目标是在大规模机器学习和推荐系统中促进独立研究的发展,并还要帮助在工业和学术研究之间创造一个公平竞争的环境。

本文作者:佚名

来源:51CTO

时间: 2024-10-09 15:49:32

雅虎面向研究人员发布大规模机器学习数据集的相关文章

研究人员发布攻击工具 SSL DOS不需任何带宽

研究人员发布了一个攻击工具,任何人都可以把提供SSL安全连接的网站攻击下线, 新的方法被称为SSL拒绝服务攻击(SSL DOS).德国黑客组织"The Hacker's Choice"发布了THC SSL DOS,利用SSL中的已知弱点,迅速消耗服务器资源,与传统DDoS工具不同的是,它不需要任何带宽,只需要一台执行单一攻击的电脑.漏洞存在于协议的renegotiation过程中,renegotiation被用于浏览器到服务器之间的验证.网站可以在不启用renegotiation进程的

苹果面向测试人员发布OS X 10.8.4测试版系统

    苹果公司正式发布了测试版的OS X 10.8.4系统,但是并没有详细说明新的测试版系统究竟包含了哪些更新及新功能. 根据知情人士透露,目前OS X 10.8.4测试版的版号为12E27,而之前OS X 10.8.3正式版刚刚在两周之前发布,版本号为12D78.目前测试版系统仅向AppleSeed的测试成员开放测试,预计用不了多久就会正式向所有开发人员发布.根据macrumors的消息,苹果已经要求参加测试的人员重点进行对WiFi.Safari及显卡驱动等内容的测试. 值得让人注意的是,本

国外研究人员利用谷歌、雅虎、必应搜索平台 快速找出药物副作用

据外媒报道,近日,国外研究人员发现了一种更快捷的药物副作用判定办法--通过分析来自谷歌.雅虎.必应的http://www.aliyun.com/zixun/aggregation/10293.html">搜索数据.据<纽约时报>报道,这种全新的方法将比早前采用的FDA(食品和药物管理局)警报系统还要来得快.据悉,谷歌早在2006年就开始通过搜素数据来追踪流感的传播和严重程度. 这支由来自微软.斯坦福大学和哥伦比亚大学研究人员组成的团队发现,在过去的一年里,在搜索帕罗西汀和普伐他

【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

你可能不记得第一次玩"超级马里奥兄弟"是什么感觉,但试着想像一下:蓝色的天空,棋盘石的地面,还有一个蹲着的红色男人在静静等待.他面向右方,你把他推到那个方向.再多走几步,就会看到一排砖块在头顶盘旋,看起来像是一个愤怒的蘑菇.这个人跳起来,他的四像素拳头指向天空. 对于20世纪80年代长大的人来说,这个场景听起来很熟悉,但是你可以在Pulkit Agrawal的YouTube频道上看到一个更年轻的玩家. Agrawal是加利福尼亚大学伯克利分校的一位计算机科学研究人员,正在研究天生的好奇

如何搭建大规模机器学习平台?以阿里和蚂蚁的多个实际场景为例

近年来,随着"大"数据及"大"模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注.针对这一刚需,本论文设计了一个独一无二的分布式平台--鲲鹏.它无缝的结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题.鲲鹏不仅囊括了数据/模型并行.负载平衡.模型同步.稀疏表示.工业容错等特性,而且还提供了封闭好的.宜于调用的API供普通的机器学习者开发分布式算法,降低使用成本并提升效率. 本论文的实验在十亿级别的样本和特征数据上进行,结果表示,鲲鹏这

安全研究人员推出鱼叉式网络钓鱼黑箱粉碎机

机器学习+编码,检测并报警妄图从员工处套取口令的尝试. 美国加州大学伯克利分校和劳伦斯伯克利国家实验室的安全研究人员,想出了企业环境中缓解鱼叉式网络钓鱼风险的办法. 来自这两个机构的几位研究员,在 Usenix 2017 上发表了论文<企业环境中检测凭证鱼叉式网络钓鱼>.论文描述了利用网络流量日志和机器学习的一套系统,可以在雇员点击嵌入电子邮件中的可疑URL时,实时触发警报. 鱼叉式网络钓鱼是一种社会工程攻击方法,针对特定个人进行,精心编造电子邮件,诱骗收件人安装恶意文件或访问恶意网站. 此类

大规模机器学习流程的构建与部署

文章讲的是大规模机器学习流程的构建与部署,现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解.SVM.逻辑回归.LASSO 等等).实际上,机器学习专家们很乐于指出的一点是:如果你能把机器学习问题转化为一个简单的数值优化问题,你就几近成功了. 当然,现实的问题是,很多机器学习项目是没法简化成一个简单的优化问题的.因此数据科学家们不得不去管理和维护复杂的数据项目,加之他们所要分析的问题经常也需要特定的机器学习流程.上游流程中每个阶段的决策影响下游流程的结果,因此流程中模块的连接

谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

  本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A   谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 新智元 1新智元编译    来源:ThingsExpo.Medium 作者:Natalia Ponomareva.Gokula Krishnan Santhanam 整理&编译:刘小芹.李静怡.胡祥杰 新智元日前宣布,获6家顶级机构总额达数千万元的PreA轮融资,蓝驰创投领投,红杉资本中国基

加州大学伯克利分校的一组研究人员计划推出开源芯片

[编者按]目前的芯片市场基本上被Intel.ARM 以及IBM等公司控制, 出于对现有计算机芯片的不满,加州大学伯克利分校的一组研究人员计划推出开源芯片.他们使用的 RISC-V 指令集架构最初用于进行计算机架构教学,但现在其开发者想要将其推向云计算和物联网等新兴市场领域.这个项目将为小企业和独立开发者带来福音. 以下为原文: 厌倦了当下的计算机芯片的局限性及其相关的知识产权限制,加州大学伯克利的一个研究小组,正在推动一个开源的替代方案.RISC-V指令集架构最初是开发用来帮助大学计算机架构的教