雅虎面向研究人员发布大规模机器学习数据集

据外媒报道，日前，雅虎推出了一个全新的“雅虎新闻推荐(Yahoo News Recommendation)”数据集，它被称为是有史以来对外公布最大的机器学习数据集。雅虎表示，这套数据集主要针对学术研究社团推出，这样他们在研究中再也不需要为无法获得大规模数据集而发愁了。

据悉，公开的数据集包括了1100亿个事件，其在未压缩的状态下总容量达13.5TB。

研究人员可以在数据集中找到匿名用户新闻交互数据等数据，这些数据则都是在去年早几个月从2000万名用户那里收集得到。

在Yahoo News Feed数据集中有来自用户与雅虎多个不同版块的互动数据，如雅虎电影、雅虎新闻、雅虎金融等。

另外，雅虎还在这套数据集中添加了一些人口分布数据，如性别、年龄及地理位置等。雅虎在一份声明中说道：“我们的目标是在大规模机器学习和推荐系统中促进独立研究的发展，并还要帮助在工业和学术研究之间创造一个公平竞争的环境。

本文作者：佚名

来源：51CTO

时间： 2024-10-09 15:49:32

雅虎面向研究人员发布大规模机器学习数据集的相关文章

研究人员发布攻击工具　SSL DOS不需任何带宽

研究人员发布了一个攻击工具,任何人都可以把提供SSL安全连接的网站攻击下线, 新的方法被称为SSL拒绝服务攻击(SSL DOS).德国黑客组织"The Hacker's Choice"发布了THC SSL DOS,利用SSL中的已知弱点,迅速消耗服务器资源,与传统DDoS工具不同的是,它不需要任何带宽,只需要一台执行单一攻击的电脑.漏洞存在于协议的renegotiation过程中,renegotiation被用于浏览器到服务器之间的验证.网站可以在不启用renegotiation进程的

苹果面向测试人员发布OS X 10.8.4测试版系统

苹果公司正式发布了测试版的OS X 10.8.4系统,但是并没有详细说明新的测试版系统究竟包含了哪些更新及新功能. 根据知情人士透露,目前OS X 10.8.4测试版的版号为12E27,而之前OS X 10.8.3正式版刚刚在两周之前发布,版本号为12D78.目前测试版系统仅向AppleSeed的测试成员开放测试,预计用不了多久就会正式向所有开发人员发布.根据macrumors的消息,苹果已经要求参加测试的人员重点进行对WiFi.Safari及显卡驱动等内容的测试. 值得让人注意的是,本

国外研究人员利用谷歌、雅虎、必应搜索平台快速找出药物副作用

据外媒报道,近日,国外研究人员发现了一种更快捷的药物副作用判定办法--通过分析来自谷歌.雅虎.必应的http://www.aliyun.com/zixun/aggregation/10293.html">搜索数据.据<纽约时报>报道,这种全新的方法将比早前采用的FDA(食品和药物管理局)警报系统还要来得快.据悉,谷歌早在2006年就开始通过搜素数据来追踪流感的传播和严重程度. 这支由来自微软.斯坦福大学和哥伦比亚大学研究人员组成的团队发现,在过去的一年里,在搜索帕罗西汀和普伐他

【越好奇，越强大】伯克利研究人员使用内在激励，教AI学会好奇

你可能不记得第一次玩"超级马里奥兄弟"是什么感觉,但试着想像一下:蓝色的天空,棋盘石的地面,还有一个蹲着的红色男人在静静等待.他面向右方,你把他推到那个方向.再多走几步,就会看到一排砖块在头顶盘旋,看起来像是一个愤怒的蘑菇.这个人跳起来,他的四像素拳头指向天空. 对于20世纪80年代长大的人来说,这个场景听起来很熟悉,但是你可以在Pulkit Agrawal的YouTube频道上看到一个更年轻的玩家. Agrawal是加利福尼亚大学伯克利分校的一位计算机科学研究人员,正在研究天生的好奇

如何搭建大规模机器学习平台？以阿里和蚂蚁的多个实际场景为例

近年来,随着"大"数据及"大"模型的出现,学术界和工业界对分布式机器学习算法引起了广泛关注.针对这一刚需,本论文设计了一个独一无二的分布式平台--鲲鹏.它无缝的结合了分布式系统及并行优化算法,解决了大规模机器学习算法带来的一系列问题.鲲鹏不仅囊括了数据/模型并行.负载平衡.模型同步.稀疏表示.工业容错等特性,而且还提供了封闭好的.宜于调用的API供普通的机器学习者开发分布式算法,降低使用成本并提升效率. 本论文的实验在十亿级别的样本和特征数据上进行,结果表示,鲲鹏这

安全研究人员推出鱼叉式网络钓鱼黑箱粉碎机

机器学习+编码,检测并报警妄图从员工处套取口令的尝试. 美国加州大学伯克利分校和劳伦斯伯克利国家实验室的安全研究人员,想出了企业环境中缓解鱼叉式网络钓鱼风险的办法. 来自这两个机构的几位研究员,在 Usenix 2017 上发表了论文<企业环境中检测凭证鱼叉式网络钓鱼>.论文描述了利用网络流量日志和机器学习的一套系统,可以在雇员点击嵌入电子邮件中的可疑URL时,实时触发警报. 鱼叉式网络钓鱼是一种社会工程攻击方法,针对特定个人进行,精心编造电子邮件,诱骗收件人安装恶意文件或访问恶意网站. 此类

大规模机器学习流程的构建与部署

文章讲的是大规模机器学习流程的构建与部署,现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解.SVM.逻辑回归.LASSO 等等).实际上,机器学习专家们很乐于指出的一点是:如果你能把机器学习问题转化为一个简单的数值优化问题,你就几近成功了. 当然,现实的问题是,很多机器学习项目是没法简化成一个简单的优化问题的.因此数据科学家们不得不去管理和维护复杂的数据项目,加之他们所要分析的问题经常也需要特定的机器学习流程.上游流程中每个阶段的决策影响下游流程的结果,因此流程中模块的连接

谷歌大规模机器学习：模型训练、特征工程和算法选择 (32PPT下载)

本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 新智元 1新智元编译来源:ThingsExpo.Medium 作者:Natalia Ponomareva.Gokula Krishnan Santhanam 整理&编译:刘小芹.李静怡.胡祥杰新智元日前宣布,获6家顶级机构总额达数千万元的PreA轮融资,蓝驰创投领投,红杉资本中国基

加州大学伯克利分校的一组研究人员计划推出开源芯片

[编者按]目前的芯片市场基本上被Intel.ARM 以及IBM等公司控制, 出于对现有计算机芯片的不满,加州大学伯克利分校的一组研究人员计划推出开源芯片.他们使用的 RISC-V 指令集架构最初用于进行计算机架构教学,但现在其开发者想要将其推向云计算和物联网等新兴市场领域.这个项目将为小企业和独立开发者带来福音. 以下为原文: 厌倦了当下的计算机芯片的局限性及其相关的知识产权限制,加州大学伯克利的一个研究小组,正在推动一个开源的替代方案.RISC-V指令集架构最初是开发用来帮助大学计算机架构的教

猜你喜欢

“视频”摸索赚钱门道

赚钱网易科技互联网视频长成了一片大草地,但现实景象却是"风吹草低没有羊"--泛滥的内容带不来大把钞票.无论中国还是美国都是一样. 新浪.AOL上充斥着视频,CCTV和CNN等开 ...

Flash MX 2004实例制作视频教程：《老鼠爱大米》MV制作 (2)

教程|视频教程第 101 节:<老鼠爱大米>MV制作 (2) 课程目标:制作<老鼠爱大米>MV 课程要点:使用Flash MX 2004制作流行歌曲<老鼠爱大米> ...

Windows Server 2008 IIS7 UrlRewriteModule规则

^archiver/((fid|tid)-[\w\-]+\.html)$ archiver/index.php?{R:1} ^forum-([0-9]+)-([0-9]+)\.html$ forumd ...

用ADO压缩Access2000库

#include "utilcls.h" void CompactDatabase(String f1,String psw1, String f2,String psw2) { ...

在Word 2007中打扮插入的页码

我们在准备打印输出文档时,为了方便查看都会插入页码,但久而久之你是否发觉每篇文档都使用那几种固定的页码格式,没有丝毫新意,那就让我们一起来精心打扮一下插入的页码吧! 1.单击"插入& ...

2016年轻薄商务本精选推荐哪些

戴尔燃7000 从去年开始,电脑行业迎来了一股微边框风暴,对微边框这一探索,不仅在美观度上有更鲜明的特性,同时对视觉体验也有着本质性的提升.而继XPS 13这款高颜值的微边框笔记本之后,戴尔再度 ...

Win 8中没有声音的解决问题步骤

Windows 中没有声音的解决问题步骤.本教程可帮助你识别和修复 Windows 中的常见声音问题,包括扬声器或耳机没有声音的问题. 本教程不涉及与特定程序相关的声音问题. 声音问题可能由电缆未 ...

电脑内存怎么扩大点？

虚拟内存虚拟内存让系统更流畅 1.虚拟内存的作用内存在计算机中的作用很大,电脑中所有运行的程序都需要经过内存来执行,如果执行的程序很大或很多,就会导致内存消耗殆尽.为了解决这个问题,Windo ...

dom4j xml写入-dom4j为什么每写入一次xml都增加一行空格啊

问题描述 dom4j为什么每写入一次xml都增加一行空格啊 OutputFormat format = OutputFormat.createPrettyPrint(); XMLWriter xw = ...

C++非类型模板参数

对于函数模板与类模板,模板参数并不局限于类型,普通值也可以作为模板参数.在基于类型参数的模板中,你定义了一些具体的细节来加以确定代码,直到代码被调用时这些细节才被真正的确定.但是在这里,我们面对的 ...

mysql xtrabackup在线搭建主从

使用xtrabackup进行在线的主从搭建: [root@mysqlserver var]# tar -xvf Percona-XtraBackup-2.3.4-re80c779-el6-x86_64 ...

JAVA存取对象属性时，如果开程多线程，记得对相关存取方法作原子化操作定义

最显著的应用当然是银行存款和取款,不要存在存取数字和实际发生不一样的情况. synchronized关键字. class BankAccount { private int balance = 100 ...

和我一起学Effective Java之泛型

泛型不要在新代码中使用原始类型泛型(generic):声明中具有一个或多个类型参数原始类型(raw type):不带任何实际类型参数的泛型名称格式: 类或接口的名称 < 对应于泛型形式类 ...

ImageMagick 与 JMagick

ImageMagick 官网 http://www.imagemagick.org/script/index.php JMagick 官网 http://www.jmagick.org/index.h ...

[华为机试练习题]24.删除链表中的重复节点、剩余节点逆序输出

题目描述: 题目描述: 输入一个不带头节点的单向链表(链表的节点数小于100),删除链表中内容重复的节点(重复的节点全部删除),剩余的节点逆序倒排. 要求实现函数: void vChanProces ...

宝典——操作系统、数据库和网络

操作系统.数据库和网络 1 作业.线程.进程.管程作业:由三部分构成,即程序,数据和作业说明书,它是用户在完成一项任务过程中要求计算机系统所做工作的集合. 进程:一个程序在一个数据集合上的一次运行过 ...

重磅！阿里妈妈首次公开自研CTR预估核心算法MLR

一. 技术背景 CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次 ...

[UWP]涨姿势UWP源码——IsolatedStorage

原文:[UWP]涨姿势UWP源码--IsolatedStorage 前一篇涨姿势UWP源码分析从数据源着手,解释了RSS feed的获取和解析,本篇则会就数据源的保存和读取进行举例. 和之前的Wind ...

在2013年中让网站天天拥有快照的新技巧

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅春节也过得差不多了,网站也逐渐步入 ...

想让两台终端之间的通信进行加密，实现方法是在两台终端处各安装一个加密芯片，哪种芯片能实现我说的功能？

问题描述想让两台终端之间的通信进行加密,实现方法是在两台终端处各安装一个加密芯片,哪种芯片能实现我说的功能? 我在做一个项目研究,想让两台终端之间的通信进行加密,实现方法是在两台终端处各安装一个加密 ...

网络推手用微博“造谣生事”被拘留今后网站微博推广可否不?

中介交易 SEO诊断淘宝客云主机技术大厅网络推手从互联网诞生之日起就早有传闻,面对推手这一行业,大多数媒体对其识别其伎俩则为止,然而,最近北京警方打掉一网络推手公司,抓获秦志晖(网名" ...

Entity Framework CodeFirst数据迁移

原文:Entity Framework CodeFirst数据迁移前言紧接着前面一篇博文Entity Framework CodeFirst尝试. 我们知道无论是"Database Fi ...

Object-C---&gt;Swift之(九)延迟存储属性

Swift引入了一种新的机制–延迟存储属性机制,在第一次被调用时才会被计算初始值的属性,声明时需要使用lazy修饰符. 注意:定义属性时一定得是变量(var),常量是无法使用延迟存储机制. 什么时候用 ...

《R语言数据分析》——1.5　从其他统计系统导入数据

1.5 从其他统计系统导入数据在最近一些学术项目中,我的任务是在R中实现一些金融模型.我要分析的样本数据是Stata的.dta文件.对于工作在学校的咨询工程师,在没接触过Stata的前提下,要理解其 ...

Oracle 丢失更新问题的解决方案

丢失更新是数据中一个比较常见的经典问题,在做项目时我们有时可能会没有注意到这个问题,但这个问题相当重要,有时会带来比较严重的结果.下面我们就来讨论下这个丢失更新. 一.什么是丢失更新: 用一个操作过程 ...

asp.net 修改/删除站内目录操作后Session丢失问题_实用技巧

后来经过试验发现,如果删除改变的目录不属于当前项目所在虚拟目录,则Session可用,相反则不可用:调试跟踪中提示的:Session.get_item()--返回null: 后经过研究发现,在虚拟目录 ...

Attempt to refer to a unregistered pool by its alias &amp;#x27;myPool&amp;#x27; 急！！！

问题描述不好意思各位:我没有可用分了哦!jpa启动报错啊atorg.logicalcobwebs.proxool.ConnectionPoolDefinition.doChange(Connecti ...

陌陌的付费用户猛增，背后的运营增长逻辑是什么？

提到陌陌,很多人对它的印象还停留在两三年前的约炮工具上,不得不说在社交领域真正能和腾讯对抗的也只有微博和陌陌这两家.无独有偶,这两家公司都在中概股一片凄惨的环境下逆市而上,都有着焕发第二春的迹象.微博 ...

文艺青年的文艺范儿营销

他们也许比较抗拒商业,但会心甘情愿为兴趣买单,通过很多品牌就足以勾勒出一个文艺青年的肖像. "文艺青年"是继"小资"之后兴起的一个身份标识,这是有别于大众的一类 ...

创业板发审委候选人名单出炉券商集体缺席

每经实习记者谢沵涵上周五,证监会披露了第一届创业板发审委委员候选人名单,候选人共计77人,包括会计师事务所.律师事务所.资产评估机构.国家发展和改革委员会.科技部.中国科学院.基金管理公司,一共七 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.