日常新闻能用来精准预测股市动向吗?这篇聚焦开放数据的访谈或能给你答案

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译。

以下为译文:

日常新闻标题能用来精准地预测股市动向吗?这是Jiahao针对本次访谈中提及的数据集所提出的挑战。Jiahao从公开信息源中创建了面向股市预测的日常新闻数据集,用于一门他所教授的关于深度学习与自然语言处理的课程,并在Kaggle社区中分享。

在本次聚焦开放数据栏目中,Jiahao谈论了作为一名教师在Kaggle开放数据分析平台上共享数据集的理由,迄今为止Kaggle用户实现的一些重大的基准预测,以及他对基于新闻标题实现交易算法的可行性的看法。作为一名有AI创业经验的研究者和工程师,Jiahao是Kaggle's Datasets等开源平台与社区的积极倡导者。因此,公开自己的数据集,和Kaggle上的数据科学家一起讨论新的想法和创意,对他来说是一个很自然的举动。

访谈开始

您能向我们简单介绍下自己和一些经历吗?

我是一名研究人员,同时也是一名专注于深度学习与人工智能的工程师。从牛津大学毕业后,我加入了欧洲最好的(当然,至少我是这么认为的)创业孵化器Entrepreneur First公司。在我就职于EF期间,我成立了自己第一家创业公司,尝试为社交媒体营销提供AI支持。在这之后,由于FinTech公司的首席数据科学家致力于为信贷风险提供AI解决方案,我选择加入了这家公司。创业的经历使我对最新学术研究在工业中的应用有了更深入的看法。这也是为什么我在开源平台和社区中格外活跃。最近,我就职于伦敦一家投资银行的金融创新实验室。所以,我现在对金融创新和数据非常感兴趣。

在社区贡献上,我活跃于Kaggle、Github、Stack Overflow等平台。同时,我也是JulyEdu的一名讲师,教授深度学习和一些很酷的应用。

深入数据

是什么促使您分享这份数据集的?

使用新闻订阅来预测股市动向的做法并不新奇。我的硕士论文也是基于这个想法的。当我身处学术机构时,获取免费且高质量的数据是很容易的。然而,对于现实中的企业来说,却很少有这种免费的午餐。大多数的新闻供应商并不想公开他们的数据源。恰恰相反,这些供应商向他们的高级用户按月收取昂贵的订阅费用。

我真的不希望一个奇妙的点子仅仅因为无力购买数据而被迫放弃。


Kaggle上面向股市预测的日常新闻数据集

我真的不希望一个奇妙的点子仅仅因为无力购买数据而被迫放弃。因此,我尝试在公共领域内寻找一些替代品。很幸运的是,我找到了Reddit,在这里,每天都有人在一些频道讨论并转发新闻。多亏了Reddit众包的力量,我们如今才能够(当然,使用Reddit的API也很需要技巧)通过免费合法的渠道获取这些昂贵的数据。

您是如何使用这份数据集向您的学生(包括Kaggle用户)讲解自然语言处理与深度学习方面知识的?

首先,这份数据集听起来很酷。一想到自己能够预测市场的动向(尽管使用简单算法来预测实际市场动向的做法并不现实),大家都会感到很激动。但是,从根本上来说,这也是一个典型的NLP问题:文本分类。新闻文本数据作为输入,而股票动向则视为分类标签。在一门名叫自然语言处理中的深度学习的课程中,我用这份数据集教我的学生通过使用深度学习算法,比如CNN,解决这类问题。

对于那些可能有兴趣使用开放数据平台进行教学或研究的教育工作者,您有没有什么建议?

当然有。在一个开放数据平台中,教育工作者不仅可以从他们的学生,而且还可以从整个社区中获得反馈。人们在一起讨论并分享时,新的想法会随之产生。我是开放数据的强烈拥护者。这也是我在Kaggle上共享自己数据的原因。

您是如何搜集并清洗数据的?

这需要些技巧,日后我会专门写一份教程。(别担心,我并没有进行非法爬取)

关于社区

谈一谈您目前最喜欢的用于数据分析的Kernel

Andrew Gelé很棒。他写了一份非常详尽的解决方案,对新手有很大帮助。


这个Kernel所使用的Andrew Gelé词袋模型N-GRAM系数

同样地,大部分kernel目前使用的都是非常基础的解决方案(换句话说,都是导入其他的解决方案来处理问题)。对于这个数据集,我知道简单的方法仍能取得很好的效果,但我希望大家能够使用更为复杂的理论来解决这个问题,比如,使用Facebook最近发布的FastText。我将开设一门课程,教授如何在这份数据集上应用FastText。

您使用新闻标题预测股市时,最有趣的体会是什么?

“不要做白日梦” :P

很多学生和朋友告诉我,他们的算法在这份数据集上效果不错,但在预测真实股市时却没有那么有用。当然,首先你需要一种科学的评估方法,比如交叉验证。否则,当你认为自己正在基于某个数据集调整算法时,你实际上已经陷入了过拟合的陷阱。其次,这份数据集仅包含了8年的日常股市数据,大约2500个数据点,这对于任何一个严谨的评估方法都是远远不够的。最后,但同样重要的是,在真实市场中,新闻数据仅仅代表着真实世界的一个维度,更好的解决方法是结合代表不同维度的多个数据源进行预测。

如果这份数据被您的学生或其他数据发烧友使用,你会怎么想?

做任何你想做的事!

对开放数据的思考

您分享的数据集正在改变着世界,在您看来,有哪些方式能够容易地获取类似的开放数据?

正如我前面提到的,有些数据集真的非常昂贵。当然,我从不支持那些泄露版权数据的人。这种做法完全是错的。我倾向于使用公开且合法的替代品来避开障碍。如果一个有前途的项目因为承担不起昂贵的数据集而终止,那将会是一种耻辱。所以,最好的情况是,高级用户付费使用高级数据集的同时,开放平台的贡献者也能提供相同质量的替代品。这仍是一个健康的生态系统,每个人的需求都得到满足。

如果您能够免费提供另外任何一种数据用于分析,您会选择什么数据?

令大家兴奋不已的数据。

文章原标题《Open Data Spotlight: Daily News for Stock Market Prediction | Jiahao Sun》,作者:Megan Risdal

文章为简译,更为详细的内容,请查看原文:The Official Blog of Kaggle.com

时间: 2024-10-26 21:49:40

日常新闻能用来精准预测股市动向吗?这篇聚焦开放数据的访谈或能给你答案的相关文章

叶檀:像百度这种能提供精准预测的大数据才最有价值

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 5月29日,第21期创业家沙龙在上海绿洲大厦举行,著名财经评论人.知名专栏作家叶檀在现场谈到:"为什么现在美国很多专业工作找不到,但是有一个专业工作特别好找,就是大数据分析,因为数据不加分析就没有太大价值,互联网思维就是通过对大数据分析从而达到精准预测,百度平台把搜索大数据呈现出来,同时具有挖掘.预测和关联三大功能就有很大价值,不再

百度提供精准预测大数据最有价值

5月29日,第21期创业家沙龙在上海绿洲大厦举行,着名财经评论人.知名专栏作家叶檀在现场谈到:"为什么现在美国很多专业工作找不到,但是有一个专业工作特别好找,就是大数据分析,因为数据不加分析就没有太大价值,互联网思维就是通过对大数据分析从而达到精准预测,百度平台把搜索大数据呈现出来,同时具有挖掘.预测和关联三大功能就有很大价值,不再单纯凭经验来判断,这样的互联网思维才最有价值". 沙龙现场,当主持人问到什么是互联网思维的时候,叶檀回答"互联网思维给我两个最直观感受,第一个是扁

服务器-调用一个新闻接口时,每次只有第一次请求时能获取到数据

问题描述 调用一个新闻接口时,每次只有第一次请求时能获取到数据 我在使用http://apistore.baidu.com/apiworks/servicedetail/688.html 这个借口时碰到了一个问题,每次只有服务器重启第一次访问接口的时候能拿到数据,请问这是为什么?该如何解决? 解决方案 原来是自己初始化字符串的时候出错了

教你打造股市晴雨表——通过LSTM神经网络预测股市

作者介绍: Jakob Aungiers 现就职于汇丰银行伦敦总部,担任全球资产管理的开发副总裁.擅长机器学习,神经网络等领域. (以下为译文) 谈及机器学习,神经网络无疑是当前的热门话题.因此,在网络上围绕神经网络的教程和社区多不胜数.现在虽然有大量的公共研究论文和文章涉及LSTM,但我发现,这些理论和例子并没有显示出LSTM在时间序列预测上的真正实力.有鉴于此,我决定以本文作抛砖引玉之用,使用LSTM来预测一些时间序列-例如股市(使用Keras包,对应Python版本为2.7).此项目的完整

用大数据精准预测地震,每年将有1.3万人免于受难

08月08日21时19分,在四川阿坝州九寨沟县发生7.0级地震.让我们为逝者默哀,为生者祈福. 我们可以预知即将发生的地震.只是我们不知道如何尽快.尽可能多地向老百姓发出预警,从而提前避免大祸降临.地震灾害每年在全球范围造成超过13,000人死亡,500万人受伤或遭受财产损失,外加每年120亿美元(1980年-2008年平均值)的经济损失.所以理所当然的,科学家一直要面对来自公众的询问--对地震的预测能不能更准确一些?然而,对于此问题,得到的答案常常是否定的. 多年以来,预测地震几乎完全依靠对震

大数据分析助力金融业 可精准预测上市公司业绩

大数据分析,让这些精明的投资者先知先觉. 据英国<金融时报>报道,网络零售商Wayfair去年有一次公布了远好于预期的季报之后,股价大幅飙升逾20%.但是对于部分资管经理来说,这并不意外,因为他们通过一家名为Thinknum的大数据分析公司,从Wayfair在苹果应用商店的下载量以及评论数量等数据的变动中早已提前窥探到这种趋势. 尽管季报.分析师电话会.高管会议会.研报以及行业专家的评论一直是金融分析的基石,但大数据的重要性也日益凸显.Thinknum之类公司的特长就在于,他们能够利用社交媒体

地图搜索预测人流动向,政府监管与公民隐私如何兼顾?

导读:造成36人死亡的2014年上海新年夜集会踩踏悲剧令人唏嘘,利用地图搜集到的用户数据.大数据算法预警辅助政府进行社区管理,这样的悲剧或许可以避免.这种算法可以向中国政府就具有潜在危险性的集会发出预警,成为政府社区安全管理的重要工具. 但是,技术问题之后,涉及个人隐私和政治诉求的问题仍待解决,关键在于在社区安全和个人隐私或政府监控之间找到一个权衡点. ◆ ◆ ◆ 拥有大批用户的中国某互联网搜索公司,称他们收集到的用户数据可用于预测并预先制止在现实世界中可能引发致命性危险的人群集聚. 该公司拥有

多家机构预测:11月CPI和进出口数据有望转正

[本报讯]据经济参考报报道,进入12月,多家研究机构发布11月主要经济指标预测报告.普遍认为,11月我国居民消费价格指数(CPI)和进出口数据 同比增长幅度均有望出现年内的首次正增长. 兴业银行资深经济学家鲁政委认为CPI在11月份会转正.据他预测,11月CPI环比将增长0.4%:同比增长0.7%.鲁政委认为,CPI会在11月份转正,主要原因有两个:一个是北方和部分南方省市大面积雪灾灾害,令蔬菜等食品价格上涨明显.第二个因素是,翘尾因素负面影响显著下降.11月份翘尾因素为-0.2%,较10月份的

深度学习必备手册(下)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习的概念源于人工神经网络的研究,如果追溯深度学习的概念还是要回到2006年Hinton那篇论文,基于深信度网(DNB)提出非监督贪心逐层训练算法,未解决深层结构相关的优化难题出现的论