大数据下客户金融产品购买概率预测

模型

基本假设:客户每日的持仓,是基于当时金融市场情景以及股票属性作出决策的独立事件。

 

该逻辑回归Logistic Regression模型简单描述如下:

客户购买持仓股票概率是指客户在指定日期购买持有指定股票的概率。表述如下:

其中,为自变量,为需要判定的系数。自变量包括客户特征,股票特征,以及当日市场特征,系数, 通过回归或极大似然估计获得。之后可将估计因子应用于购买预测,求得的P∈[0,1]即为客户股票购买持仓概率。样本标记为指定客户在指定日期是否持有指定股票。以唯一客户号标记客户,以唯一股票代码标记股票,以日期标记市场数据。日终持有为 1 正样本,没有持有为 0 负样本。

◆ ◆ ◆

基础数据


请各位不要问我数据来源:)

 

1 客户数据

  • 基本特征:
  • 客户交易流水,可提取客户历史易特征。
  • 客户交易系统操作记录,可提取客户交易系统操作特征.
  • 外部客户数据,包括客户画像其他属性:信用属性,消费属性,兴趣爱好,社交信息等,百度的标签体系可为每个人打上24大类,268小类,几千个标签。

下表为客户特征:

2 股票数据

Wind等数据提供商提供的股票数据包括:基本信息,股本信息,财务,薪酬,关注度,行情,技术指标等。

新闻信息:目前Wind等数据提供商已将新闻主题词提取并关联相关股票,还给出了正负效应。

 

3 市场数据

Wind等数据提供商提供的市场数据包括:利率,汇率,财政,价格指数,国内外贸易,景气指数以及新闻等。

 

4 客户购买记录

客户过去一年每日持仓记录。

 

 

◆ ◆ ◆

数据处理与模型实施

1  数据量预估

  • 样本数:

假设客户数为1000万,目前A股有2800多股票,取过去1年购买记录为样例,大约是250天,那么产生的样本数为大约7万亿,但只需记录持仓信息,假设人均10只股票,那么需存储的记录大约为250亿条。负样本不用存储,在模型计算时产生。

  • 特征数:

客户特征关联股票特征再关联市场特征,将产生百万维以上特征,特征稀疏。

250亿条百万维稀疏矩阵,大约是几十TB。估计需50台普通PC服务器的Hadoop/Spark集群,可满足数据处理和特征提取。对TB级百万特征逻辑回归模型运算,我尝试过国内厂商基于Spark的平台,可以支持。另一条路是针对这个大规模机器学习的具体问题定制优化。我也试用过国内一家新兴大数据公司第四范式公司的数据建模产品,他们对高维稀疏矩阵做了深度定制与优化,仅在10台普通PC服务器就可以处理该数据量级别逻辑回归运算。  

2  金融特征提取

由于我们将每日交易行为作为独立事件。既假设股票特征,市场特征在样本中都是独立的,而我们在做交易决定时可能更关心特征在指定区间内的变化如股票中技术指标等。所以市场数据以及其他股票数据也需要将变化趋势转换为特征,如变化率,以及以涨跌标记变化趋势,如+代表涨-代表跌,++--表示过去四个周期的一种变化趋势。

 

由于二级市场企业公告的时间周期为季,宏观市场指标有月也有年,而新闻的时间频率可以为秒,并且客户特征也是随着时间变化的。将不同时间周期的数据统一归结为按日期的特征必须处理有大量数据。从而可以保证,样本是指定客户在其当时的特征下,根据当时的市场特征以及股票特征做出的购买持仓决定。

 

3 模型效果评估

这是我很迷惑的部分,这么高维度的特征数据,如何根据需求判断不同参数的结果优劣。一般评估模型效果都是用AUC (Area under the Curve of ROC) ROC曲线下面积,ROC为接收者操作特征曲线(Receiver Operating Characteristic Curve)。

而我们实际会选择排序列表作为推荐名单,这时,阀值Threshold的选取就很重要。一些商业的产品会使用其他参数来评估。每当看到AUC莫名的增长,总是让人喜悦的,虽然有时会发现是由于数据处理错误导致的:(

实践中,我们完全可以用模型预测过去一段时期的购买持仓,并和实际交易数据对比。在类似案例中的测试结果表明,相对于简单规则和随机预测,该模型的准确率可提供10倍以上。这个结果也是可以预期的,在高维数据,不断迭代局部优化,可以捕抓一些长尾特征。如下图,可以捕捉那些少数群体特征。


总结

1  本文讨论用逻辑回归模型预测在金融市场情景下客户对指定金融产品的购买概率。认为可以假设客户每日的持仓,是基于当时金融市场情景以及金融产品属性作出决策的独立事件。从而可以在客户特征,金融产品特征以及市场特征三个方面关联作为样本数据,并以当日购买持仓为标记使用逻辑回归做预测。另外本文还探讨了TB级百万特征金融数据处理的一些方法与经验。

2  可能的应用场景,该模型方法可应用于金融产品推荐。

也许有人会疑惑该模型的商业价值,但难道您就没看到该模型是在沿着行为金融学基本问题“基于有限理性的金融资产预期定价问题” [1]向着“看不见的手”发起挑战吗?


假设我们可以将人的金融需求特征完成特量化,又将股票特征量化,结合当时市场场景,自动撮合交易。想象下,多么美好,再也没有泡沫与股灾。

在Matrix(黑客帝国中的主机)中一切皆有定数。

 

以上言论纯属YY,人的行为当然不能完全量化:)

3  如何将金融领域知识加入机器学习模型,是我很想感兴趣的部分,欢迎讨论。

原文发布时间为:2016-02-19

时间: 2024-07-29 08:49:29

大数据下客户金融产品购买概率预测的相关文章

Informatica孙大山:大数据下的生意经

ZDNet至顶网软件频道消息:目前,很多企业在完成数据收集后,就把这些数据闲置甚至丢弃了,这是非常可惜的,因为数据对于每个企业来说都是非常宝贵的资源.Informatica中国区资深技术顾问孙大山在做客ZDNet直播访谈时表示,"大数据遍布企业的方方面面,它不仅可以帮助企业规划自身资源,对企业内部做到更全面的内视:大数据也可以帮助企业更好地了解用户,通过数据分析推出一些以客户为导向的产品或以客户为针对性的服务." 企业在做大数据项目时需要注意一点,那就是大数据并不是一朝一夕就能完成的工

看行业观察家和技术专家对大数据在2017年的发展预测

又到了年终岁尾时,业界权威市场研究和咨询机构Ovum公司日前估计,大数据市场规模将从2016年的17亿美元增长到2020年的94亿美元.随着市场的增长,企业的挑战正在转变,对人们的技能需求正在改变,而大数据服务供应商的景观也在风云变幻.2017年将是大数据专业人士更为忙碌的时刻.以下是一些来自相关行业观察家和技术专家对大数据在2017年的发展预测. 1.对数据科学家的需求将减弱 组织对数据科学家的需求正在减弱,Ovum公司在其关于大数据趋势的报告中表示.该研究公司引用了来自Indeed.com的

提高收益 酒店大数据之客户数据收集

文章讲的是提高收益 酒店大数据之客户数据收集,收益管理在酒店运营中发挥着至关重要的作用,其精确的数据分析能够帮助酒店根据精准预测,提升效率.增加营收,而酒店标准化的实务操作则有助于发挥收益管理工具的最佳效果.通过制定和执行数据收集操作流程,细化客户类别,酒店可提高实务操作的标准程度,进而使收益管理工具更好地为酒店服务. 在和客户的沟通中,我们经常会被问到: 为什么我们酒店每年拼了命维持住一定的出租率甚至有时还有些提高,但是最终却发现酒店的收入不升反降? 如果酒店已经能够达到一个比较高的出租率的话

酒店大数据之客户数据收集

ZD至顶网软件频道消息: 收益管理在酒店运营中发挥着至关重要的作用,其精确的数据分析能够帮助酒店根据精准预测,提升效率.增加营收,而酒店标准化的实务操作则有助于发挥收益管理工具的最佳效果.通过制定和执行数据收集操作流程,细化客户类别,酒店可提高实务操作的标准程度,进而使收益管理工具更好地为酒店服务. 在和客户的沟通中,我们经常会被问到: 为什么我们酒店每年拼了命维持住一定的出租率甚至有时还有些提高,但是最终却发现酒店的收入不升反降? 如果酒店已经能够达到一个比较高的出租率的话,那么收益管理到底还

关于2014年大数据走势的十二项预测

文章讲的是关于2014年大数据走势的十二项预测,大数据已经在2013年成为世界范围内的大流行词汇,但在即将到来的2014年中,这一新兴技术又将迎来怎样的发展?我们在此作出十二项预测,希望提前把握未来一年大数据技术与市场的变化态势. "大数据"已经成为2013年最为热门的技术词汇之一.相关市场在发展极为迅猛的同时,也在过去一年中发生了不小的变化.我们看到Hadoop以及围绕其建立起来的生态系统从单纯作用于天才程序员及工程师的技术范畴转化为可资数据科学家利用的资源.企业已经开始接纳大数据技

大数据下的“商业学习实验”

一直以来电商圈都有一个问题,为何台湾的电商就怎么都发展不起来?这实在是可以"归罪于"他们太过于发达的超商门店,seven eleven 和全家便利店等开到到处都是,转角都能遇到爱.这也许是一方面,另一方面,是这些强大超商体系不断更新的技术商业知识体系,常有各种创意和最前沿的技术学习法.今天钛媒体电商研究院的电商课堂,就邀请<商业价值>编委刘梅来讲讲便利超市门店的"商业学习实验": 零售企业可能每天都会产生令人兴奋但有些风险的创意,这些点子要不要做?效果又

【阿里云产品公测】大数据下精确快速搜索OpenSearch

相信做过一两个项目的人都会遇到上级要求做一个类似百度或者谷歌的站内搜索功能.传统的sql查询只能使用like 或者FIND_IN_SET来实现.后者性能稍微好点但是必须要逗号分隔才可以实现匹配.甚至多条件的话还可能用到OR这是极影响系统性能的.        最近公司项目需要.主要是系统查询缓慢.并且查询精度不敢恭维.一开始想到的是Lucene 毕竟是一个开放源代码的全文检索引擎工具包 并且官方还在持续更新中.当时闲暇时间大概搞了将近一个星期的时间.索引的增删查改以及中文分词IKAnalyzer

广东横琴新区地税局打造“大数据下纳税遵从管理”

广东横琴自贸区自挂牌成立以来,登记注册企业已超20000家,其中已引进和在洽谈的世界500强企业52家,国内500强投资企业76家,各类企业总部858家."自贸区效应"带来了区域发展的提速增效,为横琴税收可持续增长奠定了坚实的经济基础. 随着今年5月营改增的全面实施,"互联网+税务"的深入推进,横琴地税人深深地认识到:打造创新驱动发展的税务信息和服务平台,加快创新资源集聚,推动税收体制创新驱动发展,既是促进辖区企业发展的重要途径,又是实现税收稳定.持续增长的必由之路

大数据下,24小时精准医疗或将在2020年实现?

一款名为GTX One的生物计算加速平台现身,引发了业内对于精准医疗行业新的看法.这款GTX One加速系统,通过算法创新充分释放FPGA的计算能力,相当于将一台超级计算机压缩到一个小盒子里:一张FPGA加速卡就能达到60台高性能至强Xeon CPU服务器的计算性能,极大地缩短了生物信息数据的计算时间.事实上,通过生物数据与医疗行业结合,生物医疗行业正在经历高速发展.此次英特尔在京推出的"英特尔精准医疗伙伴计划(Intel BioIT Partners)",有望在2020年实现24小时