我们为什么要这样联想|用哲学论证客户画像体系的复杂性

◆ ◆ ◆

摘要

哲学是各类学科的升华版,本篇文章将借多年前福柯的《词与物》[1]中的哲学立场,讨论个人客户画像特征体系构建中的问题,从哲学的角度来论证客户画像体系的复杂性。

 

我们完全可以从哲学角度得到启发,探讨不基于特征体系描述客户,而是用时间轴上的系列事件标记客户,并通过深度学习LSTM模型预测事件发生概率。提出一种跨领域统一推荐模型新思路。

 

◆ ◆ ◆

一、引言

众多学科都可以从哲学中找到源头以及趋势,现今的人们对计算机学科更多的认识是一门理工学科,知道众多的算法的源泉是数学,但哲学真的对计算机学科无用吗?

 

那我们就来看看法国哲学家马歇尔.福柯在1966年著述的《词与物》是如何来论证目前客户行为事件模型的,并引申讨论模型的发展。

 

◆ ◆ ◆

二、从特征到个人客户画像

1、什么是特征

“那个被选作确切的同一性和差异性之场所的结构,就是被称作特性。” [1]特征是为了差异更是为了相似性,福柯认为相似性与特征(符号)是必然联系,因为相似性是建立在对这些特征(符号)的记录和辨认上。而且他一直强调相似性的重要:“直到16世纪末,相似性在西方文化知识中一直起着创建者的作用。”[1]“产生于特殊事件的一般归纳,或者不如说科学的种类、逻辑和所有抽象观念,都是借助相似性而形成。”[1]同样,相似性在模式识别、分类、监督学习、非监督学习等机器学习概念中的有着同样的重要性。

 

2、基于个人客户画像的特征库

目前业界的个人画像主要在机构内部数据结合外部数据基础上构建。如对原始数据进行特征提取,得到如下客户特征:

 

图一 (来源[2]

在实施过程中可以为个人客户画像中每个人打上几千个各类标签。再结合具体的推荐场景如股票购买概率预测模型[3]中特征要求,应用于具体推荐模型中。实践中一般还使用特征选择模型来决定哪些特征适用具体场景。并且由于很多关键属性缺失,还需要一些数据挖掘模型用于特征推断,比方逻辑回归,决策树,标签传递等。

 

3、特征体系能完全标记人的行为吗?

特征体系是系统研究相似性,标识个体与分类的合理的、必然的途径。福柯对体系的定义是“选择一组确定的和相对有限的特征,其恒定和变换能在任何自身呈现的个体中得到研究” [1],他在认可这一途径的同时也指出该方法的不足。书中举了个例子:“中国某部百科全书中动物可以划分为:1属皇帝所有,2有芬芳的香味,3驯顺的,4乳猪,5鳗螈,6传说中的,7自由走动的狗。。。”他在惊叹如此分类的想象力的同时也指出“体系在展开过程中是任意的” [1],“有可能把方法凭经验而限定的从外部强加的修正应用于一般特性:被人们认为对一个种群来说重要的一个特征,很可能只是另一些动物的特殊性” [1]。让我们回顾上一部分中客户特征分类以及特征,似乎还比较合乎常理,但似乎也有些随意。前文[2]也试图从行为金融学相关观点应用于个人金融画像特征提取,但不足以根本解决这个问题。

福柯大师也意识到“特征的确立,既是容易的,又是困难的。” [1],“为了确立起所有的同一与差异,将有必要考虑在一个描述中可能被提及的每一个特征。这是一毫无止境的任务。” [1]而且他还意识到特征“都是在相互联系,相互混合并且或许能相互转换” [1]。现在,我们非常容易理解这些特征之间的这种关系。认为基因和特征存在映射关系的话,在遗传算法中,会通过一系列的遗传算子来确认后代,包括交叉算子、变异算子这些都可以导致基因相互联系与转换,从而导致特征同样变化。

而且人的行为更是动态的,情景的,那可想而知构建合理的特征体系作为客户画像的难度。那我们是不是可以试试其他途径呢?

 

◆ ◆ ◆

三、从特征 到 事件

1、什么组成了堂吉诃德


“每个插曲,每一个决心,每一种不合时宜的行动,都象征着唐吉坷德”[1]

如果塞万提斯不是用那么一部伟大的长篇巨著描写唐吉坷德的总总境遇,而是用一堆特征来标记。哪怕他是塞万提斯,哪怕他用8888个特征标记唐吉坷德,难道我们能比现在更感受到那样的一个唐吉坷德吗?如果要YY一部《唐吉坷德在异界》,难道不是原著中那些事件的描述比8888个特征更能预测唐吉坷德骑士在异界中的种种行为吗?

 

2、从个人行为事件的客户画像到跨领域统一推荐模型

让我们试着忘记特征体系,是否可以尝试只通过那些在时间轴上,在特定场景下的总总事件来构建客户画像呢?

假设已合法的收集个人行为数据。一行样本数据包括,客户编号,事件类型,该类事件环境,事件行为的描述(当然还是可能需要用特征标识)等。那么我们将得到如下数据。

接下来,探讨基于个人行为事件的客户画像构建跨领域统一推荐模型。我们假设这些事件是独立,正样本是历史上不同客户在各领域已发生事件。考虑到数据的时间特性,应该选择RNN模型。但进一步考虑到长期历史行为对个人行为的影响,最终决定使用LSTM(Long-ShortTerm Memory)模型。以天为时间周期,每周期训练数据为指定日期的客户行为事件数据。通过LSTM模型,预测未来客户发生指定事件的概率。

该框架不同于以往跨领域深度学习模型中样本数据,不再基于客户特征画像体系,而是用事件轴上的系列事件标记客户,使用深度学习LSTM模型预测客户当前事件发生概率。

这仿佛在做着《少数派报告》中的事。但放心,这只是推荐模型而已。而且就像电影中结局,人的行为是种选择,一念天堂,一念地狱。人心当然不可测。

 

◆ ◆ ◆

四、总结

我们借多年前福柯的《词与物》[1]中的哲学立场讨论了个人客户画像特征体系构建中的问题,从哲学的角度来论证客户画像体系的复杂性。我们完全可以从哲学角度得到启发,探讨不基于特征体系描述客户,而是用时间轴上的系列事件标记客户,并通过深度学习LSTM模型预测事件发生概率。提出一种跨领域统一推荐模型新思路。

也希望在数据科学领域,给大家一个新思路,不仅仅从数学的角度来研究量化数据,更可以从哲学来思考数据,得到更多的数据分析灵感。

  原文发布时间为:2016-09-14

时间: 2024-10-24 11:26:11

我们为什么要这样联想|用哲学论证客户画像体系的复杂性的相关文章

乐Pad本月底上市杨元庆称联想更了解本地客户

每经记者 谢晓萍 发自北京 自苹果iPad平板电脑一举成功后,诺基亚.LG电子.戴尔与惠普等各大手机与电脑厂商均开始试水平板电脑设备. 日前,全国政协委员.联想集团CEO杨元庆在两会期间接受<每日经济新闻>采访时表示,联想乐Pad将于3月底正式上市,这意味着联想继宣布打造智能手机乐Phone之后,在移动互联网战略中又向前迈出了一步. 杨元庆表示,移动互联网是联想增长的一个重要领域.据联想预测,未来2年平板电脑将占到PC市场的10%至15%.此外,杨元庆还透露了部分两会提案,在科技领域,他建议国

联想(西部)产业基地完善供应链体系 巩固全球领先优势

2011年12月19日,联想集团和成都市政府在成都高新区西部园区举行联想(西部)http://www.aliyun.com/zixun/aggregation/39183.html">产业基地工厂投产暨研发中心落成庆典,共同宣布联想(西部)产业基地建成投产.其中,生产中心已经进入试投产阶段,明年四月份将进行量产,五年内年产能将达到1000万台.研发中心专注于移动互联网服务和高可靠系统加固技术等领域的创新研发.联想(西部)产业基地的落成与投产,将使联想全球供应链.研发和销售运营体系的布局更加

看哈耶克如何论证基于行为事件的客户画像

◆ ◆ ◆ 理论:哈耶克基于事件的统一意识表达框架 虽然业界的客户画像基本上都是基于标签体系,但是就如前些日子的百度世界大会上大力的推荐其"千人千面"客户画像能力,给用户打了60多万个标签,庞大的标签体系更是证明了特征的随意性以及确认的困难性,这也和福柯的观点相一致. 哈耶克也认为,我们不应纠结于意识是什么而更应关心意识做了什么.因此意识是难以定义的,与之类似的问题,意识或感知的特征也是难以确认的.哈耶克认为这是可以通过有意识过程行为以及无意识过程行为观察的. 这些过程行为是指发生在我

杨元庆:向世界证明联想

在联想并购初战告捷之际,<中国企业家>杂志独家专访杨元庆.柳传志,披露联想整合内幕. 那么是什么让联想三年下来交出了一份还令投资人满意的答卷? 你或许可以从IBM对联想收购的一系列支持(从品牌到资金).联想中国区不辱使命的惊人增长等事实中找到部分答案,但从根本上,作为一家收购前并未踏出国门的中国本土公司,联想甫一跳入中国与世界.东方与西方激荡与碰撞的洪流中,便能立稳脚跟.阵形不乱--虽然,这样的冲击可能已逼近联想内力所能承受的极限--得归功于联想前20年千锤百炼打造出的扎实的管理水平和正直进取

有没有大讨论,联想都要面对 “第四道槛”

年前 1月29日,联想集团在北京首都体育馆举办了盛大的 2016年 春节联欢会,联想员工近万人参加. 联想控股董事长.联想集团创始人柳传志也参加了这次年会.在众多员工面前,一片欢庆之中,柳传志也不无忧心地指出了联想集团的问题,称其正在经历 "第四道槛". "由于技术创新,商业模式的创新,使得我们现在所在行业的主要业务--PC 业务的规模实际被压缩,而我们集团的新业务--手机.服务器.互联网服务等,和我们自己的当量,和我们社会地位相比,尚不匹配." 在 PC 领域,联

联想企业网盘助力石油石化建设办公协作平台

   3月24日,2017石油石化企业云计算和大数据技术应用研讨会在美丽的杭州拉开帷幕.本次会议邀请了各市石油石化行业的领导企业,和一批互联网行业的先进企业,大家齐聚一堂,共同探讨在大数据环境下,石油石化行业如何实现信息化转型升级. 联想企业网盘有幸受邀参与了本次会议.会上,联想云存储副总经理张跃华先生发表了主题演讲.张总表示,在当今数据暴发的环境下,全球企业的非结构化数据每年都以60%-80%的速度进行增长,而企业里的非结构化数据又占总数据的80%,企业员工60%以上的时间都在使用非结构化数据

联想否认锁住设备以及阻止用户安装Linux

一些联想新瑜伽设备用户准备起诉联想,理由是联想阻止他们在设备上安装Linux操作系统.他们表示,在联系联想产品专家之后被告知,无法安装Linux是由于微软和联想之间的协议所导致.现在,联想发言人否认锁住设备以及阻止用户安装Linux的指控.联想发言人表示,这个问题是因为全行业正在为固态硬盘提供RAID模式,以提高数据读写性能. 联想不会在客户设备上阻止他们安装其他操作系统,但用户需要依赖于其他操作系统厂商发布相应的驱动程序.这位发言人表示,当相应的驱动程序和内核支持到位之后,用户可以在他们的设备

洞悉趋势践证变革——联想发布数据中心及行业智慧解决方案

3月24日,以"洞悉趋势 践证变革"为主题的联想数据中心及行业智慧解决方案发布会在深圳隆重召开.在会上,联想发布了包括<联想数据中心解决方案>.<联想智慧城市解决方案>.<联想智能制造解决方案>.<联想政务云解决方案>.<联想基础教育解决方案>以及<联想IT咨询服务>在内的数据中心及行业智慧解决方案.联想集团高级副总裁.中国区总裁童夫尧指出,"数字经济已经成为未来新一轮产业竞争的关键点.在这样的市场环境下

探秘Mr.H 联想打造“合伙”式超融合架构

本周,联想在广州推出了新一代超融合解决方案,围绕虚拟化为核心进行全面升级,包含针对KVM虚拟化进行优化的联想AIO-H1000,以及针对企业数据保护特性进行强化的联想AIO-H3000两款产品,他们就是联想称之为Mr.H的超融合产品. 联想DCG打造全球化企业级方案 联想集团副总裁.企业云总经理尉伟东在接受记者采访时表示:联想现在有很多新的战略和组织,DCG(数据中心业务集团)其实是以原来联想做服务器.做企业产品为基础成长出来的群体,它的定位是"给全球组织企业提来供企业级方案和产品",