让我来告诉你,为什么大数据并不能帮你找到女朋友


2月14日是虐狗节,去年看过一篇文章,讲如何通过大数据找到你的另一半(见参考资料)!里面通过理性建模和精准定位找到合适伴侣,不过大数据真有这么神奇么?我就随便聊聊约会APP算法和现实中策略。

我们很多人抱怨现实中约会很难一下子找到宿命中的人,在线网站也让找到真爱的几率变大,操作又容易上手。据我所知,目前微信,陌陌,探探,世纪佳缘,match,tinder很多这样的“严肃”交友(约会)的工具,他们号称采用大数据建立人物画像,采用KNN聚合,DNN神经网络,帮你提升匹配率,找到人生幸福另一半,事实上是这样的吗?

工作原理

当 你把你的简历在这种网站或者APP更新,一些算法就开始准备潜在合拍的。然后给你打分,或者随机给你几个选。而这些结果基于也许就几十个,一般你回答几个 问题,或者你产生的一些行为。基本数据:年龄、身高…户口所在地、毕业学校、工作单位、家庭状况。一些网站最厉害的问你100个问题,什么喜欢的颜色,食 物,运动,偶像,喜欢看的书类型,然后开始关联账号,微信,微博,比如微博、微信等社交媒体的内容及更新频率,QQ登录及在线时间,更新发型频率,作息时 间规律,经常出现的场所。

这些背后就是对用户行为做预测和匹配,跟亚马逊,Netflix去预测产品差不多,不同的话Netflix推荐电影给你,电影却不需要反向去关注你。下面就介绍一个有趣的匹配算法。

稳定婚姻匹配算法

1962年,美国数学家David Gale和Lloyd Shapley发明了一种寻找稳定婚姻的策略,人们称之为延迟认可算法(Gale-Shapley算法)。

为了让大家相信数学家不是真得如此无聊,我要指出它确确实实是一个地道的组合数学问题,有其特定的数学价值。当然啦,它也有很多别的背景和应用,比如用来在若干个公司和应聘者之间进行招聘中介……但是数学家们怎么会放过如此八卦的一个名字呢?于是它就这样流传下来了。

规则如下:

先对所有男士进行落选标记,称其为自由男。当存在自由男时,进行以下操作:

①每一位自由男在所有尚未拒绝她的女士中选择一位被他排名最优先的女士;

②每一位女士将正在追求她的自由男与其当前男友进行比较,选择其中排名优先的男士作为其男友,即若自由男优于当前男友,则抛弃前男友;否则保留其男友,拒绝自由男。

③若某男士被其女友抛弃,重新变成自由男。

在 算法执行期间,自由男们主动出击,依次对最喜欢和次喜欢的女人求爱,一旦被接受,即失去自由身,进入订婚状态;而女人们则采取“守株待兔”和“喜新厌旧” 策略,对前来求爱的男士进行选择:若该男子比未婚夫强,则悔婚,选择新的未婚夫;否则拒绝该男子的求婚。被女友抛弃的男人重获自由身,重新拥有了追求女人 的权利——当然,新的追求对象比不过前女友。

这样,在算法执行期间,每个人都有可能订婚多次——也有可能一开始就找 到了自己的最爱,从一而终——每订一次婚,女人们的选择就会更有利,而男人们的品味则越来越差。只要男女生的数量相等,则经过多轮求婚,订婚,悔婚和再订 婚之后,每位男女最终都会找到合适的伴侣——虽然不一定是自己的最爱(男人没能追到自己的最爱,或女人没有等到自己的最爱来追求),但绝对不会出现“虽然彼此相爱,却不能在一起”的悲剧,所有人都会组成稳定的婚姻。

这个是数学界切切实实研究过的问题。对于以前没有接触过这个问题的人,这个理论最出人意外的结论是:传统的求爱,结婚过程是male-optimal的,也就是说,男性能够得到尽可能好的心上人,女性却不然。这就是所谓的稳定匹配问题(StableMarriageProblem,也叫稳定婚姻问题)。

真的行得通吗?

那么问题来了,这些数据和计算之后的结果会导致更好的匹配吗?我想还是不行。这些约会工具越来越多,成功的反而越少。伯克利大学还做过调查,比如说美国人只有5%是从网上认识建立长期关系(only 5 percent of Americans in long-term partnerships met online. )

那个报告说了几点有意思的,个性习惯的相同对健康的两性关系也没啥帮助。就算算法再复杂,也对找到合适对象没多少帮助,除非你把可能遇见的人数增加。

但最麻烦的还是用户会说谎,对他们多高,多重,收入,年龄都可能是瞎扯,如果给你选择年薪3万,30万,在没有任何信用的情况下,你选哪个?或者你随便填个数,你怎么不上天呢?这样建立起来的模型有什么意义?

还有一点,有些人号称需要一些硬性指标和条件,一定对方多高,多有钱,多牛逼,但真正相处,也许就不会这么要求了。然后就发现那些把钱放在考虑第一位的人,照样dating艺术家或者弹吉他的。

有些交友网站,让你去填个问卷调查,什么心理分析,性格色彩,MBIT,喜欢的电影,(还有要填政治理想的!)如果拿这些作为匹配可能是误区,但换一个思路,通过用户的活跃度和发布的朋友圈来做。那么这就得去监控用户行为,后台将这些动作作为依据去迭代模型。

到底约几次才能找到真爱?

这 是个有趣问题,老派的约会方式是去本地的PUB,比如你有1%的可能性对方同意要约,你得去100次才能搞定一个。而作为另外一方,应该用什么策略来接受 约会邀请?其实根据博弈论,拒绝掉前37%的你想要约会的人,然后挑选下一个出现的比前37%都要好的人。令人惊讶的是,你最终将找到真爱的几率为 37%,具体计算过程不展开了,参考文档在最后。

约会APP和其他方式

其实通过这些网上APP,你极大增加曝光率,因为池子大,还可以加过滤,来个快速排序:)总体上这种方式未必浪漫,但高效啊。还有哪些方式去约呢,比如公司同事(读到一个调查1/3的公司员工,包括上下属约会也占很大比例),书店(听说高晓松老师刚开的书店还促成了眷侣),微博(我一个程序员朋友就这样认识他爱人后来结婚了),甚至微信公众号留言都有可能。。。

最后啊,大数据能不能帮你找到对象,我还是持怀疑态度的,大数据是理性推理的工具,但人心是很善变的,女人心更是海底针,只能感慨一下:就算知道了所有的道理,还是过不好这一生。

====================================分割线================================
文章转载自 开源中国社区[http://www.oschina.net]

时间: 2024-09-15 00:12:10

让我来告诉你,为什么大数据并不能帮你找到女朋友的相关文章

哈佛教授用3个大数据案例告诉你:大数据,重要的不是数据!

 "满城尽谈大数据",但很多人其实并不理解大数据真正价值是什么,哈佛大学Gary King教授用3个大数据研究案例告诉你:有数据固然好,但是如果没有分析,数据的价值就没法体现. 2017年初,哈佛大学政治学系教授加里·金(Gary King)在上海交通大学举办了一场名为<大数据,重要的不是数据>(Big Data is Not About the Data)的讲座. 主讲人Gary King是哈佛大学的校级教授(University Professor).King教授以实证

三个小故事告诉你:大数据并非“遥不可及”

在很多人眼里,似乎一夜之间,大数据变成一个IT行业中最时髦的词汇.对于非专业人士来说,大数据似乎遥不可及,一听就很难接触.下面三个小故事告诉你,这些都是大数据应用,数据就在每个人身边. 奢侈品营销 PRADA在纽约的旗舰店中每件衣服上都有RFID码.每当一个顾客拿起一件PRADA进试衣间,RFID会被自动识别.同时,数据会传至PRADA总部.每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间,数据都被存储起来加以分析.如果有一件衣服销量很低,以往的作法是直接干掉.但如果RFID传回的

5个故事告诉你何为“大数据”

在今天,大数据被人们用来描述和定义信息爆炸时代产生的海量数据,而大数据的潜在价值存在于对数据的分析和挖掘.在凌乱纷繁的海量数据背后,表达了互联网用户日常生活中什么样的感觉与情绪?一些领先机构试水发掘大数据价值,这样的案例在社会中已崭露头角. 故事一 跑步时听什么音乐是个大问题 作为全球最大的运动品牌公司之一,耐克曾在官网上公布了这样两则信息:"在冬天,美国人比欧洲和非洲人都更喜欢跑步这项运动,但美国人平均每次跑步的长度和时间都比欧洲人短."所以耐克计划在不同的市场区域做好不同的产品划分

Ponemon Institute告诉你,大数据正在勾搭网络安全

    这年头,凡事不和大数据挂钩,都不好意思出门了. 网络安全也是,但是这次不仅是挂钩这么简单,人家还是有调查数据显示两者之间的关系的. 8月,为了了解网络安全大数据分析的现状.基于网络安全应用的Apache hadoop1与网络安全大数据分析之间的关系,安全研究中心 Ponemon Institute发布了一份<大数据网络安全分析研究报告>,该研究项目由大数据公司Cloudera出资赞助. 在这项研究中,Ponemon Institute采访了592位美国IT及IT安全从业人士,10位网络

一文告诉你,大数据在智慧医疗领域发挥的作用

 智慧医疗是医疗信息化的升级发展,通过与大数据.云计算技术的深度融合,以医疗云数据中心为载体,为各方提供医疗大数据服务,实现医生与病人.医生与护士.大型医院与社区医院.医疗与保险.医疗机构与卫生管理部门.医疗机构与药品管理之间的六个协同,逐步构建智慧化医疗服务体系.其中,健康大数据平台的搭建为智慧医疗奠定了基础. 针对大数据在智慧医疗应用中担当的角色,ADI公司亚太区医疗健康行业市场经理王胜先生认为:"大数据在智能医疗应用中,尤其是在疾病预防类以及慢性病的监测方面都会发挥重要的作用.例如,生活方

可视化告诉你,大数据究竟是什么?

导读要深入理解大数据,需要提高数据的可视化水平.在此过程中,数据可以变得更具可塑性.可行性,最终更加人性化. 在谷歌图片搜索有关"大数据",会出现很多个由三维"0"和"1"组成的图片:有一些解释性的信息图表:甚至出现"黑客帝国"的界面.在人类能够理解的范围内,大数据究竟是什么样子呢? 如果问一家大公司的首席执行官什么是"大数据",他们可能会描述一些类似于黑匣子(飞机上的飞行记录器)的东西,或者在白板上画一朵

大数据的设计师帮你快速搞定一个极简风格网站

  如何快速做出一个极简风格网站?国外某个网站统计分析了112个明显带有极简风格的网站后,发布了这篇超级干货.全程都是以数据来说话,从占比最大的设计要素开始说起,有案例有分析,把极简风格的设计彻底发挥到了术的地步. 最小化设计的目标是移除界面当中不必要的元素或内容,减少干扰,使界面最大程度的支持用户的任务流程. 要将界面以恰当的方式简化到只保留必要元素的程度,设计师需要对一系列与最小化策略高度相关的设计模式有所了解.界面设计,就像人类的语言一样,最终是由人们的使用方式所定义的.如今,虽然"最小化

为啥大数据帮不了你找到女朋友

虐狗节刚刚过去,去年看过一篇文章,讲如何通过大数据找到你的另一半(见参考资料)!里面通过理性建模和精准定位找到合适伴侣,不过大数据真有这么神奇么?我就随便聊聊约会 APP 算法和现实中策略. 我们很多人抱怨现实中约会很难一下子找到宿命中的人,在线网站也让找到真爱的几率变大,操作又容易上手.据我所知,目前微信,陌陌,探探,世纪佳缘,match,tinder 很多这样的 "严肃" 交友(约会)的工具,他们号称采用大数据建立人物画像,采用 KNN 聚合,DNN 神经网络,帮你提升匹配率,找到

大数据工程师练成记之首重:知识体系一览!

我们想要告诉大家的是成为大数据工程师需要掌握的知识体系,而作为初学者,你可以先从简单的入手,慢慢在学更深的知识,拿出高考的恒心和坚持来,肯定能行. 值得一提的是,目前大数据工程师的月薪都是20K起,月收入两万的薪资是不是很诱人?而且大数据工程师是非常容易找到工作的,所以--Why not 不扯犊子了,由于篇幅所限,这一部分内容主要包括数据可视化.机器学习和算法三个分支. 数据可视化 R R不仅是编程语言,同时也R具有强大的统计计算功能和便捷的数据可视化系统.在此,推荐大家看一本书,这本书叫做<R