大数据帮忙定制爱情

宅男们总幻想为自己定制一个女朋友,也许他们的愿望将不日达成。不是借助3D打印机,而是靠大数据时代的婚恋网站。

2012年底,网易旗下全新婚恋交友网站“花田”上线。花田以免费沟通为卖点,主打一二线城市中高端市场。摒弃了传统婚恋网站的“人工红娘”,花田不提供任何人工服务,从推荐到搜索全由系统自动完成。而业内的龙头老大世纪佳缘(Nasdaq:DATE),也在换帅之后摩拳擦掌,试图用大数据的精准化运营,为在海量异性资料中疲于搜索的用户“指一条明路”。

一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证,网站可获得用户真实姓名、年龄、性别、地区等身份证数据,对防止诈骗有一定作用。但如今各家都有,这种传统打法就过气了。毕竟有身份证的人,不一定是有身份的人。婚恋网站已将条条框框的硬指标罗列齐全,使人几乎怀疑进入的是淘宝人肉市场。当身高、体重、年龄、学历等等都一一框定,一看还有2000个姑娘(小伙)符合要求,是时候让理性回归感性了。而这感性,又是建立在理性的数据分析之上。

花田界面清新简洁,采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情,展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人,这就促使用户拿出更新微博的劲头来更新花田,为花田积累了大量可供分析的软性数据。

“我们可以通过‘内心独白’来挖掘用户的性格特征。”网易花田负责人夏天宇说。夏天宇在网易已工作11年,此前他的团队负责网易微博的研发,而他最早的工作是Oracle数据库管理。

现在,他和他的团队正试图通过自然语言处理技术和语义分析方法来解码用户性格,实现“软硬兼施”的精准推荐。首先,他们运用切分词方法,从用户的“内心独白”中提取出现频率较高的关键词;再将这些关键词分类,如感性词汇或理性词汇;最后,通过文本分析、语义分析,从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。这一技术目前还在测试中,2013年下半年会逐步投入使用。

自2012年12月28日向全国开放注册以来,花田注册用户已近25万,每日活跃用户4万人。虽然发展迅速,但较之业界前辈,花田用户少得甚至吸引不来骗子。但网易的技术储备却不容小觑。“有道”搜索提供的自然语言处理技术,被用于通过文本挖掘用户性格。网易自研的原本用于网易邮箱的人脸识别技术,更是婚恋网站求之不得的利器。

花田团队只有30多个人,大多是85后。他们在对海量软硬数据进行分析的基础上,总结出一些人物特征,建立出一定数量的人物模型。再分析具体用户,将其分门别类套入各种模型。这样,用户心仪其中某一个人,便可向其推荐这一类人。

这种模型不仅是性格模型,还包括外貌模型。“我们马上要推出人脸识别。比如你想找个像范冰冰的女生,你输入范冰冰,就会推荐给你很多范冰冰脸型的女生。”夏天宇介绍,花田的后台已经提取出范冰冰脸型的数据,之后还会推出几十种流行的男女明星脸型供用户选择。

更令人感兴趣的是,如果花田能够跨产品平台,结合网易门户、邮箱、游戏等其它网易资源进行大数据分析,是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢?真正的大数据必然是跨平台的,而这点别家很难做到。

但跨平台数据提取在一定程度上又涉及用户隐私。大数据的底线在哪里?夏天宇认为,涉及到银行的数据绝对不可碰触。这个范围就很广泛。不过可以确定的是,网易不会在花田影响力和用户量都不足的时候开启跨平台数据分析。

“我希望花田能盖一个五层楼,每层装不同类别的人。一个收入五万块的人进来,也不感觉这里有很多屌丝。”夏天宇这样描述自己对花田的愿景。虽然少了王子配灰姑娘的浪漫童话,倒也实实在在为用户省去不少筛选麻烦。

数据分析不只可用于精准推荐,还能识别婚恋网站最为人诟病的造假和诈骗。2012年底,创始人龚海燕辞任世纪佳缘联席CEO后,另一联席CEO吴琳光担任CEO。吴琳光曾在空中网担任副总裁兼手机游戏事业部总经理。加入世纪佳缘后,他首先做的就是引入大数据来提高用户体验。世纪佳缘的数据分析团队开发出一套网警系统,由以往的被动等待用户举报骗子,改为主动出击。

“对我们来说,花篮托儿和酒吧托儿的危害最大。”世纪佳缘CEO吴琳光介绍,这两种人的特点是希望长期运营,不会像真正的诈骗犯,令受害者报案。钱虽不多,却最让人恶心。

酒吧托儿的特点是照片极美,却只有一两张。花篮托儿则是相貌堂堂、言语温柔的中年大叔,但只打电话不见面。忽有一天声称自己公司要开业,向女方求送花篮,骗个一两千块。他们的共同特点就是一上来便要联系方式,尽快离开网络平台,用电话这种难以管控的方式来建立亲密关系。

通过对骗子这些行为模式的数据分析,世纪佳缘制作出一套骗子识别模型,已经投入使用。令人捧腹的是,吴琳光本人也曾因测试产品,被这套网警系统抓个正着,“我符合坏蛋的特征,上来就找女性直接要联系方式。”

吴琳光向我们分享了一连串数据。比如,“剩女”大部分是生于1978年至1983年。

“因为计划生育,这一段人口暴涨,她们对应的1973年-1978年的男性人口相对不够,和她们同龄的男性又被85后的年轻姑娘抢去了。”吴琳光说,2009年、2010年婚恋网站大爆发,正是因为这帮人到了必须结婚的岁数。

又如,世纪佳缘正在尝试联运页游,越是在世纪佳缘里收不到信的人,玩页游的越多。

数百年前的媒婆们绝想不到,若干年后,一群技术出身的工程师们用冷冰冰的数据为痴男怨女保媒拉纤。

然而技术男们纵然辨得出喜恶,抓得住流氓,却也有棘手的技术难题,比如人脸识别。对外貌的判断感性而且私人化,向来是婚恋网站的难点。世纪佳缘一直在努力寻找合适的面部识别软件,但难度很大。吴琳光表示,他们正引入一款能够识别相似脸的系统,从用户过往的选择数据中总结归纳用户喜欢何种脸型,给用户推荐类似脸型的人。

花田虽然背靠网易大树,即将推出人脸识别功能,但这一技术目前止步于脸型识别。花田试图将更高级的人脸识别,如五官识别、夫妻相匹配作为自己的增值服务收费点,尚有待进一步的技术突破。

对于人类这样复杂的动物,数据究竟能做到什么程度?吴琳光说自己的理想是让用户一注册世纪佳缘,看到的推荐异性就个个都喜欢。但从身边常听到的各种抱怨看,实现这个目标尚需时日。

时间: 2024-09-16 06:52:15

大数据帮忙定制爱情的相关文章

中国工程院院士谭建荣:工业大数据与定制化设计—关键技术与典型应用

5月5日,"2017中国工业大数据大会·钱塘峰会"在杭州国际博览中心举办.本届峰会以"数据驱动创新 融合引领变革"为主题,围绕工业大数据展开分享与交流.中国工程院院士.浙江大学教授谭建荣,以"工业大数据与定制化设计:关键技术与典型应用"为题探讨了自己的看法.   以下为嘉宾演讲实录: 各位领导,各位专家,大家上午好!十分高兴来到萧山区这么好的地方研究讨论中国工业大数据的峰会.前面有几位专家讲了大数据讲得非常精彩,都讲到要点上.对我最后一个人来讲,

【情人节关注】数据牵线&定制爱情

两年前,婚恋网站最爱喊"实名制".如今,各家都有了用户的基本实名信息,这种传统打法就过气了.毕竟有身份证的人,不一定是有身份的人.当你将身高.体重.年龄.学历等一一框定,一看还有2000个姑娘(小伙)符合要求,是时候让理性回归感性了.而这感性,又是建立在理性的数据分析之上.   网易花田:定制爱情   网易花田的团队在对海量软硬数据进行分析的基础上,总结出一些人物特征,建立出一定数量的人物模型.再分析具体用户,将其分门别类套入各种模型.这样,用户心仪其中某一个人,便可向其推荐这一类人.

大数据使“定制”新的经济指标成为可能

上世纪的统计数字不是为21世纪经济现实设计的,用国内生产总值(G D P)和通胀率等简单指标来评价当今的多面经济体的观念已经过时. GDP忽略了经济活动中的重要因素 GDP起源于20世纪30年代,由于这种统计方法帮助美国经受住了大萧条并赢得了战争,所以确定了它的统治地位.它是衡量一个国家所生产的货物与所提供的服务,事实上,它已变成国家成败的代表.政府采纳的政策旨在通过扩大国家产出使G D P最大化,在西方一些国家它有权决定选举结果,发动民众运动等.与预期值同步增长的G D P可以增强一个国家的信

视频网站除了抢版权还能做点啥?社群互动、大数据个性化定制是趋势

中介交易 SEO诊断 淘宝客 云主机 技术大厅 [视频网站的拼爹大战终于告一段落,但是却又受到来自传统电视台进军互联网的冲击.但视频网站未来的发展,除了对版权的争夺之外,还有那些可利用的点呢?本文作者就跟我们探讨了这个问题,分别论述了视频网站未来的可发展的方向.] 某种意义上,优土靠上阿里是视频行业大局初定的标志--TAB加上一个全链条的乐视,各有盘踞.僵持之下,深耕领地成为必然,而这正是这两年各大视频网站加大内容建设的背景所在.2014被冠以"自制剧元年"称号也源于此. 下一个问题是

治雾霾,让大数据帮忙

以"两会蓝"开篇的"两会时间"里总离不开雾霾的话题,因为它实在是惹眼.刚刚履新的环保部长陈吉宁昨天下午回答记者提问时直言不讳:到了环保部每天起来第一件事情是看天.令他不安的是,当日又是个雾霾天. 3月5日,搜狗根据近期搜索数据公布了一组大数据调查,结果显示60%的人会在雾霾天里闭门不出.以2月27日的数据为基准可以看出,自2月28日起,雾霾的关注度一路持续攀高.关注度排名前10位的城市多为一.二线城市.总之,越是大城市.高密度人群,越在乎头顶上方天空的颜色,这显然与

用手机信号预测拥堵 大数据帮忙看路况能省时、省油

准确.及时预测路况一直是交通组织工作中的难题,尤其是早晚高峰,即便是官方发布的拥堵指数也会有一定的延时,对行在途中的司机来说,彼时的"通畅"可能已经成了此时的"拥堵".记者从浙江省交通厅了解到,目前交通厅正在进行一项新的试点--通过阿里云的大数据,来分析预测未来1小时内的路况. 目前在高速公路的试点中,省交通厅把高速公路的历史数据.实时数据与路网状况结合,基于阿里云大数据计算能力,预测出未来1小时内的路况.多次的试验结果显示,预测准确率稳定在91%以上. 从手机信号

大数据人才之困 催生企业定制班模式

文章讲的是大数据人才之困 催生企业定制班模式,10年前,如果说大数据分析你会想到什么?银河超级计算机?基因组网格计算?那时候大数据离我们似乎还很远.而如今,从央视的春运迁徙图到美国奥巴马政府宣布投资2亿美元启动"大数据研究与开发计划;从两会期间的两会大数据到预报旅游热点,大数据正在对每个领域都造成影响,大数据就在我们身边. 众所周知,数据中的价值是存在的,而且还远远未被挖掘出来.随着CPU处理速度提升,分布式处理架构日渐成熟,互联网催生数据量以指数速度增长,各大公司纷纷上马大数据业务,伴随而来的

阿里也要做电影,靠大数据来知道宣传

大数据做电影好看吗?好赚吗? 手握阿里巴巴集团的"大数据"和"电商平台"两张王牌,阿里巴巴影业集团(简称"阿里影业")野心不小.阿里影业CEO张强表示,要改变传统电影制作方式和扩充传统电影行业模式潜在的商业空间.艺恩咨询研究经理魏欢认为,大数据运用在营销.商业植入.周边产品开发等方面都有不错的价值.数据显示,目前中国的电影产业营收80%依赖于院线票房部分,而国外的影视剧作品票房占比在收入的30%,大数据影业衍生品.定制性产品是亟待开发的蓝海. 大

大数据+深度服务,我为什么说在线旅游创业企业还有投资机会?

我们先来看一组数据,2015年我国上半年经济增速为7%,而旅游产业同比增长28%.据国家旅游局预计,"十三五"期间,我国在线旅游交易覆盖总人数和市场总规模将翻两番,有望突破6亿人和1万亿元.而国内旅游产业的需求还远没有充分挖掘及释放. @变革家(Reformer) ,专注创业项目拆解,帮股权投资者把好第一关! 平台方.领投人.项目方各有动机,经常让天使投资跟投人和股权众筹投资者成为"接盘侠".@变革家努力站在相对中立的角度做出独立判断,让您更全面考虑问题和尽可能的规