对话知乎王雨舟:大数据时代,人都在“裸奔”吗?

文章讲的是对话知乎王雨舟:大数据时代,人都在“裸奔”吗,从大数据时代开启的第一天起,我们的生活注定被数据灌满了。这是一个人人都需要隐私但又不懂得在乎和保护隐私的时代,几乎所有人都在发布数据,把它们挂在网上或传播到公共平台。人们既向外发散,又向内吸收,自觉或不自觉地收集各种各样的数据信息。——《大数据在中国》

  人们不禁发问:大数据时代,人都是在“裸奔”吗?

  知乎,作为一个知识社交平台,目前拥有8400万注册用户,每天产生的数据量多得惊人。这些传来传去的信息中又有谁清楚到底隐藏了多大价值呢?知乎无疑是上述问题的最佳答主之一,这也被笔者列在了本次采访问题之中,而这位答题者正是知乎大数据平台架构师王雨舟!


▲王雨舟

  王雨舟,在大数据平台以及实时计算上有丰富经验,现任知乎大数据平台负责人,带领团队驱动知乎业务发展。知乎增长团队早期负责人,对增长方法论以及黑科技有深入理解与实战经验。曾任豌豆荚高级研发工程师,主要负责大数据分析平台研发,知识图谱,实时计算平台等,对技术热爱并乐于交流和分享,擅长的技术包括:Hadoop,Spark,Druid,Akka等。

  大数据时代,人都是在“裸奔”吗?

  大数据具备3V特征,即速度(Velocity)快、容量(Volume)大和种类(Variety)多。大数据时代,企业可能会通过数据分析结果辅助决策,这就会出现一个”数据挖掘“问题,数据从哪里来呢?

  王雨舟认为,数据的价值并不与数据规模直接相关,一家企业是否可以从数据中获取有效洞察取决于这家企业对数据的重视程度。

  知乎过去几年使用谷歌的GA,一个以页面和会话为核心的分析引擎,由于其无法支撑公司的数据体系,知乎在2016年1月份决定开始自研大数据平台。起初,知乎对该平台的定义就不是传统的BI系统或数据分析系统,而着重于整个数据体系的搭建,将数据贯穿知乎整个生产环境。

  根据知乎的业务场景对数据源建立数据模型,在此基础上搭建数据平台,进一步做数据挖掘及个性化推荐等。虽然重视数据,但知乎目前所获取的所有数据都是用户授权可公开的信息,并未获取用户隐私数据。

  谈到这个问题,王雨舟表示,在这个数字化的时代,很多信息都在云上进行处理,想竭力保护个人隐私变得难上加难。企业应该重视大数据安全问题,因为数据泄露会对用户造成不必要的损伤。其次,做好大数据容灾和备份,加强权限管理,做好内部的数据安全隔离。对个人而言,也应该提高隐私保护意识。

  穿好衣服,大数据平台初学者该如何向前奔跑?

  知乎目前的大数据平台架构用到了行业内的热门引擎Druid,以实现自定义多维分析和留存分析功能,做到实时数据分析,自定义指标、维度、报表、文件夹、Dashboard,任意 Hive 表导入平台做可视化分析等。同时,Kudu、Spark、Hadoop以及Growth Hacker等都在知乎使用范围之内,与这些技术打交道的这数年里,王雨舟也有了一些自己的心得,希望对该领域的初学者有所帮助。

  面对随时可能冒出新框架、工具的大数据平台领域,初学者往往是一头雾水。王雨舟认为,该领域的入门门槛并不是很高,但要想深度理解,一定要结合大量实践。初学阶段可以先从比较常见的框架入手,比如Map Reduce、Spark等,各类框架之间其实是触类旁通的关系。在实战中学会解决bug,并总结经验,循环往复,逐渐就可以认识到一个框架的本质。

  采访最后,王雨舟透露,自己平时也会逛逛知乎,回答一些领域内的相关问题。如果初学者在实践过程中遇到问题,也可以在知乎上直接找到他,因为他的账号是实名制的哟!

  作为今年全球独角兽上榜企业之一,知乎与世界分享着知识、经验和见解。我们期待未来可以看到更多知乎在大数据平台架构方面的分享以及实践,让更多志同道合的技术人受益!

作者:钰莹 

来源:IT168

原文链接:对话知乎王雨舟:大数据时代,人都在“裸奔”吗?

时间: 2025-01-02 12:37:25

对话知乎王雨舟:大数据时代,人都在“裸奔”吗?的相关文章

大数据时代为什么都在谈Hadoop?

最近知乎上有这样一个问题"为什么很多公司都采用Hadoop方案处理大数据业务",引来很多回答,笔者整理如下,其观点或有时而可商,欢迎讨论. 先说一说什么样的公司比较倾向于使用Hadoop.有人认为,使用Hadoop的前提是自身有没有收集并分析数据的需要,并且数据量是否一直在增长并且不可丢弃. 目前看起来,此类数据多数为日志数据,分析用户习惯,或者就是传感器之类的数据,分析环境等监控内容的变化规律.也有很多公司不使用Hadoop,比如多 数从事政府行业或者部分企业系统开发的公司,他们对系

中国工程院院士李德毅:大数据时代的认知计算

摘要: MDCC 2013移动开发者大会于2013年11月13-14日在北京国家会议中心隆重召开,本届大会由CSDN和创新工场联合主办.逾百位国内外移动互联网领域的领军人物与核心技术专家,以全民移动,重 MDCC 2013移动开发者大会于2013年11月13-14日在北京国家会议中心隆重召开,本届大会由CSDN和创新工场联合主办.逾百位国内外移动互联网领域的领军人物与核心技术专家,以"全民移动,重塑世界"为主题,分享最新实践经验,探讨移动互联网发展趋势.此外,智能硬件.移动娱乐游戏.微

互联网大数据时代来了 个人隐私常常“被裸奔”

当一个人很懂你的时候,你会发现有一种共鸣的幸福,但是当你在他(她)面前毫无秘密的时候,你是不是会有一种裸奔的尴尬?在互联网大数据时代,越来越多的网购族发现,自己的上网记录.消费偏好等http://www.aliyun.com/zixun/aggregation/9799.html">个人隐私信息,已被商家层层转卖榨干用尽,常常会有种"被裸奔"的尴尬. 因好奇,被"棺材"困扰一个月 7月19日下午,一位名为"不知道叫什么就叫春的陈红军&quo

大数据时代何时不再“裸奔”

购买了别人在各种网站上使用过的支付宝账户及密码信息近千万条,再通过发红包.充话费.买车票机票等方式窃取现金超过12万元.昨日,记者从珠海市中级人民法院获悉,7名被告因非法贩卖个人信息.盗窃支付宝账户等多项罪名被法院判处数月至四年不等有期徒刑,其中3被告人不服,上诉至珠海中院,近日该院二审维持原判.(3月24日<广州日报>) "百万条网站密码一千元打包买走",如果不是案件披露,恐怕很难有人会相信.目前,上述案件中,不管是非法贩卖个人信息的,还是盗窃支付宝账户的,尽管都受到了惩

大数据时代从比特搬运工到大数据运营者

文章讲的是大数据时代从比特搬运工到大数据运营者,有人说,大数据就像20世纪的石油那样,是一种战略资源.但20世纪之前的历史长河中,石油根本不是战略资源,甚至连一般性的资源也算不上.改变石油命运的,是100多年前内燃机的发明. 走进"第四个"大数据时代 现在所说的大数据,都是指"数字化"的信息.如果把"数据巨大"."类型繁多"."单位价值下降"和"处理及时"的非数字化的信息也认为是大数据,

大数据时代的三大发展趋势和投资方向

1993年<纽约客>刊登了一副漫画:标题是:"互联网上,没有人知道你是一条狗".据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5万美元.彼时关注互联网社会学的一些专家,甚至担忧"计算机异性扮装"而引发的社会问题.譬如同性恋和恋童癖,可能会借助互联网而大行其道. 20年后互联网发生的巨大的变化,移动互联.社交网络.电子商务大大拓展了互联网的疆界和应用领域.我们在享受便利的同时,也无偿贡献了自己的"行踪".现在互联网不但知道对面是一只狗

巅峰对话:畅想大数据时代的车联网与智能汽车

ZD至顶网CIO与应用频道 01月20日 北京消息:2016年1月20日,数据猿作为独家全程直播与专访媒体,受邀参加"全球大数据峰会 Global Big Data Conference 简称为 GBDC"本届大会由世界O2O组织.全球大数据联盟GBDC.全球移动游戏联盟GMGC.光合资本主办,中国互联网协会O2O工作组.中国汽车流通协会支持. GBDC全球大数据峰会在北京国家会议中心举办,本届大会规模逾3000人.大会从大数据改变政务管理方式.引领全球企业营销.智能交通综合服务.互联

大数据时代你需要知道的7个大数据定义

文章讲的是大数据时代你需要知道的7个大数据定义,大数据究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大数据的一些主要的定义.首先要注意的是,行业内的所有人都普遍认同,大数据不只是更多的数据. (1) 最初的大数据 大数据的特征可以用很多词来描述.2001年Doug Laney最先提出"3V"模型, 包括数量 (Volume).速度(Velocity)和种类(Variety).在那以后,业界很多人把3V扩展到了11V,还包括有效性.真实性.价值和可见性等. (2) 大数据:技术 为

大数据时代“服务为王”

英特尔云创新中心解决方案架构总监程从超表示,大数据未来3~5年还会有比较大的空间,大数据时代"服务为王".从目前大数据市场的发展情况来看,大数据和云计算的有效结合以及机器学习是热点所在.程从超表示,大数据和云计算结合的步伐会越来越快,因为越来越多的中小企业陆续将自己的业务迁移到了云上,这个概念听起来很"高大上",实际上就是充分发挥云计算的价值. 大数据时代之所以是"服务为王",原因在于"服务说了算,因为大数据相对于传统意义上的IT产品而