周涛:大数据分析基础衍变定量科学

大数据带来的科学变化是以往很多在实验室小规模控制的科学问题,一些科学学科,比如">社会科学,本质上是定性,现在大数据分析的基础上都会变成定量的科学。

互联网科学中心主任《大数据时代》中文译者 周涛博士

以社会科学为例,互联网科学中心主任《大数据时代》中文译者周涛博士表示以前做社会科学大的试验无非是几百人、上千人做问卷,现在我们自己做的问题涉及的都是几千万,甚至超过一个亿的人,比如我们做宗教问题,观察是不是有一些宗教更加有暴力倾向,或者是不是连接很紧密,教派之间是否有排斥,这样大的问题我们可以通过文本分析的方式,通过褒义词、贬义词、情绪词、评论的分析,判断每一个人到底是一个亲善友好的人还是一个刻薄的人,到底是一个情绪平和的人还是一个急躁易怒的人,通过客观分析我们在宏观尺度上研究一个宗教对一个人的改变,以及不同宗教是否有不同倾向。

比如亚文化问题,我们已经可以通过数据来分析出或者说通过线下采访能知道哪些人可能是同性恋人群,这个人群的数目不再像以前的研究中是几十人、一百人,而是有几十万人。这几十万人都有自己的消费购物数据,有手机数据,有和其他人联系的数据,我们事实上可以知道不被8201.html">主流文化所认可的其他亚文化人群他们有什么独特的社交、独特的行为等等。

时间: 2024-08-01 04:12:56

周涛:大数据分析基础衍变定量科学的相关文章

Netflix展示大数据分析基础架构

Netflix资深软件工程师Tom Gianos和Netflix大数据计算工程经理Dan Weeks在2016年度QCon旧金山活动中介绍了Netflix的大数据策略和分析基础架构,此外还概括介绍了他们的数据规模.S3数据仓库,以及他们的大数据大数据联合编排系统(Federated orchestration system)Genie. 为了介绍具体的需求,Weeks解释称,"规模"是Netflix在大数据领域面临的最大挑战.该公司在全球范围内有超过8600万会员,每天通过流播的方式播

《Python金融大数据分析》一第2章 基础架构和工具

第2章 基础架构和工具 Python金融大数据分析基础架构比体系结构还要重要得多. --Rem Koolhaas 你可能会说基础架构不是一切,但是没有基础架构,什么东西都可能毫无意义--在现实世界或者技术中都是如此.那么,我们所说的基础架构是指什么呢?理论上,它是使简单Python脚本或者更复杂的Python应用程序得以执行的硬件和软件组件. 但是,本章并不打算详细介绍硬件基础架构,因为所有Python代码和示例应该可以在几乎所有硬件上执行[1].我们在此也不打算讨论不同的操作系统,因为Pyth

《数据科学与大数据分析——数据的发现 分析 可视化与表示》一导读

前 言 数据科学与大数据分析--数据的发现 分析 可视化与表示 大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势.对于企业用户而言,大数据可以帮助提高生产效率.提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率.对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力.在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径. 本书将介绍大数据分析中

大数据分析需要什么样的基础技能?高等数学?

问题描述 大数据分析需要什么样的基础技能?高等数学? 今天有个朋友说他手上有某大公司的数据分析职位,(我之前在游戏公司做过数据分析),所以他向我推荐这个职位,我感觉不可上手,跟我之前做的数据分析感觉根本就是两回事因为我之前搞的也就是做一些数据报表和曲线图,他介绍的偏向于大数据挖掘,可能要懂很多算法,所以..这就是这个问题所在了,我想问一下有经验的大牛们,数据分析,数据挖掘是不是需要高数基础知识,我上学时高数学得不怎么好,也忘得差不多. 解决方案 主要是概率论和数理统计,然后是人工智能和数据挖掘.

银行大数据分析 如何将“砒霜”变“蜜糖”?

<大数据时代>作者维克托·迈尔·舍恩伯格在他的另一本书<删除>中提到"大数据的取舍之道,就是把有意义的留下来,把无意义的去掉,只有理解了在大数据中,需要的是什么,以及如何判断这种需要,才能举一反三地明白到底为什么要去掉那些不需要的." 传统银行在日积月累的交易中产生了大量数据,在分析和处理这些大数据时,银行面临着很多现实的问题,例如"坏账"数据的处理,银行各部门数据私有化以及部门之间的沟通和配合等问题.来自上海浦东发展银行信息科技部副总经理陆

《R与Hadoop大数据分析实战》一2.1 MapReduce基础概念

2.1 MapReduce基础概念 如果没有使用过集群或信息传递接口(Message Passing Interface,MPI),那么理解MapReduce基础概念将不会是一件容易的事.更多的实际应用是数据不存放在一个硬盘中而是存放于分布式文件系统中(Distributed File System,DFS),或存放于由Hadoop技术实现的分布式软件中.MapReduce同时也是一个编程模型,它以一种分布式方法进行工作.其中包括信息传递接口(MPI)和同步并行计算模型(Bulk Synchro

技术基础:大数据分析技术的发展

大数据分析技术最初起源于互联网行业.网页存档.用户点击.商品信息.用户关系等数据形成了持续增长的海量数据集.这些大数据中蕴藏着大量可以用于 增强用户体验.提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置.首先,以 Google为首的技术型互联网公司提出了MapReduce的技术框架,利用廉价的PC服务器集群,大规模并发处理批量事务. 利用文件系统存放非结构化数据,加上完善的备份和容灾策略,这套经济实惠的大数据解决方案与之前昂贵的企业

基础薄弱阻碍行业发展 大数据分析人才奇缺

大数据市场也许会繁荣起来,但不少企业发现目前对于最新的一些产品不能配备足够的人手. 据塔塔http://www.aliyun.com/zixun/aggregation/13807.html">咨询服务公司(TCS)的调查显示,IT行业人才缺乏,符合条件的大数据分析人士很少,这也是许多企业在寻求打造与部署大数据系统所面临的五大困难之一. 然而,许多就业市场的不重视,加之年轻人尤其难以满足该领域的知识要求,看来许多大学生应当好好考虑将大数据分析人士作为其备选职业之一. 说简单但做起来难,拥有

大数据:商业革命与科学革命

什么叫大数据?    "大数据"是"数据化"趋势下的必然产物!数据化最核心的理念是:"一切都被记录,一切都被数字化",它带来了两个重大的变化:一是数据量的爆炸性剧增,最近2年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和:二是数据来源的极大丰富,形成了多源异构的数据形态,其中非结构化数据(包括语音.视频.图像等)所占比例逐年增大.    牛津大学互联网研究所维克托·迈尔-舍恩伯格教授指出,"大数据"所代表的是当