大数据,并非越大越好?

大数据这两年一直是热词。发展中的大数据确实带来了很多有用信息,但也使我们遇到越来越多的难题。其中最大的难题就是如何去伪存真,将那些带来误导的噪音去除。

因此,发展中的大数据需要的不仅是专业的数据信息人才,而是需要更多善于和各个领域的大数据打交道的人,这对统计学的人才培养提出了全新的要求。

人人都知道,我们生活中很多事情都与大数据发生着关联。以我在哈佛大学教的通识课“生活中的统计:你快乐(或痛苦)的几率”为例。罗曼史就与大数据和统计学有密切关系。现在有不少号称可以帮助大家找到心上人的网站。具体怎么找?通常,网站会做一些调查问卷获得个人信息。同时调查那些相爱的人与他们个人的兴趣爱好、教育背景、家庭情况等有多大的相关性。根据这些搜集到的数据建立一个统计公式,给出一种概率上的预测。当达到一定概率时,网站就会显示两个人匹配。这类统计公式的可靠性建立在大量的数据上,而它的形成需要用到许多统计的思想和方法,包括设计问卷、抽样调查、建立模型、分析数据等等。

另外,酒和巧克力的口感也与大数据处理有关。因为这两者中的变量因素特别多,比如天气、地区、葡萄品种、采集及酿造的方法等;巧克力的可可产地、天气、制作方法等。变量越多,不确定性就越多,越需要统计学家们的工作。

所谓大数据,并非越大越美,越大越有价值。现在大数据研究中,这一点误导很多人。

比如,在美国抽取一个1000人的抽样调查。这个调查若是同样在中国做,要达到同样精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍多一点。每次我在大学讲座问到这个问题,只有10%以下的人说出正确答案--只需抽样1000人,而绝大多数人认为抽样数必须大于4000。

为什么呢?最简单的比喻是:喝汤时,要确定汤的咸淡,大多数人只需要品几口,并不需要把汤全部喝完。这个判断的准确性取决于什么?这碗汤的均匀度。喝汤前把整碗汤搅拌一下,然后品尝几口,这就是我们所说的随机取样。无论是一小碗汤还是一大桶汤,只要搅拌均匀,尝几小口就够了。同样,去医院验血时,每个人不论是胖是瘦,小孩还是大人,医生都只会抽一点点就可以做出判断。这意味着抽样调查需要有一定的样本,但是一旦超过临界点以后,和母体大小的关系是完全可以忽略的。也就是说,大数据再大,只要科学抽样,哪怕只有百分之零点零零几的均匀抽样,效果也可以比95%不均匀的数据好。

所谓大数据,也不能光看绝对量,并非数据越多结果越可靠。以现在最热的个性化治疗为例。如果一个药对95%的人有效,但对我没有用,那显然这个95%的数字对我毫无意义。

一个真实的例子是,在20世纪80年代,英国有一本杂志登了两种治疗肾结石的方法。文章摘要宣称方法A治疗肾结石,成功率是78%;用方案B的话,成功率是83%。在没有其他信息的情况下,任何人都会认为B方案治疗效果更好。但是仔细阅读那篇文章,你会发现当研究人员把病人分成大结石和小结石两组时,方案A比方案B在每组里的成功率都要高。

为什么会出现这样似乎令人困惑的所谓“辛普生悖论”?我们应该如何运用这样的数据去选择我们个人的治疗方案?这些新的问题会随着大数据的发展越来越多地呈现在我们面前。而且这些都是传统的统计学科中不太会遇到的难题。大数据中这类难题越来越多,这对我们大数据研究带来了越来越多的挑战,当然也为我们的人才培养带来了更多的挑战。

找到更高效方法,解决社会问题和科学问题

■范剑青(普林斯顿大学运筹与金融工程系主任、台湾中研院院士)

大数据伴随着技术与信息的革命应运而生,近年来发展非常迅速。大数据发展过程中出现的种种问题也使得一些新的统计思想出现,对统计方法也提出了更高要求。

所谓中国人有中国梦,美国人有美国梦,统计学家也有统计学家的梦。大数据时代,统计学家的梦是找到一些有效的可快速实现的统计方法来解决社会问题和科学挑战。

大数据是信息矿山,有待挖掘与提炼。它是管理决策、商务投资的基因,也是科学技术发展的基石。

大数据,顾名思义,就是大而复杂的数据。互联网、生命科学、工程科学、自然科学、社会学、经济学等都是最先实现大数据化的学科,现在人文、历史学也都数据化了。大数据是刻画当今科学研究与决策的前沿。

大数据有多大?若假设个人电脑的硬盘容量是1TB,2003年全世界数据大约可装满5百万台电脑,现在能装满80亿台,到2020年,全世界数据预计能装满400亿台电脑。这些数据之大可想而知了。

大数据研究是非常有前途的领域。它首先可以为个体化服务提供巨大的便利。科学家们最先想到的是精准医疗,比如,化疗对某些人群有用,对某些人群却有害,这就需要我们考虑引入大数据进行变量的分析。可研究的变量有很多,比如环境因素、个体基因、以及它们的交互作用等,而且人体本身也有很大差异,所以需要从大数据中进行分析和推断。以前医生在一千个病例中看到一个异常值,但不清楚这是特例还是有科学价值的。如今,在一百万个病例中见到一千次异常值,我们就会知道,这些病人需要个体化治疗了。大量的变元和个体的异样性,是研究大数据最本质的难点。

大数据是经济的新资源,发展的新引擎。数据越大,也越容易产生新的问题。也越需要新的解决方案。这就需要有效的崭新的统计学习方法和思想来解决。

大数据分析,既可风险预测,也可寻求因果。比如根据健康大数据预测人体最可能患的疾病,预测最可能得哪一类癌症,这就是大数据下的风险度量。除了预测,人类还希望知道各个因素之间的自变量与因变量的科学关系,从而达到治疗与控制的目的,这是大数据更高一层的应用。

当我们利用大数据进行预测时,最需要解决的是噪音叠加问题。因为大数据涉及到几万个、几百万个乃至数百亿个变量,这就意味着如果每一个变量都造成一点点误差,最后的预测会是很多误差的叠加,亦即失之毫厘,差之千里。

例如我们有3000支股票,要做投资选择的话,至少要分析两两之间的相关系数,3000支股票的相关系数矩阵中有450万个参数,如果对这450万个参数进行估计,就会导致最后的估计误差很大。因此,对大数据的处理最关键的是合理地处理这些变量,将投资风险减少到10%左右。只有在这样低的风险下,投资才能转化成回报。这就是我们通常说的量化投资,量化投资首先是利用市场存在局部的无效性,从中得到套利。例如百度的大数据金融声称他们利用股票搜索的关注度和传统金融理论进行股票投资,可以做得比大市要好得多。如果真是这样的情况,那么最重要的理由就是——大数据金融的量化投资,从关注度中找到新的风险因子。

中国乃至全世界的市场都证明,量化投资仍然有很多套利可寻。中国市场尤其如此——因为美国市场通过统计来量化投资套利的人数比较多,因此获利空间会相对少,而中国这样的人相对少一些,所以获利的机会就多。当然,大数据金融对实体经济有更直接的影响,那就是个人对个人(PtoP)的融资。人们利用大数据来对贷款人偿还能力进行评估,从而得到合理的风险回报。

用大数据来预测,是通过电脑和统计模型来解决,这包括机器学习领域最潮的“深度学习”。如果要预测股票指数,预测宏观经济的指标,通过机器的“深度学习”,结合统计建模的新方法,可以达到良好的效果。

本文转自d1net(转载)

时间: 2024-10-27 04:54:02

大数据,并非越大越好?的相关文章

人人可向往大数据 并非人人可成其掌舵者

如今,谈论大数据已然不是新鲜事,各行各业竞相在挖掘大数据的"大价值",由此生发样式繁多的定制化大数据方案.另一方面,持大数据存在大风险的"双刃剑"观点的群体比比皆是.究竟大数据是商机还是危机?如果非要选择的话,笔者认为是商机,而任何商机均是有风险系数的,风险无须一味扩大来耸人听闻罢了.倘若人人都能从大数据中获取成功,那么效益则是社会整体进步,却不会改变社会个体或者群体的实力格局.笔者以为,尽管大数据大价值已是大多数人所向,然而,并非人人都可成大数据掌舵者,成功者在未

评论:大数据并非空谈 更大的挑战在业务层面

大数据无疑使很热的话题,但其一度被质疑为是炒作,对此IThome评论称大数据绝非空谈,但挑战不完全是技术层面的话题,更大的挑战是在业务层面,甚至是管理面的问题.如下是全文: 大数据,大概是爆红速度仅次于云计算的科技新名词,过去一年来,云计算虽然还是很热门的话题,但更热门的是大数据,情况就像几年前厂商不约而同在谈云计算一样. 当初整个业界大谈云计算,从上到下几乎所有公司都能沾得上边,不免令人质疑是在炒作,但事实证明云计算至今不只没有成为泡沫,还有许多更进一步的成果.然而,遇到现今整个IT业界都在追

三个小故事告诉你:大数据并非“遥不可及”

在很多人眼里,似乎一夜之间,大数据变成一个IT行业中最时髦的词汇.对于非专业人士来说,大数据似乎遥不可及,一听就很难接触.下面三个小故事告诉你,这些都是大数据应用,数据就在每个人身边. 奢侈品营销 PRADA在纽约的旗舰店中每件衣服上都有RFID码.每当一个顾客拿起一件PRADA进试衣间,RFID会被自动识别.同时,数据会传至PRADA总部.每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间,数据都被存储起来加以分析.如果有一件衣服销量很低,以往的作法是直接干掉.但如果RFID传回的

“大数据”产业的“真实面目”

振兴"大数据"产业,既不能盲目受产业领域专家的影响,也应当突破"技术官僚"的小圈子,面向市场.面向一流的科技企业.面向年轻的技术队伍. "大数据"一词越来越火辣,煽情全球.出于一种职业精神和科学良知,我和我的团队,近几年来深入调研剖析"大数据"产业到底是怎么回事.从美国的SaaS.亚马逊.谷歌.苹果.思科到中国的华为.腾讯.浪潮及航天某某研究所;从美国北卡三角地.旧金山的硅谷.波士顿的哈佛及MIT到中国的北京中关村.深圳前海.

解析2016年“大数据”产业的“真实面目”

振兴"大数据"产业,既不能盲目受产业领域专家的影响,也应当突破"技术官僚"的小圈子,面向市场.面向一流的科技企业.面向年轻的技术队伍. "大数据"一词越来越火辣,煽情全球.出于一种职业精神和科学良知,我和我的团队,近几年来深入调研剖析"大数据"产业到底是怎么回事.从美国的SaaS.亚马逊.谷歌.苹果.思科到中国的华为.腾讯.浪潮及航天某某研究所;从美国北卡三角地.旧金山的硅谷.波士顿的哈佛及MIT到中国的北京中关村.深圳前海.

大数据精准营销必读的“三步曲”及“两误区“

随着云时代的来临,大数据也吸引了越来越多的关注,大多行业都因沾染这两个词汇为荣.马云也表示,在接下来的社会经济发展中,数据将如过去的"石油"成为一种核心资源. 其实,上面这些搜集的数据多数是无效的.在我的文章<展会大数据精准营销,你应该知道这些事>中,明确提要一个词汇"大数据画像",考虑到未来的营销会是精准化营销,搜集数据时一定要按数据的组合进行整理,而大数据画像很直接地告诉我们该搜集怎样的数据,由于篇幅有限,此处不过多讲解,更多请自行百度一下进行阅读.

2016年“大数据”产业的“真实面目”

忙里偷闲.撰写此文,绝非跟某些技术官僚过意不去,而是为了提醒企业家.投资人和政府有关部门:加力推动大数据产业发展的核心目的是服务于各个行业的产业升级和业态创新,而不是惟大数据而大数据,既不应陷入大数据发展盲区,更不要掉入少数学院派技术"权威"挖掘的"大数据"陷阱. "大数据"一词越来越火辣,煽情全球.出于一种职业精神和科学良知,我和我的团队,近几年来深入调研剖析"大数据"产业到底是怎么回事.从美国的SaaS.亚马逊.谷歌.苹果

当大数据真的变得更好时

以往的经验告诉我们,充分发挥扩展优势会带来更大的分析价值.但是大数据[注]并不是一把万能的锤子,而每一个问题也不是一个靠锤子就可以解决的钉子. 许多人认为大数据意味着越大越好.人们也常常从各种哲学视角来诠释"越大越好"这一问题.对此我将这些角度归纳为: 信仰:是指容量更大.速度更快和种类更丰富的数据总会带来更多洞察力,而这正是大数据分析的核心价值.如果我们无法发现这些洞察力,那是由于我们没有充分认真地尝试,或是我们的灵活程度还不够,或者是我们没有使用正确的工具和解决方案. 偶像:是指数

“大数据”与“海量数据”的区别

如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题.然而,当人们发现数据库中的数据可以分为三种类型:结构性数据.非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了. 大数据汹涌来袭 当类型复杂的数据汹涌袭来,那么对于用户IT系统的冲击又会是另外一种处理方式.很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到来.有调查发现,这些复杂数据中有85%的数据属于广泛存在于社交网络.物联网.电子商务等之中

大数据投资这么火 竟然是因为中国人多......

近日,中国管理科学学会大数据管理专委会.国务院发展研究中心产业互联网课题组.社会科学文献出版社共同举办的<大数据应用蓝皮书:中国大数据应用发展报告No.1(2017)>发布会在北京举行.本书是国内首本研究大数据应用的蓝皮书. 蓝皮书旨在描述当前中国大数据在相关行业及典型代表企业应用的状况,分析当前大数据应用中存在的问题和制约其发展的因素,并根据当前大数据应用的实际情况,对其未来发展趋势做出研判. 蓝皮书认为,从应用的角度看,大数据并非一个全新的产业,而是与已有产业融合,对已有模式的改造.升级和