首先声明一点,千万不要以为看了这篇文章就能成为大数据高手了,不然就不会用“修炼”这个词了,要修炼成大数据高手决不是件容易的事,可以说是非常难的一件事。要不也不会连大数据发源地——美国也不超出10个人(也许就5、6个)能达到这个层次,在中国……算了,就不说了。
这篇文章实际是给你指一条过程异常艰辛,但前途异常光明的路。没有毅力的人,看看就好了,千万别认真。(说实在的,就算要看明白这篇文章,也都不是件容易的事。)
言归正传。要想成为大数据高手,首先要从理念上彻底转变,彻底理解大数据思维,并渗透到血液和骨髓中,否则是不可能成为高手的。换句话说,你的世界观要彻底转变!(我知道,你一定会在心里心:有没有这么严重啊?)
而要实现这个转变,必须经过初级、中级和高级三个阶段的学习。
那三个阶段要怎么学习呢?下面我就会告诉你每个阶段所要用的教材,把这些书读透,你就会实现上面的转变了。
初级阶段:《大数据时代》
作者:[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶
翻译:盛杨燕,周涛
浙江人民出版社
不用说了,肯定是这本书。读完这本书,要求你形成大数据的概念,即知道这么几点:
1、绝不是有很多数据就叫大数据;
2、大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同;
3、大数据的特点是“关注相关性,不关注因果”,这是大数据最核心的东西,一定要真正理解,并牢牢记住,不然你就很容易被别人忽悠;
4、大数据采用的是统计的方法;
5、大数据主要是结合人工智能进行机器的自动数据挖掘;
6、大数据主要是用来作预测的。而不是象一般的数据分析,只是分析出历史情况和现状,未来还是要靠人去预测,大数据则是直接告诉你未来的结果。
中级阶段:《失控》
作者:凯文·凯利(KEVIN KELLY),很多人都亲切地叫他KK
翻译:东西文库
新星出版社
为什么是这本书呢?学完初级阶段要记住的几件事还没忘吧?对,用统计的方法,而不是因果的方法,预测未来。ok,下面我们就来看看这本书说了些啥:
第二十二章 预言机
……
在对预测机制进行剖析的时候,法默最喜欢用这个例子来进行说明:「来,接着!」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗?」,他问道。「通过预测。」
法默坚信你的脑子里有一个关于棒球是如何飞行的模型。你可以采用牛顿的经典力学算式f=ma 来预测一个高飞物体的运动轨迹,但是你的大脑本身却并没有存储这样的基本物理学算式。更确切地说,它直接依照经验数据建立起一个模型。一个棒球手,成千次观察球棒击飞棒球的情景,成千次举起戴着棒球手套的手,成千次利用戴手套的手调整他的预测。不知怎么的,他的大脑就逐渐编制出一个棒球落点的模型——一个几乎跟f=ma 不相上下的模型,只不过适用范围没有那么广而已。这个模型完全建立在过去接球过程中产生的一系列手/眼数据的基础上。在逻辑学领域中,这样的过程统称为归纳,它与导出f=ma 的推演过程截然不同。
……
一个棒球外野手基于经验形成的空中飞行物的「理论」,很像托勒密行星模型的后期阶段。如果我们解析外野手的「理论」的话,就会发现它是不连贯的,即兴的,复杂的,而且是近似的。但是,它也是可以发展的。这是一个紊乱的理论,但它不仅有效,而且还能提高。如果非要等到每个人都能弄明白f=ma 这个算式(况且,弄明白半个f=ma 还不如什么都不懂)再行动的话,就根本没有人能接住任何东西。就算你现在了解了这个算式,也没什么用。「你可以用f=ma 来求解飞行中的棒球问题,但你不能在外场实时">解决问题。」法默说。
……
几乎可以明确地说,「活系统」——狮群、股票市场、进化中的种群、智能——都是不可预测的。它们所具有的那种混乱的、递归式的因果关系,各个部分之间互为因果的关系,使得系统中的任何一个部分都难以用常规的线性外推法推断未来。不过,整个系统却能够充当分布式装置,对未来做近似的推测。
……
而世界上绝大多数的复杂系统——包括所有的市场——都是非线性的。
……
在现实中,影响股票的二维图形轨迹的因素不是几个,而是数千个。
……
仅仅100 个变量,就可以创造出一群数量巨大无比的可能性。因为每一个变量行为都和其他99 个行为互相影响,所以如果不同时对这个相互作用的群体整体进行考察的话,你根本无法考察其中的任何一个参数。比如说,哪怕是一个简单的只有三个变量的气候模型,也会通过某种奇怪的回路连回到自己身上,从而哺育出某种混沌,让任何一种线性预测都成为不可能。
——摘自《失控》
用f=ma(公式)来预测,或者说线性预测,就是通过因果推理来进行预测,即根据球的质量、加速度等等因素,找出这个球为什么会从那个地方飞到这个地方的原因;
而“归纳”即是“统计”的意思,或者说是较粗略的统计,归纳是不问原因的,接住这个球就完了,管它是什么原因。
你想成为大数据高手,你想用统计的方法来对某些东西进行预测?(我现在来预测下你心里想的某些东西是什么。股票!噢,别夸我,我只不过是归纳了很多人的想法而已。)
好了,现在你来告诉我,还有什么理由不去好好读这本书?(当然,好心如我肯定会提醒你:拿这本书一定要拿稳了,砸脚面上可不是好玩的,因为它有一块砖头那么厚和重)
高级阶段:《复杂性》
作者:[美]尼古拉斯·雷舍尔(NICHOLAS RESCHER)
翻译:吴彤
学完中级阶段,你接触到了一件事,“复杂性”,知道了事情复杂到一定程度,就不可能用寻找因果的方法去进行预测。
那么到底什么是复杂性,它的本质和原理是什么?想成为大数据高手,你不能对此一无所知,因为你将一辈子与复杂甚至是极其复杂的事情打交道。
如果你读完了《失控》,可能此时心理在想:尼玛,《失控》这本书已经够难读懂的了(没错,要不微信老总张小龙也不会说,能读完这本书的可以直接去他公司上班。注意他说的是“读完”,不是“读懂”),那也才是个中级,这个高级不是要把脑子都烧坏吗?(你又预测对了,和这本比起来,《失控》只能算本休闲书)那我能不看这本书吗?它和我想学的东西到底有多大关系?(你这么不听老师话,你爸妈造吗?)
为了你这不听话的学生,老师就透露些内容吧:
不再试图根据事物如何必须按照理论的一般原理发展去解决问题,而是根据事物如何在通常的情况下按照我们能够确定的最好情况去解决问题。与其寻求抽象必然性的一般原理,不如以某种经验主义的精神,在经验——带有它的全部特征偶然性和潜在不完备性——中寻求指引。
……
被称为科学规律的牛顿世界秩序(Newtonian world order)的狂热爱好者。他们的观点是牛顿、拉普拉斯(Laplace)和达尔文的相应世界观,将世界看作自然规律的有序框架。康德主义因果关系原理(Kantian principle of causality)是他们思维中的最重要部分,世界——自然世界和人类世界——被视为宇宙,每一个事物都是有序的、规律的、理智的、可解释的。实在被视为某种有条理的系统,类似于有条理的花园,排列有序且有整齐的边界。
……爱因斯坦、普朗克、薛定谔(Schrodinger)及其同伴破坏了旧物理学秩序。康托尔(Cantor)、哥德尔、海丁(Heyting)等人打破了旧的数学秩序。量子力学理论造成了因果关系的崩溃。进化论现在郑重强调的不是“适者生存”,而是自然选择不得不在其基础上发挥作用的全然随机的平台。
……
(然而)机会和混沌的宇宙不是不守秩序的(无政府状态的),而只是复杂的,通过其自然的运转展现着更高阶规律的涌现。而当形式逻辑屈从于它的经典不变性时,一种新的非经典的、多值的(或者“模糊的”)逻辑业已诞生并取而代之。确定性(certainties)也有效地被或然性(probabilities)和似真性(plausibilities)所取代。
……
鉴于在复杂世界中对行动过程做出理智选择难免是困难的……如果我们是相信统计学结论的学者,用概率统计推断行为的正确性,那么事情就变得更容易处理。
——摘自《复杂性》
好了,读还是不读,你自己看着办吧。
对了,推荐这本书还有个原因。大家都知道大数据是研究数据的相关性,即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究,感觉已经研究得差不多了,但又觉得要解决所有的问题还有不小的距离,这时就感到很迷茫,不知下一步的研究该往何方去,有种路越走越窄的感觉,又有一种达到顶峰的幻觉,直到看到这本书中的一句话:
“可以考虑它们的关系,再考虑这些关系中的关系,如此下去。”
当看到这句话,用醍醐灌顶已不足以形容我当时的感受,简直就是五雷轰顶。就好象原来我以为世界只有自家的一亩三分地,这句话如一道划破夜空的明亮闪电,让我突然看到了无限广袤的宇宙,为我指明了方向,并开辟出一条金光大道。(原谅我用了这么多的有点乱的形容,每当想起这句话,我就抑制不住激动的心情)现在想起来,自己那达到顶峰的幻觉是多么幼稚可笑啊,可笑还不在于我没有达到顶峰,而在于这世上本没有顶峰(挺具有佛性的一句话,不由得让我想起六祖的话:菩提本无树,明镜亦非台,本来无一物,何处惹尘埃)。
大家千万不要小看这句话中的“如此下去”几个字,他指明了一个无穷叠代,即 “关系的关系的……关系”,而智能将在这里涌现,解决复杂性问题预测的关键很可能就在这里,这句话打开了一个非常广阔的前景,将象宇宙一样没有穷尽。
看完这句话后,待心情稍稍平复,我立即把它写成一个函数:
x=f(f(a,b),f(c,d))
然后告诉自己:这就是你后半生要去全力研究的东西!
现在我们接着往下讲,还记得我一开始说过要转变世界观吗?读完这三本书,你已经做好了世界观转变的准备,现在就要来最后一击,完成这个转变!
也就是说,高级阶段你还要读一本书(尼妹,还要不要人活?我帮你说了)。你已经了解了复杂性的原理,但这个世界到底有多复杂,你可能还没有感性的认识。你一定觉得自己经历过很多非常复杂的事,比如你炒过股票、管理过几百上千人、研究过社会学问题等等,但是和这个世界真正最复杂的事比起来,这些都不过是小儿科。
也许你已经猜到了是什么方面的书,对,量子理论。鉴于这个理论实在太难、太复杂,爱因斯坦致死也没把它搞明白,科学家们现在也都还没把它搞明白,我辈就不用费神想去把它真正搞懂了,但由于我们是在探求事物的复杂性,或者也可以说研究事物的本质,那么不可不对此有所了解,因此我给大家的书是这方面的最初级的科普读物。(实在不忍心再吓你们了。
高级阶段(2):量子物理史话
作者:曹天元(没错,中国人)
辽宁教育出版社
你一定有疑问,“这本书就能让我改变世界观?”
那么我们就来看看书中说些什么吧:
量子世界的本质是“随机性”。传统观念中的严格因果关系在量子世界是不存在的,必须以一种统计性的解释来取而代之,波函数ψ就是一种统计,它的平方代表了粒子在某处出现的概率。当我们说“电子出现在x处”时,我们并不知道这个事件的“原因”是什么,它是一个完全随机的过程,没有因果关系。
……
因果性必须死,因为物理学需要生!
停止争论吧,上帝真的掷骰子!随机性是世界的基石,当电子出现在这里时,它是一个随机的过程,并不需要有谁给它加上难以忍受的条条框框。……而统计规律则把微观上的无法无天抹平成为宏观上的井井有条。
——摘自《量子物理史话》
“统计规律则把微观上的无法无天抹平成为宏观上的井井有条”,这句话实际上就是表明,统计方法可以使极其复杂的随机事件成为可预测。我认为,社会、市场、股票等等与量子世界有着很多相似之处。由于量子理论实际上是从最本质上去研究我们存在于其中的这个世界,因此正如书中的一句话:
“这个世界的本质:它本就是统计性的!”
如果你用根深蒂固的唯物主义思想(认为唯心主义绝对是错的)去看量子理论,那么你可能很难理解它,而带着对唯心主义一定程度的理解(不一定非要完全赞同)去看会非常有帮助。因此,我在这里建议大家也可以了解一些佛学,比如看看净空法师说的话,这样会有助于你站在唯心主义的角度去看问题。
不是幡动,也不是风动,而是心动。
佛说:极微细的心动一下,宇宙就出现,森罗万象都现前,同时我也出现了。心动,分三段,第一它动,一动就变,一转变就成能见相,有能见立刻就有所见,所见就出现。能见就是意识,意识出现后,立刻就有所见,即物质出现,故物质是幻象,你想它就现相,物质现相即宇宙,故宇宙的现前是顿现,不是进化的。
——摘自《净空法师说华严经》
量子物理学家说:“意识”使得一切从量子叠加态中脱离,成为真正的现实。即第一个有意识的生物的出现才使得从创生起至那一刹那的宇宙瞬间成为现实,“意识”的参与可以在那一刻改变过去,而这个“过去”甚至包含了那个有意识的生物自身的演化历史。
——摘自《量子物理史话》
感觉到量子理论有多复杂了吗?如果你对上面两段很绕的话没太看明白,我给你个精简版本:
佛说:心动,宇宙就出现,森罗万象现前,同时我也出现;
量子物理学家说:意识使一切从量子叠加态中脱离,使宇宙历史瞬间成现实,其中含有那意识生物自身。
你肯定还是觉得无法理解这些话,没关系,你只需明白一件事就行了,佛祖在两千多年前就预言了量子物理学家现在要说的话。
好了,等看完这本书,你的世界观不改变,你来找我请你吃饭。
另外,还有一本书作为参考书可以读一读(别骂我,参考书,不一定非要读),侯世达(Douglas, R. Hofstardter)的《哥德尔、艾舍尔、巴赫》(比砖头还厚,《失控》只是和砖头一样厚)。
此书的介绍:本书是在英语世界中有极高评价的科普着作。曾获得普利策文学奖。它通过对哥德尔的数理逻辑,艾舍尔的版画和巴赫的音乐三者的综合阐述,引人入胜地介绍了数理逻辑学、可计算理论、人工智能学、语言学、遗传学、音乐、绘画的理论等方面,构思精巧、含义深刻、视野广阔、富于哲学韵味。
数理逻辑学、可计算理论、人工智能学、语言学,这些对你后面要学的东西是有帮助的。
推荐这本书的另外一个原因是,《复杂性》这本书引用了它的内容。
除了《大数据时代》,推荐以上这些书还有一个共同的原因,那就是这些书的作者可以说都是预测的高手(佛祖的功力你刚才已经领教了),让人实在佩服得五体投地。
《失控》写于20年前,据说是史上唯一一本历经20年越来越好卖的书,原因就是人们发现20年前书中说的事,这些年来正在一件件地被实现,人们都在奇怪,KK他是怎么知道的。
《复杂性》也写于近20年前。
《哥德尔、艾舍尔、巴赫》写于30年前。
《量子物理史话》虽然是2008年写的,但是量子理论诞生一百多年了。
《华严经》诞生于两千多年前。
然而它们竟然对今天的大数据有如此的指导意义,我还能说什么?
《复杂性》的作者尼古拉斯·雷舍尔还有一本书(还有?!),别急,这本书你一定会很想看,因为书名干脆就叫《预测未来》。可惜,这本书没有中文版,英语好的同学可以去国外找来看看,如果你能帮我也弄一本,俺将不胜感激!
现在你已转变了世界观,具备了成为一个大数据高手的思想,可以开始学习具体方法了,即学习人工智能。
你一定在想,是不是又要读一大堆书?理论上说:是的,需要学习人工智能基础、自然语言处理、机器学习、统计学人工智能等等。不过,看你们被虐了这么久,我也动了恻隐之心,将给你们指一条捷径,就学习一本书(高兴吧?)。
统计自然语言处理基础
作者:[美]Christopher D. Manning [德]hinrich Schutze
翻译:苑春法 李庆中 王昀 李伟 曹德芳等
电子工业出版社
你可能有一个疑问,为什么是“语言”,这有两个原因:
第一,在计算机专业,数据并不仅仅是指数字,文字、图片、声音、视频等都叫数据;
第二,语言比数字难很多,如果你能处理语言,那处理纯数字就容易很多。(可参看我的另一篇文章,“什么是真正的大数据”,http://www.36dsj.com/archives/7828)
你可能还有一个疑问,统计自然语言处理与一般的自然语言处理有什么本质不同之处?
给你讲一个有趣的事,我的一个侄儿,4岁左右,一次去机场第一次看见自动人行道,就是类似商场那种自动扶梯,只不过是放平的,人站在上面就自动往前走,他脱口就说出“平电梯”。很形象,是不是?他之所以能造出这个词,就是因为人有智能。
这里就引出一个小问题,他为什么会把“平”字放在“电梯”的前面?如果用人工智能的一般自然语言处理来解决这个问题,就会从词性、语法、句法等方面着手,中学的时候你一定学过什么偏正结构、主谓结构、动宾结构等等吧?对,经过这一翻分析和处理,找出原因并推导出结果,可能就会知道“平”字应该放在前面;
然而统计自然语言处理的路数不同,经过统计,“平”字大多数时候都是放在前面,比如平均、平等、平台、平的、平时、平坦、平常、平衡、平移、平板电脑……,好吧,那就把“平”字放在前面吧。嗯,就这么简单。
当然,这里只是打个比方,实际不会是这么简单。
但是,这又引出一个问题,我们仔细想想,那个4岁的小孩是怎么处理的,难道他懂什么语法、句法、编正结构吗?肯定不是,所以他一定是用的归纳统计的方法,无数次听到大人说到类似词时都是把平放在前面,所以他就放在前面了,他才不知道是什么原因呢,和接那个棒球是一个道理,他的大脑里并没有那个物理公式。
因此,统计自然语言处理是更接近自然的自然语言处理方式(绕口令?),也就是说更接近我们人的处理方式,甚至可以说就是人或自然的处理方式,只是人的大脑处理方式更复杂而已,但本质是一样的。
关于这一点,也有不同看法,我把不同观点也呈现给你,你可以自己去思考和判断。着名语言学家乔姆斯基就认为“儿童被假定为天生具有适用于所有人类语言的基本语法结构的知识,这种与生俱来的知识通常被称作普遍语法理论。”(摘自百度百科)
自然,我本人是很难苟同这种观点。这一观点也遭到相当一部份语言学家的反对,“认为在尚未对所有人类语言进行研究之前就假设所有人类语言有共同的‘底层语法’,这样做太冒进;而且在应用普遍语法研究未知语言时,不得不假设许多‘空白词类’,在研究基本语法为‘谓主宾’的语言(如爱尔兰盖尔语)时,更不得不假设这些语言的‘底层基本结构’为主谓宾,这种做法本身可能已经违反了描述性原则。也有语言学家(如Michael Evans和Stephan Levinson)主张,普遍语法是基於种族中心主义而得出的假设,而这会对认知科学造成很不良的影响。”
(摘自百度百科)
读完了这本书,不代表你就成为大数据高手了,实际上它只是为你打下基础知识,真正掌握大数据的方法,需要你在这个基础上去探索或者说悟出来。
至此为止,师父领进门、修行在个人,GOOD LUCK!
我写这篇文章其实有两个原因,一个就是为想成为大数据高手的人指一条路;
另一个原因,就是想做一个反击,对反对大数据、怀疑大数据、用小数据当大数据忽悠的人进行反击。注意,我这里绝对没有反对小数据的意思,大数据并不是万能的,传统数据分析方式、抽样数据分析仍然是非常有用的,或至少在相当长的时间里是如此,我只是反对现在很多人把传统数据分析方式当作大数据方式来忽悠大众。如果把这反击浓缩成一句话,那就是:
这个世界的本质是统!计!的!