《大数据》作者:做大数据要从小数据做起

数据浪潮汹涌而至,摩尔定律、普适计算、数据挖掘、社交媒体正强烈影响着我们的生活,在“大数据”的现实情景中,个人行为选择的参照系如何?“大数据”又为公共管理和商业创新带来何种机遇和挑战?“大数据”如何在中国落地?针对上述命题,上周日,第一财经·悦读会携手广西师范大学出版社·理想国,与嘉宾《大数据》作者涂子沛、贝格数据总裁李常青在复旦大学围绕“看得见的未来”这一命题进行讨论。

《大数据》讲述了美国半个多世纪信息开放、技术创新的历史。涂子沛认为,摩尔定律和普适计算将生成一个机会更平等、信息更充分的时代。如波普尔所言,一个开放的社会,意味着,人们把决定建立在他们自己的才智和掌控之上。他认为,如果一个社会对好的公共生活缺少想象力,是因为这个社会的公众站在低处,这个低,不是技术上的,而是价值观上的,“如果你不能理解爱与分享是生命中极为重要的东西,那么,你也很难真正理解,信息交流与分享对于一个社会的重要性。”

而如何定义“大数据”?涂子沛强调,在认识上需要厘清两个概念:首先,谈论“大数据”应回到信息公开和数据开放这两个维度,信息公开是“知情权”意义上的概念,但数据开放不仅仅是知情权的问题;另一方面,“大数据”不应该仅仅理解为存储数据的容量,而是挖掘数据和计算力的问题,数据挖掘是指通过计算器对大量的信息进行分析,从而揭示数据之间的关系、模式和趋势。

悦读会:数据开放是一个多方博弈的过程,放在中国的语境中,突破口在哪里?同时,博弈需要各个方面的妥协,妥协的界线是什么?

涂子沛:推动历史前进最重要的条件是开放,但所有的政府都有一个天性,希望你知道的信息越少越好,这就需要社会形成一个集体的声音,大家都认识到知情权的问题时,才能够形成监督的压力。当你有了社会责任感,当你只有在别人碰到问题的时候发出自己的声音,利益的天平才可能变化。我在书里引了一句话:“防止公民犯下错误不是政府的责任,但是防止政府犯下错误是每一个公民的责任”,你需要发出声音。中国社会的冷漠或者不作为,是大家都不发出声音。突破口还是公民意识的成长,大家都有公民意识、权利意识,我们都需要知道,美国社会的公开是个漫长的过程。

整个社会需要一个表达利益的机制,同时我们需要理性抗争,需要妥协,界线在于非暴力,整个社会的发展需要在一个共赢的状态中,利益的天平不可能永远公正,所有人都发出了声音,有可能照顾不到你的声音,但是你需要持续地去发出自己的声音,利益的天平才可能改变,这是不断调整的过程,历史就是这样发展过来的。

李常青:现在,中国逐渐开放数据,政府逐渐开放数据了,但是需要一些专业的公司把这些数据变成可阅读的,我想数据挖掘这一块,数据开放了,最终还是需要让个人能够解读,这方面可能需要我们做更多的工作。

悦读会:数据的大量涌现,出现了很多非结构化的数据,在数据的语义挖掘方面,有没有更好的方法?

李常青:金融数据的品种越来越多,确实存在很多非结构化的数据,很多文本、网上的消息都可以作为数据公司提取数据的来源,我们的挖掘手段统称大数据技术,这个概念提出很早了,但还需要能够真正落地。阿里巴巴就可以拿出一个具体的数据出来,所有贸易交易的数据显示去年一段时间下滑很厉害,这个数据很早就可以预测经济形势,通过数据挖掘形成一个数据报告,其产生的价值会很大。很多数据都是可以进行语义挖掘的,但是一般人无法使用,需要专业的数据公司进行精确化处理。

涂子沛:视频数据越来越多,现在语义分析的难点在哪里,不仅是数字挖掘,还包括视频挖掘、图像挖掘。比如,某位经济学家现在发表了一个什么观点,那么我们需要把他历次发表过的观点、他出现过的视频很快地进行挖掘,现在这个技术在很多领域都可以使用。再比如,所有在镜头中出现过玫瑰花的电影,你能否一下子把它找出来?这些语义发掘正显示出越来越重要的意义。

读者:大数据的行业前景如何?哪个行业在我们国家比较有前景?

涂子沛:中国面临的问题是大数据落地很难,难在哪里?首先一个原因是缺少数据运用的内驱力,比如,电信有那么多数据,但它没有驱动力去分析这些数据。它有很多领域可以赚钱,为什么还要去分析数据?但如果它需要面对充分的市场竞争,需要它对竞争的应对更加精细化,自然就会进行数据挖掘。究竟哪个领域,更容易落地?领域很多,比如气候,气候数据非常大,真正海量数据,还有交通数据,也是非常庞大的数据,每个摄像头产生的数据,经过分析和运用都是财富。虽然大数据目前在中国落地很难,但这是一个未来的趋势。

李常青:产生大数据的行业条件是,它需要有很多数据的积累,有人认为在中国只有大的互联网公司能做大数据,这个观点我不大认同。但是反过来看,可能会合理很多,说中国做大了的互联网公司都在做大数据,这个我是认同的,因为一方面是因为他们积累了很多用户交易数据,才可能延伸出更多的运用,催生出新的商业机会。就中国来讲,目前发展不错的行业,也能够佐证我这个观点,比如定位系统的行业,一是它数据量大、准确度高,再一个它跟你的生活关联度较高,这类行业的商业机会会好一些。另外一个我所从事的金融数据业,我也很看好,金融行业的数据量很大,各个金融机构产生的数据都是我们分析的对象,同时我们还需要关注外界对他们的评价,各种新闻、各种消息,都是我们的基础数据,这些数据挖掘、运用得好,数据增值空间会很大。所以,数据量大,跟生活关系密切,数据挖掘和数据结构做得比较合理的话,可能都是很好的商业机会。

读者:我们如何通过改变思维方式来推动大数据在中国落地?

涂子沛:还是要改变思维惯性,重视数据,在中国做大数据要从小数据做起。大数据对于中国为什么那么重要?我想它对中国社会的特殊意义在于,不仅仅是一个技术浪潮,也是中国社会提高对数据认识的契机,我们需要用数据来说话,成为论证自己的工具。数据的精神归根到底是理性的精神,数据归根到底是对世界的一个客观反映,中国社会缺乏这种精神,阅读和分析数据应该成为一个人的知识结构中很基础的一部分。

(责任编辑:蒙遗善)

时间: 2024-07-29 06:52:12

《大数据》作者:做大数据要从小数据做起的相关文章

大数据如何起步?从小数据到大数据

要做大数据,首先要了解自己的企业,或者自己所在的行业的核心是什么.我们现在经常发现,有很多企业在竞争的过程中,最终不是被现在的竞争对手打败,而是被很多不是你的竞争对手所打败.很简单的一个例子,大家都认为亚马逊是做电商的,但这是错的,它现在最主要的收入来自于云(云服务).也就是说企业需要找到自己的核心数据(价值). 目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端.服务方提得较多一些.笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他们有什么关系,或者说作为企

大数据!你能在色情行业里做什么!

      9月底,又有一档美剧要播出了,描写人类性解放的<性爱大师>.我掐指一算夜观天象,就知道这美剧在我国一定可以火起来,我甚至都能猜到这美剧最多的一条评论是什么内容,一定是"我裤子都脱了,你就让我看这个?" 其实只有我们这种经过正统的爱国主义初中政治教育和生理卫生自习课的屌丝群体,才会对"性"这个字眼如此敏感,以致于当年,同宿舍兄弟直接让我帮他借图书馆中所有带"性"字的书籍,宁可错杀一千,不可放过一个.嗯,最后我给他带回来一本&

舍恩伯格论大数据时代:大数据能做什么

文章讲的是舍恩伯格论大数据时代:大数据能做什么,7月28日,<大数据时代:生活.工作与思维的大变革>作者.牛津大学教授维克托·迈尔-舍恩伯格,参加了在青岛举行的2013年海尔商业模式创新全球论坛.论坛上,舍恩伯格纵论数据的价值.如何开发运用数据的价值,以及未来大数据时代将带来的经济模式变革. 要学会善用更多的数据 在过去的十多年中,互联网的广泛应用,极大降低了交易成本.但在舍恩伯格看来,另外一场革命即将到来,就是大数据时代带来的革命. 他举例说,一位华盛顿大学计算机系教授创办的大数据企业,到所

《大数据时代》作者:大数据的三大特点

文章讲的是<大数据时代>作者:大数据的三大特点,2013年7月11日-12日,主题为"见智,见未来"的IBM 2013技术峰会(IBM Tech Summit 2013)在北京举行.大会围绕移动应用.大数据.云计算.DevOps软件持续交付.应用整合.社交商务.专家集成系统等九大主题展开,吸引了来自全国各地数千名技术人和行业专家参与此次盛会. IBM技术峰会是目前IBM在国内举行的规模最大.涉猎领域最广泛.参加人数最多的高端技术盛会.在两天日程中,包括IBM院士.杰出工程师

企业大数据如何起步:从小数据到大数据

目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端.服务方提得较多一些.笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他们有什么关系,或者说作为企业方怎样去参与,这是企业方现在面临的最大问题.   这个问题的答案重点在于大数据应该从小数据开始.因为现在很多企业面临的最大问题不是怎么用大数据,而是内部的一些小数据整合出现问题,或者小数据都没用好的情况下怎么用大数据.大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的.大数据这个概念跟自媒体的

大数据-程序需要处理的数据量很大的时候该怎么做呢?

问题描述 程序需要处理的数据量很大的时候该怎么做呢? 如果程序一次需要处理的数据有很多,比如上千万条宠物信息,保存在txt中有100多个G,这时候需要对每条宠物数据做逐一处理,然后对处理结果分类综合再进行二次处理. 操作的时候,所有数据都同时放到内存中不太现实,请问这种情况下一般的处理思路是什么? 想的是做一个中间文件,第一次处理的时候,处理一条数据保存一条数据.但因为二次处理需要对所有的数据综合分析,所以还是要完全读取中间文件的数据. 刚做这方面的内容,请各位前辈多多指点,十分感谢. 解决方案

谁能做大数据工程师?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策.这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌芽,人才市

想做大数据风控,先问问自己这几个问题!

大数据运用于互联网金融是近期一个异常火热的话题.不过细究起来,或许仍然概念性较强,不排除一些发展较好的平台,但从整体情况来看,大数据发展尚不成熟,还处于早期阶段. 想做大数据风控,先问问自己这几个问题! 大数据变现最好的状态是有数据源.能够进行数据挖掘.同时有用户的相关需求. 明略数据金融事业部解决方案专家杨昀举例表示,就像开采油田,基础是具有油田资源,核心是勘测开采需要的设备,加之用户资源需求,这才是一个行业应有的发展状态. 大数据运用于互联网金融是近期一个异常火热的话题.众多互联网金融平台动

做大数据领域的“福尔摩斯”,挖掘数据关系的真正价

众所周知,DT时代数据呈爆炸性增长,动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超过了现有传统的计算机技术和信息系统的处理能力.因此,寻求有效的大数据处理技术.方法和手段已经成为现实世界的迫切需求. 对于企业来说,如何在大数据中淘金挖掘价值是最大的难题.面对数据量以及数据类型的复杂多变,挖掘工作越来越复杂,也越来越难以控制.对于新型大数据来说,哪个方向是重点,哪个分析是关键?为什么新型数据这么难以控制?针对企业来讲,究其根本的原因,是我们还没有找到数据与数据之间最重要,也是挖掘