由阿里浪想到 关于大数据、人工智能与百度、关系网与腾讯

最近阿里入股新浪,闹的满城风雨,各种评论横空出世。那么本人基于">公司基因的角度和看未来的角度,来解读并畅想各种事情。(文中部分字段是宏观思考而非具体细节,请勿纠结)

1. 大数据、人工智能与百度

阿西莫夫在他的《基地》科幻小说系列中有一个非常诱人的理论,银河系帝国首相谢顿为了缩短人类文明崩溃后的恢复时间,将数学、统计学和心理学熔于一炉,造就了一整套数学模型,成就了可以预测人类历史未来的“心理史学”,并将其用于人类帝国的重建工作。虽然非常科幻,但和今天的大数据其实有很多相通之处。

谁更加适合做大数据?

众所周知,大数据应当做的就是预测需求,呈现相关性,为需求铺路。阿里浪不出意外也许会做这么一套数学模型,但如果要指望它们真的做好,就不大可能了。他们能做好那不叫科幻应该叫梦幻。

阿里与新浪的创立之初就不具有大数据基因,淘宝的数据魔方在百度看来只是一个小玩具罢了。你既然脱离淘宝做数据,那就势必要做大数据。但如果真要做大数据,事实上应该让有数据基因的公司来做,也就是百度。(很多人可能会有,还有谷歌呢?其实如果从语义语词的识别上来说,百度确实对中国更加了解)

事实上大数据应该分层来看,浅层的大数据是非常好搞定的。如《大数据》中百货公司给未成年少女寄孕妇产品目录就是一个非常好的浅层案例,根据消费者购买东西的情况推算她可能将要购买什么。这个非常明显,也无可厚非。但是在浅层之前还存在着深层次的数据挖掘,它是非常难以提炼的,“从阿里浪看大数据的层级关系”一文就指出,一个人可能喜欢苹果但是在购物的过程的最后选择了橘子,这样的事情是大数据无能为力的。在该文作者看来解决这一方法的唯一途径是选择一个好的数据矿,而我并不赞同。个人认为应当进行人工智能解析,用人工智能去挖掘,再去影响消费者决策。

大数据与人工智能

由于信息的不对称,很多人觉得百度除了赚医疗竞价黑心钱之外就没有向上奋斗过,事实上百度除了在赚黑心钱以外还是奋斗的。百度的奋斗原因更多的不是对用户体验的追求,而是对黑帽SEO 的控制。这就好比杀毒软件必须把最基本的杀毒做好,与病毒斗争一样。这也就逼的百度自身进步,原因很简单,如果百度控制不了黑帽就会破坏用户体验,一旦用户体验下降流量就会大量流失,这是百度最不愿意看到的。所以百度和谷歌一样经常大变算法,宁可错杀也不漏杀。Chinaz 这样一个行业老站都曾经被K得只剩1W收录。(被K指网站已经达到正常收录的状态下因为作弊或者其他原因,百度等搜索引擎突然删除了所有网页或只留下首页。)

与其说百度做大数据,倒不如说搜索引擎在为人工智能铺路。谷歌最近不就是想要尝试“复制人类大脑”吗,这种事情如果没有背后强大的数据库,那是根本不可能的事情。正因为有了大数据才有了可能。

百度对 SEO黑帽的控制,撇开黑链、刷点击、刷相关、入侵政府网站欺骗蜘蛛、虚拟外链及其黑客的事情之外,百度其实最要管的还是伪原创,所谓伪原创就是对文章进行关键词替换和段落的重新排序,达到欺骗搜索引擎的目的。这样的文章是搜索引擎最痛恨与头大的,我们现在站在搜索引擎的角度去考虑,百度要做的事情其实就是要做一个大数据相关性的大连接,比如出现同义词“A”,它会和“B”的意思进行相关性混编,探测重复指数。根据相关性的重复叠加度,来提取文章的关键指纹进行相似性判断。一旦超过某个相似性数值就会自然剔除,达到排除伪原创的目的。当然综合来说肯定会考虑站点权重问题,这里撇开不讨论。

百度近日已经开始在搜索页面标注内容原创与否

也就是说百度已经达到了对关键词的相关性大联结,并且能够利用用户新的搜索次数来再造新词,并且和老词进行再联结。百度目前的缺陷就是无法对首次原创文章进行第一名排序,站点权重至上的算法还没有变过,这点比不了谷歌,也有可能是中国的互联网环境太乱使得百度不愿意轻信草根站点,宁可让原文展示在高权重可信站点上。但试想如果让百度脱离站点权重至上的思维,进行原创文章的大关联排序会是一种什么样的情况?

(责任编辑:蒙遗善)

时间: 2024-11-05 19:02:29

由阿里浪想到 关于大数据、人工智能与百度、关系网与腾讯的相关文章

大数据+人工智能 阿里搜索团队国际大赛再拔头筹

阿里搜索团队国际大赛再拔头筹 CIKM会议联合主席SnehasisMukhopadhyay(左二).翟成祥(右二) 同阿里搜索团队成员吴晨(左一)司罗(右一)合影 近日,在美国印第安纳波利斯举行的2016国际数据挖掘竞赛(ACM CIKM Cup 2016)传来好消息,来自中国阿里巴巴集团搜索事业部Natural ArtificialIntelligence团队凭借深度学习.机器学习的集成学习等人工智能方法,在88位参赛个人/队伍中脱颖而出,获得总成绩冠军. CIKM Cup是ACM CIKM举

大数据人工智能领域从菜鸟到高手晋级指南

我们身处一个"技术爆炸"和"共享.开源"的时代,先进技术的更新迭代速率超过了历史上任何一个时期,而且这些技术也不再闭塞,人人都可以接触并学习.终身学习已经是我们每个人不得不面对的问题,这一点在大数据/人工智能领域体现的尤为明显:层出不穷的新技术,一方面为我们带来了便利,但同时也使我们面临难以高效学习和选择的窘境.因此,在这样的时代背景下学习大数据知识,需要有相适应的逻辑和方法. 本文试图帮助各位读者用好各类"共享.开源"的学习工具以及学习渠道,躲

CAAI演讲实录|微软邓力:驱动大数据人工智能多种应用的三类深度学习模式

8月26日至27日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会发起主办.中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大.规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用.大会由CSDN网站进行专题直播,并由百度开放云提供独家视频直播技术支持. 在26日的主题报告环节,微软人工智能首席科学家.IEEE Fellow邓力博士做了<驱动大数据人工智能多种应用

&quot;大数据+人工智能&quot;梦想旅行带你自由飞

文章讲的是"大数据+人工智能"梦想旅行带你自由飞,都说,人的一生中至少要有两次冲动,一场为奋不顾身的爱情,以及一次说走就走的旅行. 冲动的爱情不见得人人都会遇到,但是说走就走的旅行绝对会是你人生中要经历的一抹色彩.对于80.90,甚至是00后这些中青年来说,自由行往往是勇气.青春.浪漫的象征,"世界那么大,我想去看看,"再也不是一句空话,背起行囊说走就走已经成为了一种新时尚. 对自由行的憧憬总是美好的,但是往往会有一些小事件会把你拉回到现实,除了语言不通这样的尴尬境

阿里亮相网络安全周 大数据共建生态安全

"钱盾"APP为用户提供赔付额高达120万的防欺诈险,"阿里聚安全"覆盖客户终端数高达8亿,"御城河"每天帮助服务商分析1.8亿次核心数据访问行为并拦截风险,阿里云保护着中国境内35%的网站,互联网安全志愿者联盟10年间实现15亿次举报--9月19日,阿里巴巴集团亮相2016国家网络安全宣传周,首次向外界全面展示其作为亚洲市值领先互联网公司在安全领域的强大防护能力和布局. "网络安全是现代商业发展的基础设施,要真正解决安全问题,核心要靠

电视台成阿里云下一个大数据重塑目标

本文讲的是电视台成阿里云下一个大数据重塑目标[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台.该平台可以在一周内,帮助传统电视台变成多屏网络电视台,支持电脑网站.手机APP.电视机全终端流畅播放,且可以实现大数据的收集整理和运营.今年内,全国两百家电视台将接入该云计算平台. 阿里云是中国唯一可以将5000台计算机合成一台"超级计算机"的云计算平台,将为全国广播电视媒体提供超级计算.

《西部世界》暗示了大数据人工智能什么

本文讲的是<西部世界>暗示了大数据人工智能什么[IT168评论]上个月,听朋友说起最近有一部神剧<西部世界>在网上风靡.听这个电视剧的名字有点耳熟,在1973年,Michael Crichton执导的<西部世界>一炮走红,著名的光头影帝Yul Brynner扮演的机器人杀手是许多80后的童年阴影. 不同的是,这部新剧讲述的是在未来一座高科技主题乐园里,智能机器人与游客一起进行角色扮演,游客在公园内的生活本身就是娱乐.乐园会追踪和记录游客的行为,通过大数据的分析设计游戏新

大数据+人工智能定义语音质检

本文讲的是 :  大数据+人工智能定义语音质检  ,[IT168 资讯]"2017中国客户服务节"于5月8日在北京钓鱼台国宾馆盛大开幕.此次展会是中国电子商业协会客户联络中心委员会举办的呼叫中心行业大型盛会,吸引了超过千家从事呼叫中心业务的各地企业参会,汇集了如中国工商银行.北京农商银行.中国人寿.太平人寿.东北证券等大型金融企业专业人才. 作为业界领先的语音大数据分析技术应用专家,中金数据系统有限公司受邀作为国内语音质检代表企业,分享了"大数据+人工智能定义语音质检&quo

BDTC PPT集萃(四):腾讯、阿里等分享的大数据应用

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日, 第八届中国大数据技术盛会 将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各