数据的游戏:冰与火

数据就像一个王座一样,像征着一种权力和征服,

但登上去的路途一样令人胆颤!

    我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。

另外,注明一下,这篇文章的标题模仿了一个美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤

数据挖掘中的三种角色

在Amazon里从事机器学习的工作时,我注意到了Amazon玩数据的三种角色。

  • Data Analyzer:数据分析员。这类人的人主要是分析数据的,从数据中找到一些规则,并且为了数据模型的找不同场景的Training Data。另外,这些人也是把一些脏数据洗干净的的人。
  • Research Scientist:研究科学家。这种角色主要是根据不同的需求来建立数据模型的。他们把自己戏称为不近人间烟火的奇异性物种,就像《生活大爆炸》里的 那个Sheldon一样。这些人基本上玩的是数据上的科学
  • Software Developer :软件开发工程师。主要是把 Scientist 建立的数据模型给实现出来,交给Data Analyzer去玩。这些人通常更懂的各种机器学习的算法。

我相信其它公司的做数据挖掘或是机器学习的也就这三种工作,或者说这三种人,对于我来说,

  • 最有技术含量的是 Scientist,因为数据建模和抽取最有意义的向量,以及选取不同的方法都是这类人来决定的。这类人,我觉得在国内是找不到的。
  • 最苦逼,也最累,但也最重要的是Data Analyzer,他们的活也是这三个角色中最最最重要的(注意:我用了三个最)。因为,无论你的模型你的算法再怎么牛,在一堆烂数据上也只能干出一堆垃圾的活来。正所谓:Garbage In, Garbage Out !但是这个活是最脏最累的活,也是让人最容易退缩的活。
  • 最没技术含量的是Software Developer。现在国内很多玩数据的都以为算法最重要,并且,很多技术人员都在研究机器学习的算法。错了,最重要的是上面两个人,一个是苦逼地洗数据的Data Analyzer,另一个是真正懂得数据建模的Scientist!而像什么K-MeansK
    Nearest Neighbor
    ,或是别的什么贝叶斯、回归、决策树、随机森林等这些玩法,都很成熟了,而且又不是人工智能,说白了,这些算法在机器学习和数据挖掘中,似乎就像Quick Sort之类的算法在软件设计中基本没什么技术含量。当然,我不是说算法不重要,我只想说这些算法在整个数据处理中是最不重要的。

数据的质量

目前所流行的Buzz Word——大数据是相当误导人的。在我眼中,数据不分大小,只分好坏。

在处理数据的过程中,我第一个感受最大的就是数据质量。下面我分几个案例来说明:

案例一:数据的标准

在Amazon里,所有的商品都有一个唯一的ID,叫ASIN——Amazon Single Identify Number,这个ID是用来标识商品的唯一性的(来自于条形码)。也就是说,无论是你把商品描述成什么样,只要ASIN一样,这就是完完全全一模一样的商品。

这样,就不像淘宝一样,当你搜索一个iPhone,你会出现一堆各种各样的iPhone,有的叫“超值iPhone”,有的叫“苹果iPhone”,有的叫“智能手机iPhone”,有的叫“iPhone 白色/黑色”……,这些同一个商品不同的描述是商家为了吸引用户。但是带来的问题有两点:

1)用户体验不好。以商品为中心的业务模型,对于消费者来说,体验明显好于以商家为中心的业务模型。

2)只要你不能正确读懂(识别)数据,你后面的什么算法,什么模型统统没用

所以,只要你玩数据,你就会发现,如果数据的标准没有建立起来,干什么都没用。数据标准是数据质量的第一道关卡,没这个玩意,你就什么也别玩了。所谓数据的标准,为数据做唯一标识只是其中最最基础的一步,数据的标准还单单只是这个,更重要的是把数据的标准抽象成数学向量,没有数学向量,后面也无法挖掘

所以,你会看到,洗数据的大量的工作就是在把杂乱无章的数据归并聚合,这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是:

  • 聪明的人在数据产生之前就定义好标准,并在数据产生之时就在干数据清洗的工作。
  • 一般的人是在数据产生并大量堆积之后,才来干这个事。

另外,说一下Amazon的ASIN,这个事从十多年前就开始了,我在Amazon的内网里看到的资料并没有说为什么搞了个这样一个ID,我倒觉得这并不是因为Amazon因为玩数据发现必需建议个商品ID,也许因为Amazon的业务模型就是设计成以“商品为中心”的。今天,这个ASIN依然有很多很多的问题,ASIN一样不能完全保证商品就是一样的,ASIN不一样也不代表商品不一样,不过90%以上的商品是保证的。Amazon有专门的团队Category Team,里面有很多业务人员天天都在拼命地在对ASIN的数据进行更正。

案例二:数据的准确

用户地址是我从事过数据分析的另一个事情。我还记得当时看到那数以亿计的用户地址的数据的那种兴奋。但是随后我就兴奋不起来了。因为地址是用户自己填写的,这里面有很多的坑,都不是很容易做的。

第一个是假/错地址,因为有的商家作弊或是用户做测试。所以地址是错的,

  • 比如,直接就输入“该地址不存在”,“13243234asdfasdi”之类的。这类的地址是可以被我的程序识别出来的。
  • 还有很难被我的程序所识别出来的。比如:“宇宙路地球小区”之类的。但这类地址可以被人识别出来。
  • 还有连人都识别不出来的,比如:“北京市东四环中路23号南航大厦5楼540室”,这个地址根本不存在。

第二个是真地址,但是因为用户写的不标准,所以很难处理,比如:

  • 缩写:“建国门外大街” 和 “建外大街”,“中国工商银行”和“工行”……
  • 错别字:“潮阳门”,“通慧河”……
  • 颠倒:“东四环中路朝阳公园” 和 “朝阳公园 (靠东四环)” ……
  • 别名:有的人写的是开发商的小区名“东恒国际”,有的则是写行政的地名“八里庄东里”……

这样的例子多得不能再多了。可见数据如果不准确,会增加你处理的难度。有个比喻非常好,玩数据的就像是在挖金矿一样,如果含金量高,那么,挖掘的难度就小,也就容易出效果,如果含金量低,那么挖掘的难度就大,效果就差

上面,我给了两个案例,旨在说明——

1)数据没有大小之分,只有含金量大的数据和垃圾量大的数据之分

2)数据清洗是一件多么重要的工作,这也是一件人肉工作量很大的工作。

所以,这个工作最好是在数据产生的时候就一点一滴的完成。

有一个观点:如果数据准确度在60%的时候,你干出来的事,一定会被用户骂!如果数据准确度在80%左右,那么用户会说,还不错!只有数据准确度到了90%的时候,用户才会觉得真牛B。但是从数据准确度从80%到90%要付出的成本要比60% 到 80%的付出大得多得多。大多数据的数据挖掘团队都会止步于70%这个地方。因为,再往后,这就是一件相当累的活。

数据的业务场景

我不知道有多少数据挖掘团队真正意识到了业务场景和数据挖掘的重要关系?我们需要知道,根本不可能做出能够满足所有业务的数据挖掘和分析模型

推荐音乐视频,和电子商务中的推荐商品的场景完全不一样。电商中,只要你买了一个东西没有退货,那么,有很大的概率我可以相信你是喜欢这个东西的,然后,对于音乐和视频,你完全不能通过用户听了这首歌或是看了这个视频就武断地觉得用户是喜欢这首歌和这个视频的,所以,我们可以看到,推荐算法在不同的业务场景下的实现难度也完全不一样。

说到推荐算法,你是不是和我一样,有时候会对推荐有一种感觉——推荐就是一种按不同维度的排序的算法。我个人以为,就提一下推荐这个东西在某些业务场景下是比较Tricky的,比如,推荐有两种(不是按用户关系和按物品关系这两种),

  • 一种是共性化推荐,结果就是推荐了流行的东西,这也许是好 的,但这也许会是用户已知的东西,比如,到了北京,我想找个饭馆,你总是给我推荐烤鸭,我想去个地方,你总是给我推荐天安门故宫天坛(因为大多数人来北京就是吃烤鸭,就是去天安门的),这些我不都知道了嘛,还要你来推荐?另外,共性化的东西通常是可以被水军刷的。
  • 另一种是一种是个性化推荐,这个需要分析用户的个体喜好,好的就是总是给我我喜欢的,不好的就是也许我的口味会随我的年龄和环境所改变,而且,总是推荐符合用户口味的,不能帮用户发掘新鲜点。比如,我喜欢吃辣的,你总是给我推荐川菜和湘菜,时间长了我也会觉得烦的。

推荐有时并不是民主投票,而是专业用户或资深玩家的建议;推荐有时并不是推荐流行的,而是推荐新鲜而我不知道的。你可以看到,不同的业务场景,不同的产品形态下的玩法可能完全不一样,

另外,就算是对于同一个电子商务来说,书、手机 和服装的业务形态完全不一样。我之前在Amazon做Demand Forecasting(用户需求预测)——通过历史数据来预测用户未来的需求。

  • 对于书、手机、家电这些东西,在Amazon里叫Hard Line的产品,你可以认为是“标品”(但也不一定),预测是比较准的,甚至可以预测到相关的产品属性的需求。
  • 但是地于服装这样的叫Soft Line的产品,Amazon干了十多年都没有办法预测得很好,因为这类东西受到的干扰因素太多了,比如:用户的对颜色款式的喜好,穿上去合不合身,爱人朋友喜不喜欢…… 这类的东西太容易变了,买得人多了反而会卖不好,所以根本没法预测好,更别Stock/Vender Manager 提出来的“预测某品牌的某种颜色的衣服或鞋子”。

对于需求的预测,我发现,长期在这个行业中打拼的人的预测是最准的,什么机器学习都是浮云。机器学习只有在你要面对的是成千上万种不同商品和品类的时候才会有意义。

数据挖掘不是人工智能,而且差得还太远。不要觉得数据挖掘什么事都能干,找到一个合适的业务场景和产品形态,比什么都重要

数据的分析结果

我看到很多的玩大数据的,基本上干的是数据统计的事,从多个不同的维度来统计数据的表现。最简单最常见的统计就是像网站统计这样的事。比如:PV是多少,UV是多少,来路是哪里,浏览器、操作系统、地理、搜索引擎的分布,等等,等等。

唠叨一句,千万不要以为,你一天有十几个T的日志就是数据了,也不要以为你会用Hadoop/MapReduce分析一下日志,这就是数据挖掘了,说得难听一点,你在做的只不过是一个统计的工作。那几个T的Raw Data,基本上来说没什么意义,只能叫日志,连数据都算不上,只有你统计出来的这些数据才是有点意义的,才能叫数据。

当一个用户在面对着自己网店的数据的时候,比如:每千人有5个人下单,有65%的访客是男的,18-24岁的人群有30%,等等。甚至你给出了,你打败了40%同类型商家的这样的数据。作为一个商户,面对这些数据时,大多数人的表现是完全不知道自己能干什么?是把网站改得更男性一点,还是让年轻人更喜欢一点?完全不知道所措。

只要你去看一看,你会发现,好些好些的数据分析出来的结果,看上去似乎不错,但是其实完全不知道下一步该干什么?

所以,我觉得,数据分析的结果并不仅仅只是把数据呈现出来,而更应该关注的是通过这些数据后面可以干什么?如果看了数据分析的结果后并不知道可以干什么,那么这个数据分析是失败的。

总结

综上所述,下面是我觉得数据挖掘或机器学习最重要的东西:

1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。

2)数据的业务场景。我们不可能做所有场景下的来,所以,业务场景和产品形态很重要,我个人感觉业务场景越窄越好。

3)数据的分析结果,要让人能看得懂,知道接下来要干什么,而不是为了数据而数据。

搞数据挖掘的人很多,但成功的案例却不多(相比起大量的尝试来说),就目前而言,我似乎觉得目前的数据挖掘的技术是一种过渡技术,还在摸索阶段。另外,好些数据挖掘的团队搞得业务不业务,技术不技术的,为其中的技术人员感到惋惜……

不好意思,我只给出了问题,没有建议,这也说明数据分析中有很多的机会……

最后,还要提的一个是“数据中的个人隐私问题”,这似乎就像那些有悖伦理的黑魔法一样,你要成功就得把自己变得黑暗。是的,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤

(全文完)

(转载本站文章请注明作者和出处 酷壳 – CoolShell.cn ,请勿用于任何商业用途)

——=== 访问 酷壳404页面 寻找遗失儿童。 ===——

 

时间: 2024-09-19 08:57:32

数据的游戏:冰与火的相关文章

人工智能的冰与火之歌:回顾2016,展望2017(余凯)丨硬创公开课

编者按:本文内容来自地平线机器人创始人兼 CEO 余凯博士在雷锋网第 100 期硬创公开课的分享. 2016 年,人工智能在美好理想和残酷现实的夹缝中野蛮生长.当从业者们认为,人工智能时代是"技术为王"的时代,但面对价格战.商务战.公关战时,技术似乎不再是唯一的信仰.当从业者们认为,手握学术大牛.刷爆各种榜单就能所向披靡时,"AI 产品经理比科学家重要"."刷榜是没意义的"等反驳性观点也越来越被业内认可.当从业者们认为,招一大批名校博士就可与巨头

“冰与火”35年:美剧在中国

诸多圈内人认为,此次央视开播美剧本不应成为一个热点新闻,因为在中国引进电视剧的六次高潮中,第一波就是引入美国电视剧. 谢尔顿:佩妮!佩妮!佩妮! 佩妮:哦,天哪!我的老伙计,你一定要每次敲三下吗?看在上帝的分上,饶了我的门吧!小心我用靴子狠狠地踢你的屁股!我发誓我真的会这样做! 这样的中文配音将来也许会出现在中央电视台的荧屏上. 在多家网站下架<生活大爆炸>等美剧后,央视将成为该剧"新"的播出平台. "目前仅能够回复的是,我们会按照甲方(央视)的要求译制.&quo

iOS冰与火之歌(番外篇) - 基于PEGASUS(Trident三叉戟)的OS X 10.11.6本地提权

iOS冰与火之歌(番外篇)  基于PEGASUS(Trident三叉戟)的OS X 10.11.6本地提权 蒸米@阿里移动安全 0x00 序 这段时间最火的漏洞当属阿联酋的人权活动人士被apt攻击所使用的iOS PEGASUS(又称Trident三叉戟)0day漏洞了.为了修复该漏洞,苹果专门发布了一个iOS 9.3.5版本.这个漏洞的厉害之处在于可以直接从沙盒内对内核进行攻击(无需沙盒逃逸),并且同时影响iOS(9.3.4)和OS X (10.11.6).因此,本篇文章将会从PEGASUS漏洞

【智驾深谈】特斯拉发布新一代 Autopilot 勇闯 L5,续写冰与火之歌

12月31日,2016年的最后一天,特斯拉对外宣布,开始在1000辆汽车上推送软件更新,如果一切顺利的话,下周更多的汽车将会接收到升级推送.本次更新包括了Autopilot 的交通感知巡航控制功能.前方碰撞预警和自动转向(Autosteer),其中,Autosteer 是 Autopilot 的旗舰功能,但是目前只能在"低速"下启动.特斯拉对此次升级非常慎重,软件团队在公司的内部视觉团队(特斯拉视觉).机器学习技术和数据收集车队中加入安全特性后才会展开升级推送. 早在今年10月Auto

一年一度的“数据科学游戏”开始报名 这一届会有中国队伍参赛吗?

这是为世界各国在校生举办的机器学习大赛,每年九月筛选出 20 支队伍在巴黎进行决赛.今年是该大赛的第三届. 参赛者需以学校为单位(每所高校只得有一支参赛队伍),四人一组进行参赛.为保证比赛公平性,每支参赛队伍最多仅可包含两名博士生. 去年,有来自 28 个国家的 143 只队伍报名参赛,其中有剑桥.莫斯科国立.新加坡国立.筑波大学等高校,最终由莫斯科物理技术学院 MIPT 的四名学生拔得头筹.可惜的是,大陆地区并没有高校参赛. 在去年的黑客马拉松决赛中,数据集由大赛合作方.法国保险公司安盛集团(

益智消除游戏《恶火》限免中

<恶火>是首款取材中国古代兵法奇书<三十六计>.首款嵌入剧情人物丰富元素.首款拥有超高自由度极易上手的消除类游戏.拨动你的指尖,消除釜底之薪,抗衡地火之魔:啖:扑灭恶火,拯救被困在古鼎中上古大神化身的精灵族奇奇.发挥你的智慧,开启一段神奇的消除之旅吧!<恶火>游戏截图游戏不再局限单纯三子消除.四方向移动的束缚.现在你可以肆无忌惮的移动,消除,在八个方向中感受思维的跳跃,不必担心满屏宝石或 符文的画面引起审美疲劳.<恶火>游戏截图除了游戏所带来的酣畅快感,你还

3D电影的冰与火:时代推动3D电影立体急进

3D电影的冰与火 在3D立体电影一古脑的轰炸中,中国电影界也不落人后地介入到这个热门领域,观众却给了他们截然相反的冷漠态度 本刊记者/唐磊 2009年被电影界称为"3D立体电影元年". 但它的含义并不是如许多媒体报道的,因为扎堆的需要"戴眼镜"观看的立体电影的出现,而是指,所有人都在期待的卡梅隆执导的<化身>将要在12月上映. 虽然首部运用3D立体电影摄影机拍摄的<地心游记>,在去年已经让人体会了3D立体电影全新的拍摄方法,但大多数人都认为它

实拍“冰与火之歌” - 冰与火的完美融合,华丽惊艳荡气回肠倍感震撼(原图打包下载)

class="post_content" itemprop="articleBody"> 美国摄影师 Miles Morgan 为拍摄理想照片,曾冒生命危险攀登上夏威夷活火山,是不折不扣的风光摄影狂人.他的多数照片使用小光圈长时间曝光拍摄,无论从细节或是气氛上都相当耐人寻味,静谧又不乏动感-- 摄影狂人实拍"冰与火之歌" 下载传送门 解压密码:www.ipc.me Miles Morgan 摄影作品打包下载 | 来自 iPc.me

《冰与火之歌》竟是在DOS下用WordStar 4.0写出的

<冰与火之歌>竟是在DOS下用WordStar 4.0写出的小说<冰与火之歌>大家应该 都有所耳闻,改编的同名美剧央视也在播出.<冰与火之歌>的作者乔治·马丁不久前在一档脱口秀节目中透露了一个鲜为人知的秘密.乔治·马丁表示,他写作的工具是一台装着DOS系统的电脑,用着著名的WordStar 4.0软件.在Office办公软件大行其道的今天.乔治·马丁依旧固执地使用着WordStar 4.0 for 来写小说.至于原因,乔治·马丁说他喜爱WordStar 4.0的简洁,不