大数据科学家听起来好听干的是“搬砖”的活儿

　　(原文来自The New York Times，虎嗅实习生苇岑编译)

　　“大数据”这个流行词包含了各类丰富的数码数据，从网络、感应器，到手机、电脑。用智能软件来挖掘这些数据，可以得到许多发现。它使得各领域的数据导向决策过程成为可能。这也是数据科学家成为热门职业的原因。但你知道数据科学家平时都做些什么吗?

整理数据

　　事实上，数据科学家们百分之五十到八十的时间都在埋头整理无序的数据，直到它们能被用于挖掘，即所谓的“Data Mining”。这些精细而繁琐的工作，完全不像想象中那么信手拈来。这是因为我们正身处于大数据的现代蛮荒之中，数据从收集到可用，还需要某种程度的开垦。

　　Timothy Weaver是德尔蒙食品公司的CIO(信息主管)，他指出了大数据的“数据噪音”(data wrangling)中存在的“冰山效应”(iceberg)。人们只看到结果，却没有看到结果背后的大量劳动。

　　不过，这也是一个问题与机会共生的问题。一些创业公司正在尝试通过开发自动收集、清理和管理数据的软件，来突破大数据的这种瓶颈。

　　在未来，会有越来越多的数据来源能够用于揭示一家公司的运营情况。比如在食品产业，能够获取的数据有产量、产地和运输、天气、零售数据和社交网络评论。我们测量的是这些数据在情感和需求上的变化信号。结果是，我们能够比以往更加具象化地看到运营的每一个步骤，能够开始量身定制生产计划和存货。

　　然而在集合不同类别数据的过程中，也会产生问题。传感器、文件、网络和传统数据库的数据存在不同的格式，必须把它们清理并转换成统一格式，才能加入算法。

人类语言

　　数据格式只是一个问题，另一个挑战是人类语言的模糊性。Iodine是一家健康创业公司，它为顾客提供药品的副作用和交互作用信息。但对于相同的副作用，食品药品管理局使用的术语往往有细微差别。“困倦”，“嗜睡”和“瞌睡”同时使用。人类能够识别这些同义词，但软件算法必须通过编程才能获得这种解读能力。这种蛋疼的工作在数据项目中需要不断地重复。

　　数据专家试图自动化这个过程中的每一步。“然而操作上，由于数据的复杂性，你得当好长一段时间的数据看门人，才能得到迷人的结果。” 数据科学家兼Iodine创始人Matt Mohebbi说。

　　数据软件能够做到的不仅仅是节约科学家们的时间，它同时也可能成为大数据计算普及化的功臣。

　　历史规律表明，一项新技术产生之初只被少数精英所掌握。然而随着时间推移，技术进步和投资增加，工具越来越强大，相关经济发展，商业运作开始适应，技术最终融入主流。在大数据时代，这条定律依然有用。

　　硅谷数据科学的CTO，John Akred看到了现代数据世界发展与技术发展的相似之处。他说，“我们见证着革命的起源，它致力于使更大的人群获得解决数据问题的能力。”

　　加州帕罗奥图市的一家初创企业ClearStory Data致力于开发识别、集合各种数据资源并通过表格和图表、数据地图来可视化结果的软件。它的目标就是通过软件来开发更大的用户市场。

　　一个可视化报告通常包括六到八个数据源。比如一个提供给零售商的报告，可能包括扫描的销售点数据、天气预报、网站浏览量、竞争对手的定价数据、智能手机软件访问量和停车场车流量的视频监控。而这些数据如果手动整理，请多少人手也不一定够。

　　算法仍旧没有替代手工劳动

　　尽管如此，数据科学家们强调，手工劳动在数据准备中仍是必不可少的。“开始的时候你为了一个特定目标准备数据，但没过多久就发现了一些新东西，你的目标也会随之改变。”哥伦比亚新闻研究生院的一位数据科学家Cathy O’Neil说。

　　但毫无疑问的是，在减轻数据统计压力方面，科学家们需要好好磨一磨他们的刀剑了。毕竟，工欲善其事，必先利其器嘛。

时间： 2024-11-10 07:30:48

大数据科学家听起来好听干的是“搬砖”的活儿

大数据科学家听起来好听干的是“搬砖”的活儿的相关文章

大数据科学家,听起来好听,干的是搬砖的活儿

大数据科学家可不是那么好当的，五项专业特质你有吗？

网络课堂毕业生速成大数据科学家

3400位造型师，80位大数据科学家，这家美国女装公司这么做个性化定制

惠普：应把大数据科学家作为一种共享资源

2015年50亿资金投进大数据，大数据创业公司都用来干嘛了？

【干货】大数据创新驱动智慧民生

别被忽悠了， 6个问题揭露谁是大数据伪砖家

名家定义大数据:啤酒与尿布

大数据科学家 听起来好听 干的是“搬砖”的活儿

大数据科学家 听起来好听 干的是“搬砖”的活儿的相关文章

大数据科学家听起来好听干的是“搬砖”的活儿

大数据科学家听起来好听干的是“搬砖”的活儿的相关文章