对创业公司的忠告:这么玩数据才不会死

Matthew Coffman

首先,我们需要明确一个概念:什么是数据科学家?

一般的定义是:能够采用科学方法、运用数据挖掘工具对复杂多量的信息进行数字化重现与认识,并能从中找出新的数据洞察的工程师或专家。这里,从实际工程的角度,来自知名信息聚合平台 Slack 的首席数据工程师 Josh Wills 对数据科学家下了这样一个更精辟的定义:软件工程师里统计学最好的,统计学家里编程能力最强的那些人,就是数据科学家。

下面进入正题,作为一个初创公司的项目主管,怎样才能更好地应对数据科学挑战呢,有如下几条实践指导。

第一步:理解数据科学的格局

首先需要明确的一点是,当前的数据科学、机器学习和 AI 作为一个独立的行业都已经具备了相当的体量。利用各种供应商提供的各种平台、工具和算法,我们几乎可以解决所有应用程序的相关问题。

但这些工具和平台,与真正的数据科学家是两回事。事实上,目前所有的大公司都在竞聘行业里顶尖的数据科学家。因此,对于那些专注于研究下一代的智能聊天机器人或者大数据分析应用的创业者来说,机会已经不多了。

如果你的公司足够幸运,已经招到了一位珍贵的数据科学家,那就一定要让他作为你的合伙人,共同规划和执行公司的项目。同时你需要明确的一点是,在构建和扩展应用程序的所有其他复杂功能方面,数据科学家们很多时候并不具备其他工程师的专业知识和经验。一定要让数据科学家和工程师协同合作,共同参与项目的规划,才能最大限度地确保成功。

那么,在缺少主题专家的情况下,项目主管要怎样为其产品寻求有意义的数据科学驱动功能呢?这里推荐一个非常实用的方法:就像大多数其他产品的规划流程一样,做到理智的取舍。在当前丰富而强大的工具和平台的帮助下,团队可以实现几乎任何想要的功能。因此,对项目主管来说,重点就在于确定真正核心的功能并平衡其影响。

第二步:最小化的可用数据产品(Minimum viable data products,MVDP)

创业圈流行这样一个理念:开发产品时先做出一个简单的原型——最小化的可用产品(Minimum Viable Product, MVP),然后通过测试并收集用户的反馈,快速迭代,不断修正产品,最终适应市场的需求,推出让用户满意的产品。这一点放在数据产品上也同样适用。

要做到 MVDP,有以下三点需要注意:

1. 对客户真正有价值:增强或加深他们与产品的关系;

2. 可用和足够的数据:即使是最好的算法,也不能没有数据去执行;

3. 实时性的交付:团队是否可以利用现有的资源和现成的解决方案实现功能。

项目主管可以从产品特性讨论开始,优先考虑那些对客户最有价值的特性。并且与工程师团队(以及潜在的数据科学专业人员)一起讨论,确定待实现的特性与现有的数据、资源是否匹配。

不要担心缩小范畴,MVDP 本身的目标就是快速输出一个对客户有价值的原型产品。只要能证明这个原型有价值,后续可以再添加额外的复杂功能。这一点放在数据科学项目上尤其重要,因为数据产品在很大程度上就是要尽量防止过多的复杂性,以减少项目落空的机会。

第三步:制定对工程师友好的解决方案

当前,一般的工程师和产品团队在实现产品性能方面都表现优异,但是他们通常都需要一些工具包或者框架的帮助。数据科学家们提供了给定数据集的深层次的理解,提供了正确的工具/技术来帮助实现产品特性,并成功将这些工具和产品应用到产品研发的过程中。可能有些创业公司目前并没有自己的数据科学家,但可喜的是,现在互联网上充满了相关教程和学习资料,还有丰富的程序Demo和API接口,可以帮助这些公司实现数据科学的相关功能。

而且,目前几乎所有的算法和技术都可以找到第三方实现好的现成的工具包,工程师团队真正的研发重点应该是数据的准备和加载,训练和选择合适的模型/算法/工具,并将其成功应用在产品里。必须明确的一点是:团队不应该完全从零开始构建所有东西,这是一种宝贵资源的浪费。

随着 MVDP 的实现,下面需要找到最实用的方法来实现产品特性。当然,需要首先明确的一点是:并不存在某个单一的工具或平台适合所有产品。对此,我们给出以下几条建议。

1. 通用的机器学习平台和预测服务:Google Prediction APIAmazon Machine Learning APIMicrosoft Azure Machine Learning API 以及 BigML。通过这些开放 API 接口,用户可以将数据输入到预先构建好的或者自定义的模型,实现快速测试,并合并到产品中。这种类型的服务非常适合于预测用户行为,在大数据集中标记用户和产品,以及对数据集进行优先级排序等场景。

2. 特定用途的 AI 平台:这一类的工具似乎发展势头强劲,初创公司可以直接接入这些平台,然后通过云端计算实现各种各样的创新功能。主要的供应商包括 IBM Watson(语音识别,图像识别,翻译)和Google Cloud(语音,文字,图像和其他服务),并且每天都有许多这一类的新兴的初创公司涌现。

3. 博客,资源和社区讨论:与大多数其他领域的发展一样,互联网提供了一个分享互助的基础,初创公司可以相对容易地与其他团队分享和交流他们的数据科学项目经验,并相互学习,取长补短。这里建议KDnuggets 和 O'Reilly 这两个社区。

这里还需要强调:无论借助哪种工具或者框架的帮助,项目主管都需要明确:始终聚焦于向客户提供有价值的最小化的可行产品,然后其他所有的各项措施都是围绕这一核心目标展开的。明确这一点,有助于保持数据科学的相关项目始终在可控的范围内成长。

第四步:根据用户反馈迭代产品

在做任何一个特性之前,都需要首先明确如何衡量客户对该特性的满意度。考虑到数据科学项目额外的复杂性,因此,在客户反馈和特性迭代之间建立一个紧密的循环机制就变得更加重要。而且由于对数据和模型的巨大依赖,因此通常情况下研发人员很难排查为什么最终实现的特性没有预想的效果好。另外,项目主管在制定每一轮迭代的预期工作量时都发挥着至关重要的作用,并且通常还需要针对一些计划外的工作价值做出判断。在某些极端的情况下,如果一个特性看起来需要太多的工作投入或者结果仍然不可预测,那么就有可能选择完全放弃该特性。

值得注意的是:一个好的项目主管应该在客户和数据之间保持一种勤奋的工作关系。当客户实测一个数据科学驱动的新特性时,及时准确地考察来自这两个来源的反馈将变得至关重要。

总结:重视数据科学

Slack的首席数据工程师 Josh Wills 表示:当前对许多公司而言,数据科学方面的投入只是其众多产品投入的一部分。在大多是情况下,只需要一项或者两项的投入起作用,就能支撑起整个产品。而且,数据科学的入门真的很难,他称之为信仰的行为(an act of faith)。像Facebook、谷歌和亚马逊这样的巨头公司,他们的发展规模其实早已超出了建立时的初衷,数据科学几乎变成了所有业务的核心驱动力。现在,机器学习和数据科学几乎变成了所有大公司用来创造价值的主要工具,他们通过考察用户体验掌握先机,然后通过自动化的方法通过特定的产品使客户的生活变得越来越便捷。

从实用的观点来说,当下的项目主管应该要开始尝试将数据科学的相关特性融入到产品中去。虽然赶超大公司可能仍然是一个不小的挑战,但我们需要聚焦于我们自己的目标客户的实际需求,并尽一切可能的努力去提升他们的使用体验。

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-06 13:55:09

对创业公司的忠告:这么玩数据才不会死的相关文章

设计师如何玩数据

2017年2月22日云栖TechDay29期,阿里云交互设计师.用户体验研究专员行休/雩烜和大家一起谈谈设计师如何玩数据.本文主要从为什么要做MERIDIAN开始讲起,接下来分析了面对云产品售卖过程中设计师的复杂思考,包括核心算法的改变等,接着还介绍了微观力量,并解释了 Markov Chain Model,最后畅想了售卖线的诗和远方.   以下是精彩内容整理: 当面对一个复杂系统的设计挑战时,设计师除了利用自己的理性逻辑和感性同理来抽丝剥茧,还能如何利用千千万万用户的真实数据来辅助自己的决策?

数据才是车联网的未来

"每一年都是中国车联网的元年." 看到有关车联网的报道,不由发出这样的感慨.这当然不是什么好的评价.因为这意味着每年都在推倒重来.从08年国内开始提到车联网,到2010年后各大车厂陆续发布车载系统,每年都能看到轰轰烈烈的车联网论坛沙龙和发布会,以及各种牛逼哄哄的新概念. 然并卵. 从3G到4G,从小屏到大屏,从语音识别到人工智能,从新能源到无人驾驶,几乎每种新技术都在给中国车联网注射强心剂.事实上,与其说是新技术促进了车联网的发展,不如说是所谓的车联网在"贴靠"新技

商业玩儿法升级:你的数据才是最值钱的

"您好,只要扫一下二维码,就可以获赠一瓶可乐哦~" 每当面对漂亮的美眉在商业中心某个路口这么说的时候,我都会情不自禁地驻足看一下. 什么时候开始,我的信息变得这么值钱了?一个账号就值一瓶可乐,或许回去我应该再注册两个账号,这样还能多领两瓶.并在内心OS:我还真是聪明,毕竟在过去要想喝一瓶可乐是要用巨资买的,那可都是真金白银啊-- 虚假的免费:"信息付费"模式初现 你知道Facebook一名普通码农年薪是多少吗?扎克伯格支撑这样一家公司每个月的总成本是多少?而你在使用

个人数据才是大未来 所有生意都是数据生意

精彩观点 下一个时代是氧气的时代.在不久的将来,我们通过无线网络来传输的信息总量就会超过通过有线网络来传输的信息总量. 未来,数据会更多地在每个人的智能设备之间传输,不会回到发射塔.交换机或者"云"里面.到2020年,超过2/3的信息传送距离不会超过1公里. 很多人说:我不会去跟别人分享我的医疗数据,财务数据,性生活.但这只是你现在的观点.今后人们会去分享这些数据,我们现在还处于分享时代的早期. 无人驾驶汽车今后将变成你的新办公室,你用汽车接收的数据将比你坐在写字楼里接收的数据更多.

好数据 才有好“干爸”

文/徐国允 古有"挟天子以令诸侯",今有投诸侯以围三国. 6月27日晚间,58同城发布公告称,腾讯投资7.36亿美元获得58同城完全摊薄后19.9%的股份,腾讯社交商业化又下一"城". 受此利好刺激,58同城今日收报54.90美元,上涨2.68美元,涨幅为 5.13%. 58同城CEO姚劲波显然信心满满,公告后微博直抒成就:"7.36亿美元的案子,从开始谈到做完10天". 按照58同城公告,在本次交易中,腾讯将以每股20美元的价格向58认购买36

拥抱大数据才是未来

摘要: "新.平.快"三招虐死传统咨询业 移动互联网时代炮制了"新.平.快"三招,对传统咨询业进行花式虐打. 新 在互联网的冲击下 传统咨询业同样自身难保 移动互联时代,大数据.物联网.云计算等技术应用的日新月异,对传统咨询业服务方式也提出了更高的要求.市场调研过去用的是访谈.问卷调查,focus group等手段,而现在呢,不用爬虫抓取.海量数据的量化分析都不好意思说自己在做调研. 如何快速掌握新技能.新工具,对大部分咨询从业人员来说都是巨大的挑战.移动互联时代,

3G时代玩“增值”才过瘾

189不仅是手机还是实用的邮箱.3G时代的天翼手机让手机上网有了更多乐趣和快感. 在3G时代,玩增值才过瘾.对于天翼手机的用户来说,他们可以享受各种尊荣,不仅可以随时随地高速上网,下载.观看视频流媒体,还能拥有189贴身免费邮箱,导航.手机支付这些生活便利也一应俱全. ●营员纪事 189不止是手机还是免费邮箱 中国电信最新推出的189互联网手机,它不止是手机,还是你的贴身E-m ail免费邮箱,让记邮箱再也不麻烦!据深圳电信的技术人士介绍,这个189邮箱有几大秘笈. 随时随地收发邮件是这个邮箱的

自由、快速流动的大数据才有大智慧 —— 大河云联携SD-WAN 2.0亮相2017贵阳数博会

大数据已成为国家战略,也在为企业降低经营成本.提高经营效率上发挥了重要作用,国家.企业都想利用好大数据带来的红利.然而大数据作为经营优势的同时也给企业带来了运维成本上的难题.企业各分支机构间的信息流通由于大量的数据需要支付昂贵的线路费用. 数据中心之间数据量的流通还在进一步加大,从社交网络到IOT连接已无处不在,带宽正抓紧跟上流量的脚步,2009年服务器的网络接口一般采用1G,到了2015年发展到了10G接口,现在已经开始逐渐过渡到25G,甚至100G.这给数据传输的可靠性.灵活性以及成本都带来

风投掘金可穿戴设备:大数据才是背后真金

可穿戴设备是智能手机之后,由传感硬件重组的一个消费电子新生态,而大数据才是它背后隐藏的"真金" 文_本刊记者 王瀛 编辑_吴金勇 摄影_史小兵 "这不会是个骗子吧?"投资人戴汨看完ZEPP公司后的第一印象就是这样的.这家生产传感器硬件的公司在美国只有一名员工,即CEO Jason Fass,公司的秘书和客服由他老婆兼职. 眼前的失落场景,让戴汨觉得ZEPP公司并没有"手机+传感器模式"的投资机会.而这个模式,他已经寻找一年多.戴汨是君联资本的副总