随着数字化进程的加速,企业越来越重视数据的价值。根据IDC预计,全球大数据市场规模在2019年将达到1870亿美金。其中,企业除了关注自身的经营数据之外,对于外部数据,尤其是与自身息息相关的(如竞品动态、舆情信息等)数据也非常关注。
在获取这些数据时,最常用的手段就是爬虫技术。但传统的爬虫开发难度大,除了需要自己搭建服务器并运维,还需要工程师根据爬取需求编写代码、对接代理服务等等。计算下来,企业平均每月开发和运维成本往往需要上万元。
而猎云网今天带来的“神箭手”则为个人开发者和企业提供了简单便捷的爬虫工具。该项目创始人吴桐2013年硕士毕业于西安交大软件工程专业,毕业后加入谷歌搜索基础设施组,2014年离开谷歌创办壁虎数据恢复项目。
2015年8月,吴桐再度出发创办神箭手,从爬虫切入,希望把谷歌的大数据开发的管理理念带给更多用户。其核心创始团队都是吴桐的大学同窗,从大三时期就与吴桐一起创业。吴桐向猎云网独家透露,神箭手曾于2015年11月获得过来自中路资本的数百万元天使轮融资。
吴桐介绍,神箭手致力于成为一个一站式大数据应用开发平台,旨在通过为客户提供完整的开发架构和套件,降低大数据和AI应用开发的部署难度,实现从数据采集、清洗、训练、导出的完整生命周期。
当然,对于尚在起步阶段的神箭手来说,实现完整数据处理周期尚需时日。不过,该平台已经在第一步的数据采集方面体现出了自己的特点与优势。“爬虫市场”就是其中之一。
为了最大限度降低个人开发者和企业使用爬虫的技术门槛,神箭手团队自行编写了上百个爬虫,使用者无需关注如何设置IP、如何设置验证码,甚至对编程一窍不通的小白用户,也可以直接使用。
神箭手操作界面
据猎云网了解,神箭手提供的爬虫可爬取的数据源囊括社交、电商、生活服务、互金、休闲旅游、汽车交通、医疗健康以及其他等多种分类。包括微博、淘宝、天猫、京东等网站的爬虫,都能在爬虫市场中找到。
值得一提的是,神箭手提供的爬虫目前全部都是团队自行编写。之所以尚未提供第三方开发者编写的爬虫,吴桐认为,爬虫对于代码编写技术要求较高,否则在运行时稳定性将受到影响。
虽然如此,但吴桐强调,现在的神箭手并非仅仅提供傻瓜式爬虫,而是一个开发平台。如果平台提供的爬虫无法满足用户需求,那么有开发实力的用户也可以在神箭手平台上自行编写爬虫并使用,并且平台对于这种用户还会有一定的鼓励。
除爬虫以外,目前平台也提供了诸多API调用。“其实,无论是爬虫还是API,甚至是直接购买数据池,都是用户获取数据的方式。我们希望夯实数据采集的第一步,再为用户提供后续的数据服务。”吴桐说。
在商业模式上,神箭手采用的是销售计算节点(服务器)的方式,每个节点79元,节点越多,爬虫爬取的速度越快。当然,平台也有套餐销售,根据节点数不同分为个人版和企业版。用户购买节点之后,根据爬虫所适用的最低套餐即可使用爬虫。而API则根据调用次数进行收费。
自2015年底产品上线以来,神箭手已积累了超过4万名用户注册使用,其中包括500多家企业套餐付费客户,目前月收入已超过20万元。
在数据采集器市场,其实已有包括八爪鱼这种工具存在。对于细分领域的竞争,吴桐认为,八爪鱼等产品是以软件形式存在,必须本地运行,这在数据爬取和软件更新时就会有所限制。而神箭手则是云服务形式,更灵活,自主性更强。另外其更专注对头部网站的爬取,这也是客户的重点需求。
接下来,吴桐透露,神箭手在解决了第一步数据采集之后,就要向云端机器学习、数据清洗、BI等后续环节迈进。另外,为企业提供私有化部署也是神箭手下一阶段的计划之一。
未来,吴桐希望能够将谷歌的代码管理理念融入神箭手,现在正在进行运行权限管理的研发,在未来实现云协同开发。
目前,该项目正在进行新一轮融资。
本文转自d1net(转载)