针对星图数据CEO谷熠的采访正好赶在“双11”附近,这个铸造中国电子商务一个新里程碑的同时,也留下了一串光辉的数字:星图数据对这个一年一度的网络购物狂欢进行了全网销售数据直播。作为国内唯一一家对全网销售情况直播的企业,创始人兼CEO谷熠表示做到这些主要依赖两点: 一是自身的数据获取方式,区别于传统的市场调研机构的”抽样推总“方式,星图数据利用”全网普查“方式获取数据;二是直播效率的问题,目前他们的直播仅有三个小时左右的延时,这是传统方式完全无法做到的,而做到如此高的数据获取和处理效率,主要还是依赖他们自主研发的iNebula和WarpEngine这两套系统。
创立不到一年,已经获得A轮数百万美元的融资,星图数据已经在几个方面开始快速发展,其中主要包括更多领域的数据监测、商务合作的推进以及新业务的研发,后期会将更多精力放在打磨产品和扩充数据方面。以下是对谷熠的采访实录。
星图数据创始人兼CEO 谷熠
CSDN:首先介绍下自己和星图数据,以及技术团队情况如何?
谷熠:我是星图数据的联合创始人谷熠,现在在星图数据担任CEO一职。星图数据(Syntun)是一家新锐的互联网大数据服务公司,致力于大数据技术在消费领域的行业应用,专注于通过大数据的技术帮助传统企业解决线上零售方面所遇到的实操问题。技术团队目前在星图数据占据70%以上的团队规模,其中涵盖了数据的采集、清理、模型计算、产品开发等环节,数据处理的技术构成主要以Java、Hadoop为主,前端产品开发则采用了开发效率和灵活度都比较高的LNMP环境.
CSDN:你们目前的产品种类和业务方向如何?具体的应用场景有哪些?
谷熠:目前星图数据主要专注于为传统的品牌制造企业和渠道流通企业提供大数据解决方案。所提供的产品主要以SaaS+DaaS的形式提供,并且我们的产品区别于传统的报告或者是数据库的交付形式,主要针对企业日常工作流程中的职能与环节,通过工具化和服务化的方式,帮助企业相关人员解决场景化的实操问题。
应用场景:以传统的品牌制造企业为例,我们全流程地帮助企业在线上零售过程中的产品管理、渠道管理以及营销管理等多方面解决问题。举例来说,我们曾经帮助一些传统的品牌制造企业在产品的策划和设计环节提供服务,通过对于消费者的评价评论的舆情反馈、消费者的购买习惯和选择偏好等数据,在一款产品的各个细分维度提供设计支持,打造真正符合线上消费者需求的单品。经过该过程所设计生产的产品,至今依然是销售名列前茅的明星单品。
CSDN:目前的客户规模如何,有哪些重量级客户?
谷熠:星图数据目前主要服务的是传统的品牌制造企业和渠道流通企业,从2014年3月份开始进行市场推广和商务拓展后,目前共服务了数十家企业。其中包括耐用消费品类的美的集团和快速消费品类的蒙牛等知名企业。
CSDN:目前国内外做大数据行业的企业很多,专注海量数据分析的也不少,相比其他,你们的优势何在 ?
谷熠:我认为竞争优势主要体现在以下几个方面:
更懂技术:我们利用开源的Hadoop等技术,自主研发出iNebula(数据星云)大数据获取和存储系统,以及WarpEngine(曲速引擎)大数据处理和分析引擎等具有自主知识产权的大数据系统,构建了自有的大数据供应链。通过这套供应链系统,极大地加强了数据的吞吐能力,提升了效率。因而能够减少人工操作所带来的延迟和风险,从而做到更为实时的数据供给。
更懂数据:我们的团队具有专业化的丰富的大数据处理的经验和能力,能够通过系统化的方式,快速准确地进行数据的清洗、标准化、挖掘以及数据模型演算的过程,从而很大程度上提升了数据的准确性和可用性,并且将数据的颗粒度细化到SKU级别。
最重要的是我们更懂客户:我们通过与上百家的传统企业所进行的服务与接触,深入地了解企业在线上零售方面整个的业务流程和所遇到的困难。这也是我们能够设计出符合客户需求的产品的最本源的出发点。
CSDN:据我了解,星图数据作为唯一一家对“双11”当天进行全网销售情况直播的企业,能否分享这背后的技术基础?
谷熠:能够做到在双十一当天进行全网销售情况的直播,主要依赖于以下2点。
一是我们自身的数据获取方式的问题,我们区别于传统的市场调研机构的”抽样推总“方式,而是利用”全网普查“方式获取数据。我们对于全网18家主流的综合性B2C和垂直性B2C进行实时监测,从而汇总出了我们所发布的全网销售情况数据。 二是直播效率的问题,目前来讲我们的直播仅有三个小时左右的延时,这是传统方式完全无法做到的。如此之高的数据获取和处理效率,主要还是依赖于我们自主研发的iNebula和WarpEngine这两套系统,“零人工干预”的方式极大地提高了系统的效率。
iNebula是一套针对互联网海量信息的实时监测和数据获取系统,通过分布式解偶采集和智能解析,从常态监控或定向的web页面中提取结构化数据,并通过动态地址池、智能任务路由、网络环境自适应以及多样化的数据校验及存储技术确保数据获取的完整性和效率。目前iNebula平均每分钟获取的页面数量为50000个以上,每日常态化获取并存储的互联网数据超过3TB。
中台的大数据处理及分析引擎WarpEngine,主要完成数据的清洗挖掘、QC和标准化、以及建模计算和语义分析。通过应用Hadoop平台上的各项技术以及机器自学习技术,目前WarpEngine每分钟处理的数据超过6000万条。
星图数据的云服务产品线目前已上线三款产品:D-Matrix、SkyScope及Atom.Power,主要采用主流的LNMP架构来提高产品系统的效率和扩展性,其中数据库主从方式和Redis热数据缓存的应用,使大数据产品在云端服务的承载量级更高、展现速度更快;而数据可视化部分使用了目前主流的Chart图方式,让数据的易用性更强,展现更加生动。
但是我们相信这仍然还有可提升的空间,我们希望在明年“双11”的时候能够通过和今年天猫采用的大屏直播的方式进行全网销售情况的直播。
CSDN:能否介绍下星图数据背后的技术架构和平台打造历程?
谷熠:星图数据技术团队的前身是2010年组建于美国加州的BDTAC团队,核心来自于USC和CMU等高校,聚焦于大数据前沿技术及应用。星图数据的国内研发团队在2014年初组建完成后,在首席科学家糜万军博士的带领下,基于美国团队的技术研究和积累,历经数月的本土化和行业化,开发了现在星图数据底层的大数据采集及存储系统iNebula和中台的大数据处理分析引擎WarpEngine两个系统的里程碑版,并在此之上逐步研发了针对消费领域的企业云服务产品线。
CSDN:你们在Hadoop等开源技术实战这一领域具有非常丰富的经验,有哪些经验可以分享给读者?
谷熠:这个我们的技术人员也是通过不断摸索、优化来逐渐完善的。Hadoop做一款支持数据密集型分布式应用的开源软件框架,配合其子项目使用,对于大数据的处理和模型计算是具有天生的优势的。但是最为一个开源软件框架,它的版本更新频率和是比较频繁的,虽然版本更新带来了更高的性能,特别是从1.x版本升级到2.x的大版本升级,改动比较大,我们的技术团队也走了不少弯路。所以建议大家在获得更新的版本和稳定性两方面做好平衡。
CSDN:站在客户的角度,你觉得目前客户们最关心的问题集中在哪些方面,你们有无应对之策?
谷熠:从我们和数百家的传统企业的接触来看,我们认为目前我们的客户,尤其是传统的品牌制造企业客户核心关注的问题实际上是如何完成自己内部工作流程和方式的转型升级。企业已经越来越从销售结果导向,开始转为消费者导向了。这正好符合星图数据所构建的数据体系,即零售数据体系和消费者数据体系。我们所追求的正是这两套体系的打通,从而完成从企业到消费者的完整闭环。举例来说,企业可以通过消费者数据进行所有的生产、销售和营销的决策,并最终通过销售数据来进行验证和考核。
CSDN:国内外目前的大数据分析领域发展趋势如何?星图未来有哪些计划能透露下吗?
谷熠:大数据领域无疑是最近几年最为火热的领域,越来越多的企业开始意识到大数据的重要性,也有越来越多的企业开始投身于大数据服务的浪潮之中。从个人角度来讲,我认为无论服务的目标对象是谁,都需要充分地了解你所服务的对象,了解他的业务流程、使用方式、应用场景以及所遇到的问题等等。只有深入了解你的目标对象,才有可能实现蕴藏在海量数据背后真正的大数据价值。大数据时代的到来,数据量的极大丰富,导致了数据价值密度的降低,因此,更需要有真正懂得大数据规律的企业来起到提炼价值、贡献价值的作用。星图数据也正在朝着这个方向努力。
中国创新“先锋”企业系列报道 序号 公司名称 成立时间 CEO/CTO 官方微博 公司产品/方向 1. 云适配 2012年 陈本峰
网站适配 2. 友友 2010年
姚宏宇
@友友微博 C、C++、Java产品研发
3. 聚合数据
2010年
左磊
@聚合数据 移动数据服务 4. Anchora 2009年 鲁为民
MoPaaS和InPaaS
5. 够快 2012年
蒋烁淼 @够快科技
云存储
6. 文思海辉
2012年 吴凯
@文思海辉 OpenStack公有云
7. 搜狐云 2011年 邱英波
SendCloud
8. 联想云存储 2009年 罗予晋
云存储 9. 南京讯之智 2012年 谢晚霞
大数据实时分析 10. 上海圣何赛 2012年
金剑
云管理、云存储
11. 国云科技
2010年
季统凯
@国云科技 云操作系统
12. SSO365 2012年 赵健
云安全、云身份认证
13. ClouDil云方案 2001年
叶滨 @世纪鼎利
通信运营商
14. 多备份
2013年 胡茂华
@木浪 云备份
15. 上海越诚软件 2011年 王炜
基于云的建站软件超市
16. 云智慧 2009年 殷晋 @监控宝 云监控、基于大数据APM 17. 深圳泽云 2012年 何巨彬
高性能存储系统 18. 深圳智冠 2004年 卢慧莉
手静脉生物识别、虚拟化 19. 北京沃安科技 2009年 曹学武 @沃安科技 移动视频技术提供商 20. 星环信息科技 2013年 孙元浩 @星环科技 大数据分析平台 21. 杭州数云 2011年 宣晓华 @杭州数云 数据挖掘
22. 红象云腾
2012年 童小军 @RedHadoop
基于Hadoop大数据平台 23. APICloud 2013年 邹达 @APICloud 云API和端API
24. SequoiaDB
2012年 王涛 @SequoiaDB
大数据、云计算、NoSQL
25. Syscloud
2012年 张雄国
云主机虚拟数据中心 26. 易思捷 2008年 杨炳富 @易思捷虚拟化和云计算
数据中心,虚拟化 27.