【先锋】星图数据:“双11”全网销售数据直播背后的技术支撑者

针对星图数据CEO谷熠的采访正好赶在“双11”附近,这个铸造中国电子商务一个新里程碑的同时,也留下了一串光辉的数字:星图数据对这个一年一度的网络购物狂欢进行了全网销售数据直播。作为国内唯一一家对全网销售情况直播的企业,创始人兼CEO谷熠表示做到这些主要依赖两点: 一是自身的数据获取方式,区别于传统的市场调研机构的”抽样推总“方式,星图数据利用”全网普查“方式获取数据;二是直播效率的问题,目前他们的直播仅有三个小时左右的延时,这是传统方式完全无法做到的,而做到如此高的数据获取和处理效率,主要还是依赖他们自主研发的iNebula和WarpEngine这两套系统。

创立不到一年,已经获得A轮数百万美元的融资,星图数据已经在几个方面开始快速发展,其中主要包括更多领域的数据监测、商务合作的推进以及新业务的研发,后期会将更多精力放在打磨产品和扩充数据方面。以下是对谷熠的采访实录。

星图数据创始人兼CEO 谷熠

CSDN:首先介绍下自己和星图数据,以及技术团队情况如何?

谷熠:我是星图数据的联合创始人谷熠,现在在星图数据担任CEO一职。星图数据(Syntun)是一家新锐的互联网大数据服务公司,致力于大数据技术在消费领域的行业应用,专注于通过大数据的技术帮助传统企业解决线上零售方面所遇到的实操问题。技术团队目前在星图数据占据70%以上的团队规模,其中涵盖了数据的采集、清理、模型计算、产品开发等环节,数据处理的技术构成主要以Java、Hadoop为主,前端产品开发则采用了开发效率和灵活度都比较高的LNMP环境.

CSDN:你们目前的产品种类和业务方向如何?具体的应用场景有哪些?

谷熠:目前星图数据主要专注于为传统的品牌制造企业和渠道流通企业提供大数据解决方案。所提供的产品主要以SaaS+DaaS的形式提供,并且我们的产品区别于传统的报告或者是数据库的交付形式,主要针对企业日常工作流程中的职能与环节,通过工具化和服务化的方式,帮助企业相关人员解决场景化的实操问题。

应用场景:以传统的品牌制造企业为例,我们全流程地帮助企业在线上零售过程中的产品管理、渠道管理以及营销管理等多方面解决问题。举例来说,我们曾经帮助一些传统的品牌制造企业在产品的策划和设计环节提供服务,通过对于消费者的评价评论的舆情反馈、消费者的购买习惯和选择偏好等数据,在一款产品的各个细分维度提供设计支持,打造真正符合线上消费者需求的单品。经过该过程所设计生产的产品,至今依然是销售名列前茅的明星单品。

CSDN:目前的客户规模如何,有哪些重量级客户?

谷熠:星图数据目前主要服务的是传统的品牌制造企业和渠道流通企业,从2014年3月份开始进行市场推广和商务拓展后,目前共服务了数十家企业。其中包括耐用消费品类的美的集团和快速消费品类的蒙牛等知名企业。

CSDN:目前国内外做大数据行业的企业很多,专注海量数据分析的也不少,相比其他,你们的优势何在 ?

谷熠:我认为竞争优势主要体现在以下几个方面:

更懂技术:我们利用开源的Hadoop等技术,自主研发出iNebula(数据星云)大数据获取和存储系统,以及WarpEngine(曲速引擎)大数据处理和分析引擎等具有自主知识产权的大数据系统,构建了自有的大数据供应链。通过这套供应链系统,极大地加强了数据的吞吐能力,提升了效率。因而能够减少人工操作所带来的延迟和风险,从而做到更为实时的数据供给。

更懂数据:我们的团队具有专业化的丰富的大数据处理的经验和能力,能够通过系统化的方式,快速准确地进行数据的清洗、标准化、挖掘以及数据模型演算的过程,从而很大程度上提升了数据的准确性和可用性,并且将数据的颗粒度细化到SKU级别。

最重要的是我们更懂客户:我们通过与上百家的传统企业所进行的服务与接触,深入地了解企业在线上零售方面整个的业务流程和所遇到的困难。这也是我们能够设计出符合客户需求的产品的最本源的出发点。

CSDN:据我了解,星图数据作为唯一一家对“双11”当天进行全网销售情况直播的企业,能否分享这背后的技术基础?

谷熠:能够做到在双十一当天进行全网销售情况的直播,主要依赖于以下2点。

一是我们自身的数据获取方式的问题,我们区别于传统的市场调研机构的”抽样推总“方式,而是利用”全网普查“方式获取数据。我们对于全网18家主流的综合性B2C和垂直性B2C进行实时监测,从而汇总出了我们所发布的全网销售情况数据。 二是直播效率的问题,目前来讲我们的直播仅有三个小时左右的延时,这是传统方式完全无法做到的。如此之高的数据获取和处理效率,主要还是依赖于我们自主研发的iNebula和WarpEngine这两套系统,“零人工干预”的方式极大地提高了系统的效率。

iNebula是一套针对互联网海量信息的实时监测和数据获取系统,通过分布式解偶采集和智能解析,从常态监控或定向的web页面中提取结构化数据,并通过动态地址池、智能任务路由、网络环境自适应以及多样化的数据校验及存储技术确保数据获取的完整性和效率。目前iNebula平均每分钟获取的页面数量为50000个以上,每日常态化获取并存储的互联网数据超过3TB。

中台的大数据处理及分析引擎WarpEngine,主要完成数据的清洗挖掘、QC和标准化、以及建模计算和语义分析。通过应用Hadoop平台上的各项技术以及机器自学习技术,目前WarpEngine每分钟处理的数据超过6000万条。

星图数据的云服务产品线目前已上线三款产品:D-Matrix、SkyScope及Atom.Power,主要采用主流的LNMP架构来提高产品系统的效率和扩展性,其中数据库主从方式和Redis热数据缓存的应用,使大数据产品在云端服务的承载量级更高、展现速度更快;而数据可视化部分使用了目前主流的Chart图方式,让数据的易用性更强,展现更加生动。

但是我们相信这仍然还有可提升的空间,我们希望在明年“双11”的时候能够通过和今年天猫采用的大屏直播的方式进行全网销售情况的直播。

CSDN:能否介绍下星图数据背后的技术架构和平台打造历程?

谷熠:星图数据技术团队的前身是2010年组建于美国加州的BDTAC团队,核心来自于USC和CMU等高校,聚焦于大数据前沿技术及应用。星图数据的国内研发团队在2014年初组建完成后,在首席科学家糜万军博士的带领下,基于美国团队的技术研究和积累,历经数月的本土化和行业化,开发了现在星图数据底层的大数据采集及存储系统iNebula和中台的大数据处理分析引擎WarpEngine两个系统的里程碑版,并在此之上逐步研发了针对消费领域的企业云服务产品线。

CSDN:你们在Hadoop等开源技术实战这一领域具有非常丰富的经验,有哪些经验可以分享给读者?

谷熠:这个我们的技术人员也是通过不断摸索、优化来逐渐完善的。Hadoop做一款支持数据密集型分布式应用的开源软件框架,配合其子项目使用,对于大数据的处理和模型计算是具有天生的优势的。但是最为一个开源软件框架,它的版本更新频率和是比较频繁的,虽然版本更新带来了更高的性能,特别是从1.x版本升级到2.x的大版本升级,改动比较大,我们的技术团队也走了不少弯路。所以建议大家在获得更新的版本和稳定性两方面做好平衡。

CSDN:站在客户的角度,你觉得目前客户们最关心的问题集中在哪些方面,你们有无应对之策?

谷熠:从我们和数百家的传统企业的接触来看,我们认为目前我们的客户,尤其是传统的品牌制造企业客户核心关注的问题实际上是如何完成自己内部工作流程和方式的转型升级。企业已经越来越从销售结果导向,开始转为消费者导向了。这正好符合星图数据所构建的数据体系,即零售数据体系和消费者数据体系。我们所追求的正是这两套体系的打通,从而完成从企业到消费者的完整闭环。举例来说,企业可以通过消费者数据进行所有的生产、销售和营销的决策,并最终通过销售数据来进行验证和考核。

CSDN:国内外目前的大数据分析领域发展趋势如何?星图未来有哪些计划能透露下吗?

谷熠:大数据领域无疑是最近几年最为火热的领域,越来越多的企业开始意识到大数据的重要性,也有越来越多的企业开始投身于大数据服务的浪潮之中。从个人角度来讲,我认为无论服务的目标对象是谁,都需要充分地了解你所服务的对象,了解他的业务流程、使用方式、应用场景以及所遇到的问题等等。只有深入了解你的目标对象,才有可能实现蕴藏在海量数据背后真正的大数据价值。大数据时代的到来,数据量的极大丰富,导致了数据价值密度的降低,因此,更需要有真正懂得大数据规律的企业来起到提炼价值、贡献价值的作用。星图数据也正在朝着这个方向努力。

中国创新“先锋”企业系列报道 序号 公司名称 成立时间 CEO/CTO 官方微博 公司产品/方向 1. 云适配 2012年 陈本峰

网站适配 2. 友友 2010年 

姚宏宇

@友友微博 C、C++、Java产品研发 

3. 聚合数据

2010年

左磊 

@聚合数据 移动数据服务 4. Anchora 2009年 鲁为民

MoPaaS和InPaaS 

5. 够快 2012年

蒋烁淼 @够快科技 

云存储

6. 文思海辉

2012年 吴凯

@文思海辉 OpenStack公有云       

7. 搜狐云 2011年 邱英波

SendCloud                  

8. 联想云存储 2009年 罗予晋

云存储 9. 南京讯之智 2012年 谢晚霞

大数据实时分析 10. 上海圣何赛 2012年 

金剑

云管理、云存储                

11. 国云科技 

2010年

季统凯

@国云科技 云操作系统                

12. SSO365 2012年 赵健

云安全、云身份认证 

13. ClouDil云方案 2001年

叶滨 @世纪鼎利 

通信运营商                

14. 多备份 

2013年 胡茂华            

@木浪 云备份                 

15. 上海越诚软件 2011年 王炜                  

基于云的建站软件超市 

16. 云智慧 2009年 殷晋 @监控宝 云监控、基于大数据APM 17. 深圳泽云 2012年 何巨彬

高性能存储系统 18. 深圳智冠 2004年 卢慧莉  

手静脉生物识别、虚拟化 19. 北京沃安科技 2009年 曹学武 @沃安科技 移动视频技术提供商 20. 星环信息科技 2013年 孙元浩 @星环科技 大数据分析平台 21. 杭州数云 2011年 宣晓华 @杭州数云 数据挖掘

22. 红象云腾

2012年 童小军 @RedHadoop

基于Hadoop大数据平台 23. APICloud 2013年 邹达 @APICloud 云API和端API

24. SequoiaDB

2012年 王涛 @SequoiaDB

大数据、云计算、NoSQL 

25. Syscloud

2012年 张雄国  

云主机虚拟数据中心 26. 易思捷 2008年 杨炳富 @易思捷虚拟化和云计算

数据中心,虚拟化 27.

时间: 2024-09-29 21:10:53

【先锋】星图数据:“双11”全网销售数据直播背后的技术支撑者的相关文章

双11媒体大屏背后的数据技术与产品

2016年双11阿里巴巴的产品成交额达到1207亿元,而面对与交易额一样巨大的流量洪峰,直播媒体大屏是怎样做到将交易数据实时计算并且准确显示出来的呢?在这背后究竟用到了哪些数据技术与产品呢?本次阿里巴巴2016双11技术创新论坛上,来自阿里巴巴数据技术与产品部的高级技术专家罗金鹏(藏六)就为大家分享双11媒体大屏背后的那些事. 以下内容根据演讲视频以及PPT整理而成. 本次为大家分享<双11媒体大屏背后的数据技术与产品>.阿里巴巴从2009年开始双11产品大促,从最初的5千万的产品成交额,到2

新科技新文娱:从天猫双11看优酷背后的产品技术升级

9小时成交破千亿,全天交易额1682亿!天猫双11购物狂欢节再度创造历史,成就了一次前所未有的全球所有商业力量的全社会大协同,彰显出科技与大数据的强大驱动力. 在"买买买"之外,阿里大文娱全面参战,让今年天猫双11和猫晚超越了商业与消费的范畴,呈现了一场全球数亿人共享的文化娱乐盛宴,更成为文娱黑科技集中亮相的舞台. 作为阿里大文娱核心引擎的优酷,经过一年整合,融入阿里大生态,为今年天猫双11输送了更多的快乐能量,实现了真正意义上贯穿生态的大联动.作为网络独播平台,优酷猫晚在线观看直播总

一张图看懂2017双11中的网络产品和技术

一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络系列文章: 揭秘2017双11背后的网络-一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络-双11的网络产品和技术概览 揭秘2017双11背后的网络-直面双11洪峰的负载均衡SLB 揭秘2017双11背后的网络-全球最大混合云架构

【阿里云资讯】作战指挥系统碾压美军?!阿里双11破千亿背后的重大机密...

阿里双11破千亿背后的重大机密... 双十一,全球数亿剁手大军的狂欢,为了给剁手大军创造稳定丝滑的体验,阿里巴巴专门成立数万人的"作战指挥室".而数万人之间的无缝协同,极为不易,要知道,这在战场上差不多是集团军的量级. 说到军事单位的指挥难度,这里先给大家普及一个牛逼的名词:C4ISR.一眼看上去不明觉厉,如果你秒懂,恭喜你,你就是一个超级军迷,和"局座"大人可以对话了.C4ISR 是7个英语单词首字母的缩写,即指挥Command.控制Control.通信 Comm

【直播回顾&amp;资料下载】Work Like Alibaba第三期:揭秘双11背后的技术支撑

阿里巴巴逐年增加的双11营业额和不断创新的业务背后隐藏着怎样的秘密? 阿里走过的这18年,它用怎样的工作方法.工作形式打造出高效.创新的企业帝国? Work Like Alibaba社区活动带你全方位了解阿里的开发.产品.运营是怎样工作,又有哪些创新技术可以帮助更多企业赋能自己的业务创新和企业发展,这些前言技术理念及实践经验给哪些企业带来了怎样的技术成果.Work Like Alibaba第三期和你一起揭秘! 第三期Work Like Alibaba社区活动是线上直播活动持续进行,连续4场,10

错峰抢食“双11” 全网电商狂欢

2009年11月11日,一场线上五折促销活动只有27个品牌参加,4年之后,不再是天猫一家的网络销售盛宴,而是成为全网电商企业的狂欢.与之前同一天多家混战的情形不同,今年各大电商大多选择躲避天猫锋芒. 前几年的"双11"尽管屡次创造销售奇迹,但爆炸性的消费增长也暴露出一些问题.今年,商家.快递业.支付行业以及电商平台等电商生态圈相关环节有了新的磨合. 转眼间,"双11"大促迎来第四年. 这个原本属于天猫自己的网络销售盛宴,随着京东.苏宁.国美.当当.新七天以及亚马逊等

【阿里鬼道】Weex在双11会场的大规模应用:业务支撑、稳定性保障和秒开实战

前言 Native 开发的诸多亮点中,流畅体验和系统调用是最多被提及的.流畅体验体现在页面滚动/动画的流畅性,背后是更好的内存管理和更接近原生的性能:同时又是 Web 的痛点:资源首次下载.长页面内存溢出和滚动性能.动画性能.传统 web 性能(如JS执行效率).Native 有丰富的系统调用能力,而 Web 痛点在于:W3C 标准太慢,有限的设备访问能力,API 兼容性问题较严重,如 Geolocation 在 Android Webview 中可用性很差. Web 开发同样有诸多亮点,其中最

2017天猫双11,1682亿背后的阿里绝密50+技术(长图下载)

2017天猫双11的交易额定格在1682亿.但对技术的追求,却从未定格. 11秒交易额破亿,28秒破10亿,3分01秒破百亿,40分12秒破500亿,9小时破1000亿--2017年11月11日的数据一定会铭记在历史中.交易峰值32.5万/秒,支付峰值25.6万/秒,比去年增长超1.1倍,再次刷新全球纪录.同时诞生的还有数据库处理峰值,4200万次/秒. 数字的背后是技术.在<零点之战!探访阿里巴巴8大技术专家,提前揭秘2017双11关键技术>中,我们曾直接探秘阿里云10+技术,包含云存储.视

KDD论文解读 | 想要双11抢单快?靠这个技术提速9MS

6月29日,阿里巴巴在杭州召开2017天猫双十一发布会,宣布启动:双11超级IP计划.今年晚会将由北京卫视.浙江卫视.深圳卫视三台同时直播.淘宝直播.优酷等在内的多家平台同步跟上,让澳门.香港.新加坡等地也能同步收看天猫双11晚会,相信今年的双11一定会成为举世瞩目的全球狂欢节. 同时,为2016双11提供技术支持的团队也首次曝光了其研究成果,通过CLOSE排序算法,2016双11CPU的使用率降低了约45%,搜索的平均延迟下降了约30%(平均的搜索latency从33ms下降到24ms),同时