而在4月20日的云栖大会深圳峰会的《大数据》专场上,数加又有新的迅猛变化,产品体系更加清晰,场景化方案走向个性化,来自企业的实践也已走向深入。
今日的数加:16+产品,3大方案,3种可视化应用
如果从阿里云官网导航栏的“大数据”入口进入,可以看到产品、解决方案、可视化是数加的三大框架体系。具体来看:
产品方面已经拥有16款产品:
- 开发套件:大数据开发、机器学习、BI报表;
- 数据应用:推荐引擎、规则引擎标准版、移动定向营销版、移动数据分析;
- 智能算法:智能语音交互、机器翻译、人脸识别、电商图像分析、通用图像分析和印刷文字识别;
- 计算引擎:大数据计算服务、分析型数据库、流计算。
方案主打3个方向:
- 移动app数据化运营:为开发者提供一站式数据化运营服务,助力移动开发者实现基于大数据技术的精细化运营,提升产品质量和体验,增强用户黏性;
- ODPS数据集成方案:提供可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展的数据传输交互服务,让数据不再成为孤岛;
- 个性化推荐:根据用户的兴趣特点和购买行为,推荐用户感兴趣的信息和物品。
可视化应用有3种:
- DataV:专精于业务数据与地理信息融合的大数据可视化呈现,轻松搭建专业水准的可视化应用;
- 郡县图治:“郡县治,天下安”,区域发展亟需响应“互联网+”行动计划,敏捷应对经济新常态;
- 台风预警:台风来临前提供实时的各气象台预报数据对比展示分析,判断台风未来的走向及汛情。
如果浓缩到一张图中,就是在阿里云大数据事业部总监张金银(花名:行在)演讲中的一张:打通数据生产全链条。
在他看来:“阿里巴巴的命是拴在数加上的,承载了阿里巴巴集团、蚂蚁金服集团EB级别数据的计算。作为大数据践行者,阿里巴巴的大数据之路告诉我们,数据上云(集中存储、大规模计算、统一元数据)、数据资产化(数据整合、数据地图、数据管理、资产计量)、业务创新(数据化运营、精准营销、互联网金融、智能物流)、数据生态(业务闭环、生态伙伴、运营数据、分享)这是DT时代所有有志于大数据实践的必经之路,也是数加的使命。”
交通行业“互联网+信号灯”分析
交通是大数据应用最为重要的场景之一。阿里云数据事业部专家王正刚在分享中提到:信号灯作为道路资源分配的存在,可以平衡人、车路权,也是提升运输效率的一种重要手段。经常能看到相关新闻报道,因为信号灯失效,造成的拥堵和事故,可以说是“牵一发动全身”。
但谈到交通信号灯控制,传统交通信息采集设备昂贵的造价和维护成本让人却步,所以一般难以覆盖城市的所有道路,导致交通管理部门无法动态进行全网络交通流量的监控和疏导。移动互联网的存在不仅降低了信息采集成本,延伸了数据采集和道路监控范围,而且可以基于道路上运动的车辆轨迹生成丰富的交通变量,比如说速度和车流量。举例来看,基于动态路口交通状态信息计算的路口平衡指数就是为了度量路口信号灯调节交通供需关系的能力,它是实时路口平衡性和自由流状态下完美平衡性之间的差值,所以平衡指数越高,路口对供需关系的协调能力就越弱。
基于2016Q1广州市移动互联网数据分析,我们发现工作日路口平衡指数平均在早间7:00-9:00和晚间17:00 -18:00容易出现平衡指数小高峰。
工作日的路口平衡指数水平一般大于周末,但在二者的早间(0:00–6:00)和晚间(20:00–23:00),路口平衡指数相比较白天(10:00–17:00)都显著下降。
深入到各个行政区,我们同样发现工作日差异值普遍大于周末,所以工作日信号灯调节交通供需的能力略微劣于周末,这可能和工作日道路通行压力普遍较大有关。
事实上,实现信号灯的评估,一方面可以评估单点路口的信号灯控制,另一方面也可以评估绿波带(线)的效果,比如可以通过实时路况数据反映绿波带的设置在不同区域和时间段的合理性。更深层次的,我们可以基于平衡指数优化信号灯配时,生成路口绿灯修正时间等。
个性化推荐实战经验
个性化推荐也是大数据实践的另一个重要场景。在好看锁屏高级总监翟斌的分享中,特别提到,在实现好看锁屏快速用户积累的过程中,比如7200万国内用户、360万海外用户、点击喜爱的用户达到130万人,查看详情的用户达到86万人等,个性化推荐需求与问题最为突出。
在如今信息爆炸的时代,个性化内容推荐已是主流。在他看来,好看锁屏的需求有三点:
- 盘活内容:图库内容30余万,时效内容30%,非时效性内容70%,让用户看到最新内容与热点内容;
- 用户多层次需求:用户范围广,不同年龄,不同地域,不同背景对内容喜好完全不同,人工推荐已无法满足这么需求;
- 让用户更加爱看:在锁屏上浏览更多用户喜欢看的精彩内容,让锁屏成为用户获取内容的新渠道。
而从产品需求来看,也有四方面:
- 数据自由:数据安全,本地化部署;
- 快速开发:1个月完成上线,维护人力投入少;
- 效果好:订阅量提升;阅读量提升;阅读时长提升;
- 扩展强:基于内容推荐;基于位置推荐;推荐权重调整。
有了真实的产品需求,下一步就是技术选型:考虑到人才、技术和时间,最终好看锁屏通过阿里云SLB、ECS、OSS、SLS、脚本实现了对离线数据和实时数据的收集,ODPS实现了存储,采云间进行了数据处理,最终通过分析报表系统分析出用户、图片和订阅的关系。现有分析统计流程见上图。
但对于个性化推荐流程,还有很大优化空间。
翟斌分析了伦敦“大本钟”所代表的图片标签分析,以及人物画像,并从业务、场景和算法方面对需求进行了详细阐述。在数加个性化推荐引擎的助力下,对算法进行了优化和调整。最终改进后的流程如下。
效果比翟斌所预想还好。每日浏览从160张增加到220张增加了37.5%,主动订阅提升了33%,主动浏览内容从13次,9张/次增加到16次,12张/次,分别提上了23%和33%。
在他看来,个性化推荐引擎方面,实时、算法和模板是最重要的三点,而数加个性化推荐引擎来自集成淘宝最成熟的算法,实现了实时个性化推荐,还有电商和阅读等多模板选择,在持续调优下,对企业的帮助极大。
—结束—