智于技而胜在云:智胜企业互联网大数据系统上云实践

本文正在参加“最佳上云实践”评选,来给我们投票吧:(编号6)

我们背靠北京大学,业务范围覆盖印刷、传媒、大数据、出版、字库、数字教育等领域,致力于为客户提供先进的信息处理技术、产品、解决方案及增值服务,使最终用户能随时随地通过各种终端设备体会移动互联网时代的信息化生活。自2006年以来,我们一直专注于大数据产品的研发与应用,并取得了大数据相关专利上百余项,拥有强大的技术研发能力。多年来,我们秉承着“技术为本、应用为先”的经营理念,为各行各业的用户提供先进的大数据整体解决方案,有力地提升了政府管理能力、机构决策水平以及企业市场竞争力。截至目前,我们大数据整体解决方案已服务国内外用户超过200家。

智胜企业互联网大数据系统实现对互联网信息进行精准提炼,以事实为依据、用数据说话,帮助企业倾听互联网声音,想(分析)消费者之所想、做(决策支持)企业之所需,以品牌为核心,实现行业趋势、负面舆情感知,危机公关监测和商业情报挖掘分析。

从自建平台到混合云

我们于2003年率先进行信息检索与文本挖掘等基础技术的研究。相继推出互联网舆情监控系统、微博监测分析系统,形成全面成熟的舆情整体解决方案,完成多个大型项目的建设,持续领跑舆情行业。并且在2011年率先尝试以多租户方式(SaaS)服务于不同行业。致力于云计算、大数据技术的研究与应用,完成自有大数据服务中心建设(机房内服务器数量达300台之多),搭建了自己的Hadoop、Spark、Storm等对应的大数据处理平台;在数据库方面,采用MySQL、MongoDB等主流数据库,研制并推出了互联网大数据信息服务平台,为不同行业用户提供大数据应用解决方案。

在2015年,接触阿里云之后,逐渐采用阿里云的产品,从ECS、RDS、OTS到MaxCompute等等,目前我们形成了混合云的模式,既我们的大数据服务中心数据推送+阿里云系统应用部署模式。

云端迁移之路

智胜企业互联网大数据系统中的前端程序基于java语言编写,可直接部署在阿里云的ECS中。此外,前端程序使用的Redis和MySQL服务,可直接替换为阿里云的云数据库Redis版和RDS版,并且不需要定制的客户端连接程序。因此,我们的前端程序直接部署在了阿里云的ECS中,未进行端服务连接方式修改。

由于阿里云RDS兼容MySQL客户端,结构化数据在迁移中未遇到任何困难,非常平滑的完成了迁移。对于非结构化数据,我们将其统一进行格式化之后,存储于阿里云的TableStore实例中。基于TablesStore存取方式,以及我们数据接收、上载程序定义的数据存取接口,快速完成了数据读取操作的过度。

通过阿里云OpenSearch同TableStore配合使用,可直接对存储在TableStore中的海量数据建立全文索引,方便对海量的数据进行搜索操作。

我们基于MapReduce编程模型的机器学习程序,直接部署在了阿里云的MaxCompute大数据开发套件和机器学习平台上,完成舆情数据自然语言处理、聚类、分类等操作。

架构分析

下面是智胜企业互联网大数据系统架构图:

通过智胜企业互联网大数据系统中,将企业用户配置的关键词、微博主等信息,同步到我们的数据中心以及阿里云的公众趋势分析系统后,我们的数据中心会持续向相关的数据推送到指定的阿里云服务器中,并且我们还会定时从公众趋势分析系统中获取数据,完成相关数据的原始积累。原始数据转换为数据上载程序要求的格式,从而开始进行数据上载操作。

数据上载主要任务是,完成数据的预处理过程,比如使用机器学习平台完成自然语言处理、文本聚类、分类等操作,以及数据TableStore保存,历史数据保留指定天数后即删除。

对于热点事件的挖掘、相关事件的发现等功能,由机器学习模块完成。通过对于数据进行自然语言处理、分类、聚类以及情感度分析,可及时发现热点事件以及相关数据,并对此事件进行持续跟踪和数据挖掘。

智胜企业互联网大数据系统的前端模块,通过调用TableStore服务和OpenSearch服务,完成大数据的查询功能。通过MySQL数据库完成业务数据的操作功能,最终以Web交互页面的形式展示给用户,供用户使用。Redis主要完成缓存功能。

微博、微博用户相关的分析功能,通过定时调取公众趋势分析系统的接口,完成数据的获取并存储到MySQL数据库中,供智胜企业互联网大数据系统的前端模块使用。

智胜企业互联网大数据系统目前已接入阿里云市场,我们作为阿里云市场的isv,可通过阿里云市场对用户购买我们产品的付费行为做出响应,以账号的形式供用户使用,而阿里云市场则为我们提供了交易管理界面,方便后续的用户运营等。

目前数据上载每小时处理数据量约1GB左右,TableStore平均写延时在15ms左右,读延时在5ms左右,可以满足需求。MySQL数据库容量使用保持在20GB左右。

目前业务中大量的计算操作集中在数据的统计方面。在目前数据量下,机器学习模块利用已有的数据模型以及算法,可以满足每小时约1GB左右数据量的处理工作。在目前数量下,OpenSearch响应时间约为100ms左右,通过定期将数据导入MySQL进行更加细致的统计操作,以统计结果的形式保存,减少重复检索行为和压力。此外通过对SQL脚本的持续改进,使得系统响应延时基本保持在一个可用范围内,并随时可通过服务器数量的横向扩展,应对访问容量的增加。

上云前后

单从性能上讲一方面阿里云服务器安全和易维护,并且由于基于虚拟化技术和阿里强大的云服务器硬件资源,云主机的磁盘IO性能相比我们自己的大数据中心机房更有优势,能够应付互联网海量数据采集与分析环节频繁的随机读写和连续读写,满足上层数据全文检索和大数据分析等应用。另一方面云服务器硬件配置升级方便,性价比高,另外阿里云BGP多线技术和分发缓存技术,对于互联网大数据SAAS应用,在成本方面优势非常明显,灵活的收费方式可以节约很多成本,同时也为不同细分用户市场提供更加灵活价格区间及应用功能。

最后

由于阿里云操作的便捷性,在上云过程中并未遇到太多的问题,主要时间花费在了各项服务的初始化以及各个系统的部署、调试上。此外,依靠阿里云提供的性能监测、报警功能,方便了运维人员及时发现系统异常,并及时采取措施。

 

时间: 2024-10-01 08:03:08

智于技而胜在云:智胜企业互联网大数据系统上云实践的相关文章

互联网大数据时代 云加速服务是刚需

本文讲的是<strong>互联网大数据时代 云加速服务是刚需,</strong>2013年中国互联网大会将于北京8月13日至15日举行.本届大会的主题是"共建良好生态环境,服务美好网络生活",具体话题涉及移动互联网.电子商务.互联网金融.大数据.云计算.物联网.IPv6.创新创业等多个领域,而大数据将成为大家关注的重点. 信息爆炸的移动互联网时代,移动应用的不停使用产生了大量信息. 比如用户行为的信息(包括对话,购买以及事件处理等)以及设备生成的数据(崩溃数据.

天翼云增值服务全面上线,上云更加简单

2016年3月8日,中国电信天翼云携手专业厂商推出镜像与技术增值服务.数据迁移.一键式自动化部署.多种免费镜像等服务让用户上云更加简单. 此次,天翼云推出增值服务涵盖环境配置.安全服务.数据迁移.故障排查等众多领域,为天翼云用户加强服务安全性,降低维护工作量,让每位用户都能以简单快捷的方式获得安全可靠.易于维护的主机. 环境配置,轻松上手无压力 无论现实中的物理服务器,或云环境中的虚拟服务器,都少不了繁琐的配置和优化等工作.网站应用配置.服务器环境配置.网站程序安装.域名绑定.远程管理端口修改等

上云,让业务尽情拥抱互联网:阿里云在企业专有云与混合云最佳实践

摘要:本文的整理自2017云栖大会-南京峰会上阿里云企业业务事业部云计算专家赵圣强的分享讲义,讲义中主要分享了中大型企业对云计算诸多需求的深刻理解以及基于阿里云构建企业云的全方位解决方案,并根据实际案例分享了企业基于阿里云带来价值分析的相关内容. 在2017云栖大会-南京峰会上,阿里云存储服务高级专家杨皓然做了题为<阿里云在企业专有云/混合云最佳实践>的分享.阿里云连续7个季度成为阿里巴巴集团增长最快的子公司,并且目前阿里云在国内公共云.混合云市场上处于领先定位,阿里云使得政企客户可与阿里巴巴

迅雷云下载:互联网第一大港的云时代走向

2005 年上海凭借着其在中国对外贸易中的主导地位取代鹿特丹正式成为世界第一大港口,成为中国经济发展中一个重要的里程碑事件.在世界第一大港口繁华热闹的背后,人们可能没有注意到在和海洋一样宽广的互联网上,另一个属于中国的"世界第一大港口"也已经初具规模:2005年,迅雷--这一耳熟能详的资源下载引擎,早已凭借着出众的下载速度和丰富的资源成为全球规模最大.下载量最大的下载引擎. 今天,"迅雷港"每天都会为分布在世界各地的PC终端发送超过2亿次的"数据货物&qu

大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据

在如今互联网环境下,网络上的各种业务数据,如新闻,社交网站,交易,政府公开数据,气象数据等各种各样的数据越来越多被应用到企业的数据运营中, 以打通外部数据与内部数据的通道,使得两者激情碰撞出热烈的火花.这些数据一般都数据量巨大,是最适合用MaxCompute来进行分析和加工的一类数据,尤其可以利用MaxCompute的机器学习能力来完成一些数据挖掘的业务场景,本文就介绍如何利用开源的Scrapy爬虫框架来爬取新闻网站的数据到MaxCompute中. 一. Scrapy简单介绍 Scrapy是一个

上云不难,用友云赋能产业 让企业服务都在这!

"未来,所有的企业都是互联网企业.技术公司,都是金融企业.金融化发展的新生代.数字化重生的企业."用友网络董事长兼CEO王文京在8月19日2017中国企业互联网大会上表示,在当今企业发展的客户运营时代,新一代信息技术作为商业基础一直影响和改变着商业模式.当企业计算突破企业边界走向社会级,数字化商业成为新时期的商业范式,通过企业上云实现企业数字化转型与升级. 用友网络董事长兼CEO王文京 到底什么叫企业上云?企业什么才叫上了云?浙江省副省长高兴夫表示,真正上云要用到互联网的产品,在研发.

浙江启动“十万企业上云” 阿里云联合生态首个响应

浙江正式吹响向云计算要发展新动能的战略行动:"企业上云"计划.不少企业开始行动,中策橡胶与阿里云合作,利用ET工业大脑,在上云后提升了3%-5%的良品率,创下了大量的利润. 4月13日,浙江省信息化工作领导小组发布<浙江省"企业上云"行动计划(2017)>,该计划旨在提高企业在新常态下的发展动能和竞争力,促进经济转型升级,加快推动"企业上云",新增十万企业上云,构成"云上浙江". 制造大省浙江正在加速走向智造大省,

天安人寿:上云之前,我们有这些思考

在行业政策趋势和云计算热潮的驱动下,金融.保险的企业对于上云有了驱动力和信心,同时又不免有犹豫和担忧. 点击查看视频回顾:http://v.youku.com/v_show/id_XMTkyMjE0MDQyOA==.html 不要只为了上云而上云 天安人寿近年来业务发展非常迅猛,跻身亚洲保险行业500强,被评为2016年中国十大领军品牌.2016年,天安人寿在阿里金融云上开始搭建自己的云架构,前端使用到了阿里云云盾的安全服务:中台部署CDN.LBS.负载均衡:而后端使用到了弹性计算服务器等.在此

佰腾科技的专利大数据的云上裂变之路

江苏佰腾科技有限公司是一家从事专利信息应用.专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权.科技创新整体解决方案.2014年起,公司积极推进互联网转型,实施"互联网+专利"计划,开发了国内首家专利电商平台-专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B.O2O线上线下相结合的模式为客户提供全方位的.全流程的知识产权一体化服务. 用互联网的思维和技术来改造传统的知识产权行业,在这个过程中,