借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品需求符合度更高。

“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。”-CTO 许鹏

关于江苏佰腾

江苏佰腾科技有限公司(以下简称“佰腾”)成立于2012年,是一家专业从事知识产权服务的高科技服务企业,国内知名的知识产权服务机构,江苏省最大的民营知识产权综合服务机构。佰腾科技以专利信息应用和专利咨询服务为核心,面向国内外用户提供专利信息检索、专利大数据应用开发、专利代理服务、专利预警分析、专利战略研究、知识产权贯标辅导、知识产权管理、专利技术成果转化交易等服务,为客户提供知识产权、科技创新的整体解决方案。佰腾科技的专利信息检索平台(专利探索者)已经持续研发了 10 年,是目前国内最知名的免费面向公众服务的大数据应用平台,为中国专利事业的发展做出了很多的突出贡献。
2014年起,佰腾实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。用互联网的思维和技术来改造传统的知识产权行业,在这个过程中,大数据技术的应用是佰腾科技最重要的手段之一。佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。公司累计服务企业达120000多家,其中上市公司560多家。

挑战

佰腾科技致力于为客户提供最好的专利信息和技术创新服务。近年来,一些企业,特别是出口型企业开始慢慢认识到,不仅要在技术上做突围,同时也要构筑自己的专利壁垒,因此就一定需要创新。对企业来讲,创新投入的费用非常大,因此要找捷径,了解当前所在行业领域的技术发展程度,迫切需要找到技术的热点和空白点,于是这也就成为了佰腾专利信息应用的新的课题,这就要求佰腾不能单纯把专利信息的内容简单地拆解出来,而是需要通过大数据挖掘、大数据应用进行分析。在大数据处理流程中,不仅仅使用专利数据进行数据挖掘,还会更多地引用期刊文献、法律诉讼信息、企业信息,并将其整合。
佰腾之前自建的数据平台已经不能满足大数据挖掘和应用的需求,在以下方面存在巨大的挑战:
1.投入成本过高。“整个平台,自建投入费用过百万,每年的维护也需要差不多十几万,投入非常大。”CTO许鹏讲道。
2.海量数据处理的能力差,不满足周期性的数据更新要求。“专利信息的大数据与其它领域的大数据不同,虽然全球专利信息的总量仅在 1.3 亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在100亿多条级别,同时,针对各种客户的不同需求,还要基于这些数据实现数百种的分析模型和方法,从中挖掘出专利信息的深层次价值。当前,专利大数据的业务已经非常复杂,数据业务场景从10年前的个位数增长到十位数,可用数据维度从30多项增加到200多项。”许鹏讲道。佰腾不仅仅提供给用户文本检索功能,还有图像检索、特征检索、关联检索,并将它们串起来,产生相应的报告;数据应用的深度也已经加大,数据维度的增加使数据处理量翻了数十倍,数据处理的能力已不再满足周期性的数据更新。一开始能做到每个维度都更新,后来随着数据维度的增加,处理不过来,有一些数据维度则会把更新的周期拉长。而且,在海量数据处理时,自建系统很多情况下在数据处理到80%的时候才会发现有问题,由于处理时间过长,当发现问题时只能重新开始,浪费的时间非常多,数据的处理周期会成倍拉长。
3. 数据处理和数据应用瓶颈频发。瓶颈主要存在以下3个方面:
• 分布式抓取模型,维护成本大,资源利用率不高;
• 单点数据存储结构,无法满足大量的读写并发,降低了数据检查和数据处理的速度;
• 索引数据和文本数据混合存储,数据应用性能较差。
• 需要分析的数据维度比较多,因此处理环节非常多,数据处理流程异常复杂,流程编排完全靠手工,任务繁重,无法自动化编排。
4.专利大数据的深度挖掘越来越需要依赖新的数据挖掘技术,比如文本聚类、机器学习、图像识别等,而佰腾不可能短时间内建立并拥有研发这些技术的专业团队,迫切需要借助第三方的平台及工具支撑。
5.专利大数据的应用是一个实践性非常强的领域,随着客户应用需求的不断提升,佰腾需要不断更新分析和展示数据结果的模型和方法,不仅有提升数据处理效率的问题,也有提升数据分析应用能力的问题。因此还需要数据平台具有可扩展性,可以快速响应不断变化的客户需求,而之前的平台有几十个组件均需要维护,而每有一个新的客户需求都需要重新做组件。

为什么选择阿里云数加

佰腾之前采用自建的数据平台进行大数据的处理和分析,如上所述,自建大数据基础设施需要采购和维护大量硬件设备,部署和配置复杂的系统环境,需要耗费大量资源保证服务的持续、稳定运行,并且对于运维人员的要求会更高。而且,原有的数据框架平台已使用多年,技术比较落后,在性能和功能上存在很多瓶颈,已经不能很好的支撑新的大数据研发需求。
云服务最大的特点就是只用使用服务,不需要关心底层技术架构、安全性、可靠性、稳定性等方面的问题。而且,对于专利大数据处理业务来讲,云服务是整个业务系统依赖的重要基础,能节省大量的基础建设费用。而且,阿里云数加平台在国内大数据技术方面处于领先地位,也是最早进行大数据云化的平台,因此佰腾决定使用阿里云数加作为大数据平台。同时,也会根据自身业务的需求,对云服务进行进一步的开发,形成最有利于自身业务发展的大数据分析应用平台。

解决方案及架构

随着对专利信息维度挖掘的深入,佰腾对于信息挖掘的需求正在从“文字表述“向“逻辑概念”转移,比如希望从专利信息中挖掘出技术概念并发现它们之间的关系,这样就能帮助客户更好的分析技术发展的趋势和热点。目前,佰腾正在推进专利信息深度挖掘技术的研发,借助数加平台的机器学习以及数据分析能力,为客户提供更加精准、更加全面、更个性化的专利大数据应用服务。基于阿里云的大数据平台技术架构如页面下方架构图所示。
整个平台按照数据业务处理过程中的职能对平台架构进行分层设计:
数据获取层:负责从数据源拉取数据,检验数据的完整性。如图中源数据处理组件所示,现在有1亿3千多万条专利数据,每周的更新量很大,要保证每周的数据都要拉取正确。
数据处理层:负责对原始数据进行数据维度的挖掘。现在200个数据维度,都通过这一层处理,将处理结果放到整体系统的核心—数据维度数据库,主要通过数加平台的MaxCompute作为数据维度数据库并通过Data IDE进行复杂的分布式大数据处理。此外,图像信息存储在OSS中,通过专利图像处理标准化流程,用于后续的数据应用层的图像索引引擎。
数据应用层:负责对数据维度进行各类索引以便应用。如图所示包括全文引擎、图像引擎等,还有关联索引,用于检索专利间的关系。最左边的图像引擎,和文本处理有些不同,但处理方式差不多。
数据服务层:负责对外提供统一的数据服务接口,保障服务质量。如图所示大数据基础服务平台所涵盖的图片服务、检索服务、分析服务和资源服务。
数据管控层:在架构图中未体现,贯穿上下各层,负责对整个数据平台进行运行监控。
此外,架构图中间还有RDS,将用于展示的数据单独拿出来,和索引分开,可以提高大数据应用的效率。
使用的阿里云数加产品有:
• 大规模计算服务(MaxCompute)
• 大数据开发套件(Data IDE)
• 机器学习

收益

1.成本大大降低。使用数加平台后,如上所述,无需基础设施投入,按需付费,而且无需关注运维问题。据统计,目前佰腾整个数加平台的年消费不到原来自建系统年维护费用的1/5。
2. 数加平台的 MaxCompute 解决了数据存储量大的问题,保证了数据的安全性和完整性,数据存储和处理效率有了大幅提升。“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。”许鹏讲道。
3. Data IDE的图形化任务开发功能很好的解决了数据处理过程中流程标准化的问题,可以将任务托管后自动化执行,解放了开发人员双手;分布式的框架结构解决了多任务的并发处理问题,提高了任务处理的速度,实现了数据价值的快速挖掘,避免了自建系统存在的诸多不稳定问题。
4. 上云之后的大数据处理流程,比之前的流程简单很多。所有流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。新流程相比原来的具备以下优势:更高效、更丰富的数据维度挖掘;减少人工介入,降低了成本;全流程、全自动化的数据处理;索引数据和文本数据分离处理,提高数据应用性能。
5.机器学习平台降低了算法的学习成本,也可利用既有的数据模型算法解决数据挖掘过程中的问题。
6. 目前佰腾已经将基础数据处理和部分数据挖掘的任务放在阿里云数加平台上完成,然而更重要的是,阿里云数加一站式大数据平台还可以在文本数据挖掘、图像数据识别、数据关联分析等方面给予佰腾更多的能力支撑,以助力佰腾在专利大数据分析应用领域继续拓展业务并快速发展。

架构图

相关文章

大数据打造你的变美频道——数加平台上小红唇的大数据实践

借助阿里云数加,小小的美甲行业被美甲帮玩出了天价

与阿里云整个生态体系共同成长,更快更好的为房地产行业客户提供高价值的服务

苏州协鑫与阿里云合作阶段性完成,良品率已提升1%

墨迹天气-轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求

阿里云数加让企业更专注于业务,助力东润环能高效利用大数据资源

产品3周迭代一次,启信宝驾驭8000万企业征信的平台架构

日交易笔百万级,Ping++的大数据平台架构

专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践

技术创业难?看汇合营销如何玩转大数据与机器学习

时间: 2024-10-18 16:27:19

借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品需求符合度更高。的相关文章

阿里云数加助力东润环能开启新能源大数据时代

北京东润环能科技股份有限公司(以下简称"东润环能")是一家从事新能源电力领域的数据信息服务公司,该司开创之初,提供了新能源发电功率预测系统.电网调度管理与支持系统.新能源城市规划与咨询服务等基础性产品,并逐步打造三大新能源互联网智慧服务生态圈平台,包括新能源投资开发生态圈第一平台.绿色电力交易与智慧用能生态圈第一平台.新能源资产智慧营运生态圈第一平台,在新能源产业金融领域将打造新能源产业数据挖掘投资服务系统.此前东润环能租用虚拟机,在虚拟机上自行搭建hadoop集群用于分析当天生产的气

阿里云数加产品家族图首次亮相

数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意! 数加官网访问地址:https://data.aliyun.com/ 高清图下载地址 [全球独家首发]阿里云数加大数据产品手册V1.0(纯附件) 陈鹏宇分享主题-数加:迈向数据智能之路 数加与客户的故事 借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品

阿里十年经验输出,大数据平台“数加”的前世今生

2016 年1月20日,在云栖大会上阿里云发布了一站式大数据平台"数加",该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据应用等数据生产全链条. 数加平台由大数据计算服务(MaxCompute).分析型数据库(Analytic DB).流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快.成本更低.计算引擎之上,"数加"提供了丰

从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策.比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率. 这

小议阿里云"数加"平台对企业有何帮助?

文章讲的是小议阿里云"数加"平台对企业有何帮助,阿里云发布大数据平台"数加",让DT时代不再只是阿里巴巴鼓吹的一个概念,而是实实在在的落地了!通过数据倒推本质,意味着一个新的时代来临,而这对企业和个人开发者又意味着什么? 1月20日,阿里云在2016云栖大会上海峰会上发布了一站式大数据平台"数加",工欲善其事必先利其器,首批亮相的就有多达20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据应用等数据生产全链条. 阿里云大数据事业

阿里云数加(大数据)打造雄安智慧新区

       自从4月1日,中共中央.国务院印发通知,决定设立河北雄安新区之后,这个无名小城就一夜爆红.雄安新区规划范围涉及河北省雄县.容城.安新3县及周边部分区域,地处北京.天津.保定腹地,是继深圳经济特区和上海浦东新区之后又一具有全国意义的新区.一时之间,刚诞生不久的雄安新区,被纷纷涌入的买房"军团".暴涨的房价.发展趋势的猜测等等新闻包围的水泄不通.        雄安新区横空出世,引发各界高度关注."前有深圳.浦东,今天的雄安新区潜力有多大"?有媒体用这样的

数加平台如何通过Serverless 架构实现普惠大数据

 阿里云大数据 Serverless 理念 Serverless是一种架构理念,指的是以服务的形式来提供计算能力而不是以服务器形式,让开发者在构建应用的过程中不用过多考虑基础设施的问题.大数据业务本来就是最典型的计算业务,从计算的场景上来说,涵盖了离线批量计算.实时流计算.在线实时计算等,在很多情况下还需要把这些计算能力组合起来才能满足需求.所以Serverless 的架构天生就能很好的适用于大数据应用的场景,能把数据科学家从底层服务器层的运维管理等解放出来,让数据科学家专注在数据价值的探索挖掘

阿里云发布的数加是什么鬼

注:本文首发于袋鼠云公众号 2016.1.20,阿里云在云栖大会上海站的主题是DT World,这是一场规模宏大的大数据产品的发布会.发布的近20款产品, 几乎都出自阿里巴巴一个存在已久的团队:数据平台事业部,从2015年初开始变成了阿里云数据事业部.这个团队存在有多久?可以说比阿里云本身还要久.这个团队最早和DBA在一起,负责人是淘宝的第一位DBA七公,后来DBA归属运维,数据平台则在七公的带领下迅猛发展,底层的平台历经多次升级,集群规模也从最初的4个节点Oracle RAC到20个节点Ora

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

  数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台.   本次分享嘉宾是来自阿里云大数据的技术专家祎休!   背景与总体思路   数据仓库是一个面向主题的.集成的.非易失的.反映历史变化的数据集合,用于支持管理决策.其结构图如下所示:     随着大数据.云计算等技术的应用和普及,互联网环境下数据处理呈现出新的特征:业务变化快:数据来源多:系统耦合多:应用深度深.业务变化