企查查支撑8000万+企业数据的大数据平台技术选型与实现

11+大数据行业应用实践请见,同时这里还有流计算、机器学习、性能调优等技术实践。此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps;更多精彩内容参见大数据频道:https://yq.aliyun.com/big-data 。

企查查是苏州朗动网络科技公司旗下的一款核心企业信息查询工具,立足于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息。企查查是最早一批的在线企业信息查询工具,早在2014年李克强总理说要开放国家工商大数据库的时候,企查查最早抓住了这一批数据,通过互联网技术以及通过自身的分析能力建立了大数据平台,从而为用户提供企业信息查询服务。企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

通过企查查,用户能够实时查询企业相关的工商登记信息,年报,股东信息,投资人信息,涉诉,失信,拥有商标,知识产权,企业证书,主要人员信息,变更记录等信息。企查查用户人群囊括金融、征信、法律、行政等行业,被众多法律界和金融界人士、求职者以及政府部门高度认可和广泛使用。目前企查查登陆注册用户总数已经突破1800万,部分产品及服务已经上架阿里云数据市场,很受客户欢迎。

企查查的数据分析挑战

企查查通过构建大数据平台,提供给用户在线查询、在线分析以及全方面的企业画像功能,从而让用户方便快捷的查询企业全方位多维度的信息。企查查在业务快速发展过程中面临以下挑战:

1.数据量爆发式增长。企查查最早成立的时候采用单机的架构,使用的是SQL  Server关系型数据库,当时的数据量大概在一两千万条数据,起初SQL Server能够满足计算及查询分析的需求。后来,随着业务的快速增长,企业数据已经达到九千万条,并且企业的相关数据已经达到将近十亿条的规模,在这个情况下,原来的关系型数据库已经无法满足需要,迫切需要大数据平台的支撑。

2.大并发量、大数据量查询的快速响应能力。“在早期的时候,当用户并发量达到每秒一千的时候,数据库就直接瘫痪掉了。”企查查创始人兼CTO陈德强回忆道。作为企业信息查询服务提供商,查询能力必然是企查查的核心服务能力,因此选用高性能大数据平台的迫在眉睫。

3.“找关系”,企业与人、企业与企业之间复杂的关系分析。“企查查拥有八千多万家企业数据,每家企业有大量的股东,高管,那么怎么样通过数据分析把他们之间的关系找出来,之前企查查通过关系型数据库去逐个逐个的搜索,逐个逐个的写代码,非常复杂而且响应非常慢。” 陈德强说道。

4.数据安全不可控。企查查之前采用自建的方式搭建大数据平台,数据安全存在以下问题:依然会遇到一些数据泄露或者数据问题;使用自己的服务器、自己的机房,也会遇到一些瓶颈,如突发事件怎么去处理,那个机房、那个服务器被攻击了,安全出现问题怎么解决等;遇到大规模并发攻击时素手无策,“我们之前也遇到过大规模并发攻击:在早期的时候,我们使用的服务器不多,但是并发量在瞬间就达到了原来的50倍,那时候我们服务器直接就瘫痪掉了,由于自己的服务器、机房没办法快速扩容,我们只有干巴巴的在那里等。”陈德强描述道。

5.弹性可扩展。面对偶发性的数据量及计算量激增的情况,自建方式很难快速低成本的进行按需购买及弹性扩容。

企查查的技术选型思考

之前,企查查使用自建机房的方式搭建大数据平台,在无锡自己的机房中购买了将近20台服务器,然后搭建了整套的Hadoop环境。当时,会遇到各种各样的问题,包括扩容和计算能力不足等问题。数据量大的情况下企查查对计算性能的要求较高,但是之前遇到的一个复杂模型的计算分析,需要大量的时间,这种情况下如果在自己机房里面进行扩容,需要自行购买机器,时间成本及费用非常之高,难以承受。之后,当企查查将这块功能移到数加平台上之后,直接通过数加平台的可扩容机制,通过弹性计算很快的就把原来需要将近一个星期的计算缩短到一个小时内完成,解决了原来线下没法完成的工作。因此,自建的机房已经是很难去满足企查查的业务弹性需求,而阿里云数加平台能够满足这块的需求。

另外,阿里云数加平台作为一站式的大数据平台,还帮助企查查解决了数据仓库的问题,企查查的数据分散在各个不同数据库里面,有MySQL、SQL Server、MongoDB等,通过数加的数据汇总,将各个平台的数据全部汇总到数加的数据中心里面,之后再通过数加的业务分析功能,将这些数据根据业务模型及业务需求进行离线计算,分析出结果存入到业务数据库中。数加平台还引入了各种算法,包括人工智能的算法、图形算法等,帮助企查查进行数据分析使用。这些功能如果是自行开发的方式,需要大量的人力投入,而通过数加平台能够很快的使用提供的接口,很快就能实现这些功能,包括企业画像功能,也是使用数加的接口实现的。


企查查的大数据平台架构

企查查基于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息,可通过SaaS服务或API的方式提供给用户使用。企查查的大数据平台架构如下:

  • 数据源:互联网爬取数据、第三方合作数据。部分数据更新任务为用户触发。
  • 数据抓取:通过网络爬虫爬取数据并进行初步的清洗并入库,
  • 数据存储与处理:数据入库后存放在MongoDB、RDS(MySQL)中,然后数据同步到数加平台大数据计算服务MaxCompute中进行离线计算和算法处理,处理结果再同步到RDS(MySQL)中。通过开放搜索(Open Search)连接到RDS(MySQL)提供查询搜索服务。
  • 数据使用:以API的方式提供数据服务。

收益

1. 阿里云数加平台的分布式计算框架,不仅仅能够存储海量数据,还具有分析挖掘的功能,解决了企查查之前普通关系型数据库没法解决的一些技术问题。阿里云数加支持超大规模计算及存储,最大可达EB级别,企查查可以从容应对数据量的爆发式增长。

2. 使用阿里云数加平台之后,通过MaxCompute进行离线计算,同时把计算结果推送到缓存数据库,目前最大可以支撑每秒钟五千次并发,用户使用企查查时,只要输入任意一个关键字,在0.01秒之内就可以返回结果,通过数加平台帮助企查查解决了查询性能的问题。

3.“众里寻他”不再是难题,通过阿里云数加平台,仅需0.01秒就可以从8000万家企业数据中计算出企业与企业之间,企业与人之间复杂的关系,数加平台帮助企查查解决了关系分析的问题。

4. 阿里云数加平台的企业级数据安全控制,让企查查“安枕无忧”。数加平台建立在安全性在业界领先的阿里云上,并集成了最新的阿里云大数据产品,这些大数据产品的性能和安全性在阿里巴巴集团内部已经得到多年的锤炼。数加平台采用了先进的“可用不可见”的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全、数据产品安全、底层数据安全、云平台安全、接入&网络安全、运维管理安全。“很多数据行业创业公司,他们觉得数据就是企业的资产,因此不愿意把数据放到阿里云上面,因为他们觉得放到阿里云上可能没那么保险,但是我觉得对于创业公司,自建机房和阿里云比起来,阿里云还是更安全。当遇到突发的安全问题,通过阿里云能很容易解决掉,因为阿里云有一整套安全体系。”陈德强说到,“迁移到阿里云之后,当遇到大并发量攻击后出现流量暴涨的时候,我们很快就通过扩容服务器把这个问题解决掉了,对于初创公司,为了应付未来的业务的快速增长,用云平台比自己服务器要更加的可靠,更加的有发展空间。”

5. 阿里云数加平台的弹性有力的支撑了企查查业务的灵活和敏捷性。数加平台最大程度减少了运维,即开即用,避免资源浪费,并且可以最经济的对大数据资源进行调整,灵活快速的响应市场和业务需求变化。

时间: 2024-10-31 17:10:25

企查查支撑8000万+企业数据的大数据平台技术选型与实现的相关文章

明朝万达:以大数据技术应对新形势下企业数据安全威胁

数据作为一种资源,它的普遍性.共享性.增值性.可处理性和多效用性,使其对人类具有特别重要的意义.但作为信息的重要载体,数据安全问题在其应用过程中又是每个用户必须面临的难题,尤其是对于企业用户来说,安全是成本,而且是无法产生效益的成本.伴随大数据技术的出现及广泛应用,其安全问题也成为各领域用户"谈虎色变"的敏感"神经",其实新技术的出现是为了更好的解决现有问题.十年来专注于企业级数据安全市场的明朝万达,研发出一套完整有效的基于大数据技术的企业数据安全解决方案. 网络安

数据说 | 大数据企业的汇总信息

名称 涉及领域 核心业务 投资机构 投资机构 投资机构 投资机构 金额(人民币) 轮次 美林数据 算法/分析/模型/可视化 数据分析,数据集成与管控,数据应用开发 未披露       新三板   惠辰资讯 算法/分析/模型/可视化 数据洞察,大数据技术,数字化时代的市场决策支持 未披露       新三板   有米 数据获取/存储/云处理等 产品推广和品牌营销 未披露       新三板 上市 寻英网 其他应用 大数据招聘平台,实现人才与企业职位的精准匹配 未披露       未披露   大贤科

东莞初创企业玩转大数据

移动互联网时代让创业潮风生水起,从全国来看,不仅涌现出大量的移动互联网企业,更诞生了无数个创业奇迹.对于聚焦移动互联网创业的项目来说,数据分析和数据挖掘是重要一环. 随着数据市场的崛起,创业变得更加热闹.有行业数据统计,每100份APP和O2O项目里,就有90份乃至以上的初创企业会重视大数据.那么大数据如何引导企业创业?从莞企的几个创业项目中或可窥见一斑. 案例1 穿衣数据??服装定制数据可向服务型制造转型 大数据创业,自然要先有数据,那么数据怎么来呢? 对于以制造业立市的东莞来说,传统制造业企

助力企业发展的大数据利器

只要做过大数据的都知道,市面上大家用的技术非常的多.用于基础部分的hadoop,hive,spark 等,编程语言有python,r,java,scala,sql 等.而涉及到真正的大数据处理,就需要hadoop集群和hive集群.而这些,让非常多的公司在面对大数据的时候,望而却步. 相信绝大部分公司在这些技术面前的表情是这样的. 是否有一种方式可以让公司快速完成大数据的存储而又不用关心数据的安全问题? 是否有一种方式可以让公司不需要建立一个高成本的运维团队? 是否有一种方式可以让公司不需要平衡

Teradata:企业如何应对大数据时代

本文讲的是Teradata:企业如何应对大数据时代,5月21日消息,Teradata天睿公司大中华区首席执行官辛儿伦日前接受新浪科技专访时表示,随着大数据时代的到来,企业应该在内部培养三种能力:第一,整合企业数据的能力;第二,探索数据背后价值和制定精确行动纲领的能力;第三,进行精确快速实时行动的能力. 数据快速增长 Teradata天睿公司是一家智能分析解决方案厂商,主要为企业和政府机构做数据整合,分析,探索.挖掘数据背后的价值,从而提高客户生产的竞争力.目前,Teradata天睿公司在大中华区

周涛:企业如何布局大数据?

周涛,博士,教授,电子科技大学互联网科学中心主任.<大数据时代>翻译者.于2005年获中国科学技术大学学士学位,2010年获瑞士弗里堡大学物理系哲学博士学位,主要研究方向为复杂性科学.网络科学.信息物理.人类动力学和群集动力学. 最近,电子科技大学教授,云基地大数据实验室合伙人周涛在接受采访时提出,对于普通企业要通过修炼成为大数据企业,关键要做好7个步骤: 第一步是要实现数据化.企业要为此做好计划,到底需要保存什么样的数据,以人为中心的数据还是以产品为中心,还是更关注企业运营,需要做好这样的计

并非所有企业都适用大数据

泡沫未裂,但大数据应用在国内已显雏形. 伊利乳业采用终端管理技术,聚合零售终端店面销售所带来的零散数据,让销售计划不再靠拍脑袋完成;山东省一批以"大数据"为标签的旅游网站,能够根据旅游者此前的购买行为,为不同的旅游者提供针对性的服务;国内高科技公司同方股份有限公司正计划为大数据研究成立一个专项部门-- 然而,笔者认为,不是所有企业都适用大数据.上不上大数据要从企业实际情况和具体需求出发,企业只有具备人才培养.资金投入.技术平台等全面保障才能获取数据价值. 首先,数据分析师的培养是最重要

6000多万企业已经加入电话号码认证平台

近日,一个骗子自称湖北襄樊市交警大队交警,电话蔡先生,以车辆被扣需缴纳罚款为名实施诈骗,骗得13000元.这不仅让蔡先生损失惨重,也严重损害了交警大队的声誉.360手机安全专家提醒,任何国家机关都不会通过电话方式催缴罚款.目前,全国越来越多的执法部门官方电话通过360实名认证,当360手机用户接到真正的执法机关来电时,均会显示其官方信息,由此可一眼辨别来电真伪,有效识别此类诈骗电话.据蔡先生介绍,他接到了一个号码为"1390769201X"的电话,电话那头的男子自称是湖北省襄樊市的交警

Gartner:企业用户加强大数据投资但质疑回报

北京时间11月15日消息,据国外媒体报道,美国市场研究公司Gartner近日发布的研究报告显示,虽然全球范围内各大企业用户都加强了对大数据(Big Data)业务的投资力度,但目前仍未能确定这些投资是否将给自己带来良好回报. Gartner称,全球各大企业此前在大数据业务领域的投资总额已达数十亿美元,这就充分说明,大数据已成为一项规模很大的业务.然而对于这些已经进行相应投资的企业而言,大部分仍未能确信这些投资是否将带来良好回报.其中一些企业甚至不知道"大数据"究竟意味着什么,原因是该名