知识图谱在风控的应用简述

本文讲的是知识图谱在风控的应用简述,从校内到人人,微信到陌陌,我们早已熟悉各式各样“你可能认识的人”,”六度空间”理论早已深入人心。社交软件通过不同人的社会特征将大家关联到一起形成一个庞大的社交网络。同样,在电商的客户里我们有上亿各种类型的用户,我们是否可以分析出他们之间的关系?这些用户里有好人也有黑产,我们是否能从这些关系里推断出谁可能是正常用户,谁可能是黑产,从而将这些数据应用到风控中,从而识别潜在的风险交易?我们尝试将“六度空间”映射到风控领域,构建一个用户知识图谱。

2012年以前的语义web中描述一个人可以是“23岁”,”男”,”江苏人”,“三多”“许三”,这些描述都映射到“许三”,许三被称作“本体(ontology)”。“许三-性别-男”这样的“资源-属性-值”的描述方式称之为RDF(资源描述框架)。当我们构建无限多个像许三这样的本体之后就形成了一个本体的集合,就可以研究“属性-本体”,“本体-本体”之间的关系,他们可以兄弟也可以是父子,甚至可以判断外号三多和许三是同义,代表同一个人,这样就形成了一个人与人之间的关系网络。

2012年,google推出了知识图谱,知识图谱的本质还是语义web,将本体从学术引入到应用。知识图谱构建了一个基于图的数据结构,将现实世界的实体(学术本体)关系通过点和边来描述,实现了一种更有效的展示本体之间关系的网络,也给我们提供了一个通过关系去分析问题的方式。简单来说,知识图谱就是把所有数据信息通过关系连接在一起形成的一个关系网络。

在风控领域里,我们尝试用知识图谱去描述两个人张三和李四,当张三和李四曾经都使用同一个收货手机,那么我们可以通过手机来为两个人建立一个关系,如下图:

在风控领域我们描述一个用户有以下常用属性:用户id,注册手机,注册时间,注册ip,登录ip,登录时间,收货手机,收货地址,设备指纹,实名信息,银行卡,支付信息,行为信息等。

概括出来,知识图谱在风控领域的应用主要分为以下几个部分:

1.      关联识别
2.      聚类识别
3.      推导识别
4.      异构识别
5.      碰撞检测
6.      同义识别

简单举例,实际情况比示例要复杂的多。

1.关联识别

1)关系识别

匿名用户与登录用户

匿名用户A与登录用户B拥有相同的设备指纹,客户端信息等,可以初步推断匿名用户A与登录用户B是同一人,若A有风险行为,则B的操作不可靠。

2)行为识别

撞库行为识别

用户账号A,B,C……等账号在同一个时间段内在同一个设备上有尝试登录的行为,可以推断此时存在撞库风险,对此时登录成功的账号应发起改密提醒。

2.聚类识别

由于资源的有限,黑产总会最大程度利用资源,在很多不同的注册,登录,下单的场景中,看似独立的每个用户可能因为共享有相同的手机号码,登录ip,下单ip等信息而形成一个聚合集体,这个集体很容易从知识图谱中识别出来。

在应对刷单的场景中,黑产为了能够收到刷到的商品会将收货地址选定在某个固定的区域内便于降低收货成本,通过对收货地址的区县聚类,可以形成一个以地理位置为维度的知识图谱,通过对图的规模识别来反映刷单风险。

3.推导识别

用户账号A与B拥有相同的手机号,用户账号B与C拥有相同的收货地址,则可以推导A与C是存在关系的。如果在某个营销活动里,用户A推荐了B,B推荐了C,C推荐了D,如果判定A为黑产则可以推导这个图的节点上所有用户都疑似为黑产。

金融风控领域,在贷后催收过程中如果被催收人A失联,可以通过知识图谱找到与A关系相近的其他人,进行追踪。

4.异构识别

在一个时间段内用户A的知识图谱的关系结构有较大的变化,有关系的断开也有关系的变更,就要关注这部分用户的信息变化,识别潜在的风险。

5.碰撞检测

同一个时间,订单1收货手机A对应的收货人姓名为许XX,订单2收货手机也为A但是收货人姓名为李XX,则A的手机归属人存在冲突,存在潜在的风险。

在金融领域,用户填写个人信息,公司信息的时候,可能存在虚假信息,比如A填写的公司为G1,地址为“上海市闸北区”,公司电话为“021XXXX”,用户B填写的公司也为G1,地址却为“上海市闵行区”,公司电话为“021YYYY”,此时同一个公司有有两个地址和电话,可以判断为信息冲突,需要核实两个地址是否为同一公司。

6.同义检测

在用户填写信息中如已确定“唯品会”与“四行天地”为已知正确关系,如其他用户填写“唯品会(中国)”与“四行天地”,通过相似度匹配可以认为“唯品会”与“唯品会(中国)”为同义词。之前我们提到,在RDF中可以构建一个同义词的关系,用知识图谱建立该关系,可以在碰撞检测中去除掉一部分同义词产生的碰撞,使结果更加的准确。

了解了应用场景,下一步就是将理论上升到实践中啦。

原文发布时间为:2017年4月25日

本文来自合作伙伴嘶吼,了解相关信息可以关注嘶吼网站。

原文链接

时间: 2025-01-21 07:29:10

知识图谱在风控的应用简述的相关文章

王昊奋:大规模知识图谱技术

[大数据100分]王昊奋:大规模知识图谱技术 主讲嘉宾:王昊奋 主持人:阮彤 承办:中关村大数据产业联盟 嘉宾简介: 王昊奋,华东理工大学讲师,上海交通大学计算机应用专业博士,对语义搜索.图数据库以及Web挖掘与信息抽取有浓厚的兴趣.在博士就读期间发表了30余篇国际顶级会议和期刊论文,长期在WWW.ISWC等顶级会议担任程序委员会委员.作为Apex数据与知识管理实验室语义组负责人,他主持并参与了多项相关项目的研发,长期与IBM.百度等知名IT企业进行合作,在知识图谱相关的研究领域积累了丰富的经验

互联网金融,如何用知识图谱识别欺诈行为

导读 知识图谱 (Knowledge Graph) 是当前的研究热点.自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮.各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应.比如在国内,互联网巨头百度和搜狗分别推出"知心"和"知立方"来改进其搜索质量.那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢? 目录 1. 什么是知识图谱? 2. 知识图谱的表示

深度|普惠大数据中心首席数据科学家李文哲:知识图谱的应用

导读:知识图谱 (KnowledgeGraph) 是当前的研究热点.自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮.各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应.比如在国内,互联网巨头百度和搜狗分别推出"知心"和"知立方"来改进其搜索质量.那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融,知识图谱可以有哪方面的应用呢? 目录: 1. 什么是知识图谱? 2. 知识图谱的表示 3

中国人工智能学会通讯——面向知识图谱的自然语言问答系统 1 信息检索式的知识库问答

1 信息检索式的知识库问答 信息检索式的方法通常先确定问题的中心实体,继而生成问题的若干候选答案,再使用打分.排序等方式找出最适合原问题的答案.这类方法的整体框架比较简洁,对于简单问题有较好的效果. 1.1 确定中心实体 信息检索式的方法通常假设问题足够简单,大多数系统认为问题中有且仅有一个实体,这个实体被称作中心实体(Topic Entity),这是用户输入自然语言问题的核心,同时假设问题答案在知识图谱中离中心实体足够近,例如在离中心实体θ步以内(θ通常取2).例如问题"What is the

百度疑似推出“知识图谱”功能 搜索结果百科全书化

    近日有网友爆料,在百度搜索某些人物的关键词时,会出现该人物相关的资料,搜索结果以"百科全书"式的方式显示.比如搜索"周鸿祎"时,会在搜索的结果中呈现"周鸿祎"的简介.百度百科词条.新浪微博地址.相关新闻以及人物图片(如上图).如果搜索演艺人员的话,会出现其相关作品,如搜索"周杰伦"时,会直接给出"周杰伦"的音乐.电影作品.不过并不是适用于每一个人物搜索,经测试,李彦宏.张朝阳.丁磊等的搜索结果还是传

搜索引擎和知识图谱那些事 (上).基础篇

        这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理.发展经历和应用等知识.希望文章对你有所帮助~如果有错误或不足之处,还请海涵.(参考资料见后) 一. 搜索引擎 (一).搜索引擎的四个时代         根据张俊林大神的<这就是搜索引擎>这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代:         1.史前时代:分类目录的一代         这个时代成为"导航时代",Yahoo和国内hao123是这个时代的代表.通过人工搜集整

《中国人工智能学会通讯》——7.21 什么是知识图谱

7.21 什么是知识图谱 "知识图谱"(Knowledge Graph)是最近几年才出现的一个相对新的概念,用来指代大规模的,用来储存人类知识的数据集.知识图谱的创建可以依靠人工或者是半自动方法,例如 Freebase.YAGO 和 DBPedia:也可以是完全自动的,例如OpenIE [1] 和 NELL [2] .为了方便计算机使用,知识图谱通常被存储成半结构化图的形式.图 1 展示了在 Freebase 中的一个子图.图中,每个结点代表一个实体(Entity):边则将实体与它的的

机器学习知识图谱

引言:人类的未来就是失控,就是人与机器共生.共存.机器越来越人性化, 人越来越机器化.<失控>这本书,主要就体现了这一思想. 本文选自<全栈数据之门>一书. 琅琊榜首,江左梅郎,得之可得数据科学之天下. 电视剧<琅琊榜>是一部良心好剧,精心制作的剧情,外加画面精美和台词的古典韵味,说其是一部男人的宫斗剧也不假,但更是一部数据分析的作品.其中,最让人感到神奇的是琅琊阁中神奇的情报分析中心,简直就是 一整套完整的数据分析流程,采集江湖与朝廷上重要人物.事件的信息,放到一个大

阿里知识图谱首次曝光:每天千万级拦截量,亿级别全量智能审核

借助阿里知识图谱的建设,阿里电商平台管控从过去的"巡检"模式升级为发布端实时逐一检查.在海量的商品发布量的挑战下,最大可能地借助大数据.人工智能阻止坏人.问题商品进入阿里生态.同时面临问题商家实时的对弈.变异和恶意攻击等诸多挑战,知识图谱仍然保持着每天千万级别的拦截量,亿级别的全量智能审核次数,在滥发.侵权.合规.假货.经营范围等多个场景全面与问题卖家正面交锋,实时对弈.为了最大限度地保护知识产权,保护消费者权益,我们对知识图谱推理引擎技术提出了智能化.自学习.毫秒级响应.可解释等更高