人机协作是如何自动化分类数据

.

导 读

人工智能的倡导者与以人为中心的方法的支持者之间的争论其实是一个错误的二分法。机器当然可以帮助人们解决面对的问题,但是它们很少能单独完成任务。为了更有效,机器必须向人类学习与人相关的知识。创建和实现准确的人工智能系统要求人的知识的输入。

这并不意味着我们不能从自动化和人工智能上得到应有的效率优势。人类的输入并不需要很多的时间及精力的投入就可以收集到。换句话说,让机器不通过直接询问人类问题,但进而回答与人类有关的问题是可能的。

比如,谷歌通过观察人们点击哪些页面来学习哪些网页是人们喜欢的。当将这些作为PageRank算法的输入的链接推荐时,这些在线信息的产生者不是有意与谷歌电脑交互,他们是与人类观众交流。谷歌只是简单地进行“偷听”,就像宝宝通过反复的听到许多成年进行的对话来学习她的语言。学习人们的自然模式和被动信号是计算机获取有用的知识的最有效的途径之一。

◆ ◆ ◆

智能“窃听”计算机的角色

在一个组织中,有大量的消息来源,可以让一个智能窃听计算机能够学习数据分析师如何与他们的数据库进行交互,以及它们应该怎么做:

查询日志

许多查询“对话”都会被存储在查询日志中。一个查询日志中的一条记录可能展示了用户Jdoe写了一个查询用来从一个客户表与一个事务表的连接中选取一些列,并通过时间进行过滤。这一事件暗示了Jdoe可能知道并且对那两个表感兴趣,以及那些表可以以此种方式进行连接。如果许多不同的用户针对这些表中的一个进行查询时,那表示那个表在组织中十分重要。这类信息对于一个需要加紧熟悉数据环境的新员工以及需要优先排序数据文档的处理是有用的。如果Jdoe针对事务表写了格外多的查询,那么这意味着她可能是这方面的专家。并且如果许多在事务表上执行的查询包含数据过滤器(并且如果所有不需要几百小时来运行的查询会经常被取消),这就是一个明显的信号,说明未来的查询应该包含这个过滤器。日志包含了丰富的知识,说明重要的是什么,对谁重要,谁是专家,以及数据应该怎样优化地被过滤、连接和使用。但前提是你知道如何阅读这些信号。

商业智能工具

另外一种人们与他们的数据进行对话的记录可以在商业智能工具中发现。如果我在Tableau的工作簿中制作了一个图表,其中y轴叫做“收入”,并且我使用事务表中的数量列的总和来计算该值,我就有效地提供了我对收入的定义。一个计算机能够将这个定义与其他标记为“收入”的轴进行对比,并且应用各种技术来评估这些定义在逻辑上是否等价。

数据血缘继承

在没有许多人类输入的情况下,计算机可以绘制出一个组织中所有数据资产的来源和出处图,从基本表到产生的报告,以及之间的ETL脚本和SQL创建语句。那个图可以用来放大人类的效用。例如,由于腐败变质是顺流而下的,一个重要的来源表报告的数据质量问题能够成为一个数据质量告警向下传播到上千个表和报告指标上。

自然语言语料库

难以理解的字段名能够代表数据分析部门面临的一个主要挑战。例如Cmply_bin中的bin代表的是什么?inis_bin 或者 bin_nbr里又是什么意思?通过在内部维基或者商业智能工具中扫描已完成的文档,计算机可以构建一个语言模型,包含可能的候选项:“bin”在A/B测试中是桶的同义词,或者也可以是单词“binary”的缩写,也可以是“Buy it Now”的首字母缩写。在学习“成人”(与婴儿的比喻对应)的语法之后,计算机可以生成一个消歧引擎,基于词的排列搭配和上下文线索。拼写规则和自然语言处理技术都可以对已有的组织文档中存在的语料库进行处理。

数据的值

数据的值本身也可以提供丰富的信号。某些文档中的九位字符串看上去可能是社保号码,特别是那些名字为soc_sec_num, ssn或者scl_scrty_nbr的字段。通过上面所述的数据的传承和连接,这些值可以追溯到其他有不太明显的标签的字段。因此,放置在其中一个包含敏感信息的字段上的标志可以传播到其余部分,提高了整个数据集的安全性。

◆ ◆ ◆

有知识的人类训练师的角色

对于所有的文档来说,从一个可能敏感的信息的分类到一个字段名的英语翻译,再到一个计算(如求和)或一个度量指标(如收入)的映射,计算机可以提供具有相当置信度的猜测,之后具有相关知识的人可以进行确认。这种确认不仅仅是另一个人对其进行标注从而增加可信度,更是在教计算机,使得它对自己未来的猜测更为自信。

许多现代的数据驱动的组织都在积极地生成数据目录,这是一种综合性的存储,包括一个组织中的所有的数据资产,它们的质量和来源,以及它们应该如何使用。只通过人力来试图建立这种工件在有限的资源下是很难完成的。而完全自动化的项目(例如让计算机自行抓取数据,不需要人为输入)通常会带来不准确和可信度不高的结果。

◆ ◆ ◆

结  论

人类在查询日志、BI工具、维基、谱系、数据值这些场景里,以及它们之间的各种连接时留下了大量的隐藏信号。通过从中提炼出知识,计算机可以学习一个数据环境,它是如何工作的,以及它过去是如何工作和应该如何工作等等重要信息,并由此自动化地填充一个数据目录分类。通过具有相关知识的人的显式反馈,计算机可以提高数据目录分类的广度和精度。

计算机猜测,专家确认,而后计算机再学习,更好的猜测,人类受益。当人与计算机进行协作,我们人类的需要花费的力气可以被最小化,而我们得到的收益被最大化。这在人和计算机的世界都是最好不过的结果。

原文发布时间为:2016-08-29

时间: 2024-11-01 02:40:06

人机协作是如何自动化分类数据的相关文章

胜负之外,演绎人机协作的前世今生

5月23日,人机大战第一局在浙江桐乡打响,经过猜先柯洁执黑先行.第一局比赛结束,围棋人工智能阿尔法狗执白1/4子战胜目前等级分排名世界第一的中国棋手柯洁. 对于人类最强棋手的失败大家似乎并没有感到十分意外,不仅如此,甚至连围棋界权威专家也分析:柯洁应该是没有机会战胜的,赢一盘的机会都非常渺茫.比赛还在持续进行,但胜负已经无关紧要!很多人都将此次大战看成人工智能围剿人类智力的终极一战,看起来两者必须要分出高低才肯善罢甘休.但是,在易往信息看来,大可不必如此偏执于一城一池之得失,因为与人机对战相对应

测试运行:将数值数据转换为分类数据

机器 学习领域的基本任务是将数值数据转换为分类数据.例如,如果您拥有一个人员身高(以英 寸为单位)的数据集,如 59.5.64.0 和 75.5,则可能希望将此数值数据转换为分类数据( 例如 0.1 和 2)来表示矮.中等.高.此过程有时俗称"数据装箱".在机器学习文献资 料中,此过程通常被称为"连续数据的离散化". 在以下几种情况下,您可能需要将 数据离散化.许多机器学习算法(如 Naive Bayes 分类和预测)仅适用于分类数据.因此, 如果您的原始数据是数值

百度NLP | 智能写作机器人:不抢人类饭碗,我们只想人机协作

2016 年,百度全面发力内容生态领域,借助人工智能 (AI).自然语言处理 (NLP).深度学习 (Deep Learning) 等技术和百万级别的用户标签,推出个性化信息资讯流,与此同时,百度战略级产品「百家号」2017 年预计将向内容生产者分成 100 亿,以此鼓励个人和机构入驻参与内容创作. 而在众多内容生产者之中,一位特殊的「作者」显得格外引人瞩目--那就是在去年上线的百度智能写作机器人(Writing-bots).据了解,目前百度智能写作文章可涵盖社会.财经.娱乐等 15 个大类,并

Delphi中根据分类数据生成树形结构的最优方法

一. 引言: TreeView控件适合于表示具有多层次关系的数据.它以简洁的界面,表现形式清晰.形象,操作简单而深受用户喜爱.而且用它可以实现ListView.ListBox所无法实现的很多功能,因而受到广大程序员的青睐. 树形结构在Windows环境中被普遍应用,但在数据库开发中面对层次多.结构复杂的数据,如何快速构造树形目录并实现导航呢? 二. 实现关键技术: 在Delphi提供的控件中包含了TreeView控件,但树的具体形成还需要用户编写代码.即它的列表项要在程序中动态添加,而这些列表数

sql查询两级分类下数据

问题描述 sql查询两级分类下数据 sql 怎么用select查询两级分类下的所有的数据...... 解决方案 有key对应吗,如果有可以用join去连接查询 解决方案二: SQL 查询某属性分类数据和SQL distinct 分类查询----------------------

企业级软件协作,没有数据怎么人工智能?

编者按:本文作者Lucas Wang,HWTrek智造协作平台CEO,HWTrek.com提供的在线管理和团队协作工具简化硬件开发过程,并帮助硬件开发者在线对接物联网产业专家和供应链企业. 近期几家企业软件大厂商做了几个有意思的布局,微软262亿美金收购了以商业人士为主的社区领英Linkedin,Salesforce.com 5.82亿美金买了线上办公文件协作初创公司Quip.Salesforce.com的收购很多人可能解读为客户服务的延伸或并购人才,而微软收购Linkedin则有许多不同的臆测

大数据的价值!EMC推协作+社交创新产品

大数据如今成为业内一个趋势,EMC作为领先的推动者,中国研发集团一直致力于大数据方面的研发.从2010年EMC收购了Greenplum,Greenplum在美国第一个全球研发团队就在卓越研发集团北京中心正式启动,可以说整个卓越研发集团大数据相关的技术研究.产品研发.测试以及市场推广中拥有强劲的技术实力. 提及大数据方面的研究成果,EMC在4月18日宣布推出的Chorus产品,从市场需求的收集,到产品的基础研究和后期的测试.开发,以及到中国和全球的市场推广,都体现出中国团队努力的结果,同时也是大数

下一代数据中心的自动化和业务流程的五个关键层

如果人们分析一下现代数据中心和云计算的现状,就会发现通过动态传递的资源,增加了很多互联互通和新功能.有些解决方案甚至允许交叉连接的数据更加容易流动.有趣的是,这里的所有这些技术都将影响最终用户和公司,将通过数据中心自动化直接推动现代数据中心的演进.云计算.大数据和IT消费化已经改变了以数据中心为中心枢纽的一切. 如今,驻留在数据中心的整个组织产生了一个云模型.展望未来,新的云数据中心控制系统将会变得更加关键.随着越来越多的用户直接使用云资源的内容,数据中心将要能够处理大量涌入的新需求.这意味着通

大数据的那些事儿

资源列表:   关系数据库管理系统(RDBMS)   框架   分布式编程   分布式文件系统   文件数据模型   Key -Map 数据模型   键-值数据模型   图形数据模型   NewSQL数据库   列式数据库   时间序列数据库   类SQL处理   数据摄取   服务编程   调度   机器学习   基准测试   安全性   系统部署   应用程序   搜索引擎与框架   MySQL的分支和演化   PostgreSQL的分支和演化   Memcached的分支和演化   嵌入式