《中国人工智能学会通讯》——12.44 分类型数据的定义

12.44 分类型数据的定义

设 X={x 1 , x 2 , …, x n } 表示 n 个对象组成的一个数据集,其中 x i =(x i1 , x i2 , …, x im ) 表示由 m 个属性A={a 1 , a 2 , …, a m } 描述的第 i 个对象、x ij (1 ≤ j ≤ m)表示对象 x i 在第 j 个属性上的取值。表示对象集 X 在第 j 个属性上的值域。对于任意的 s V j ,t V j ,如果 s和 t 之间有无穷多个其他取值,则称 V j为数值型数据 (numerical data)、a j 为数值型变量。如果V j 是由有限个符号、字母或数值(通常为整数)组成,则称 V j 为分类型数据 (categorical data) [2,16] , a j 为分类型变量。分类型数据包括名义型数据 (nominaldata) 和序数型数据 (ordinal data)。对于任意的s V j , t V j ,如果有 s = t 或 s ≠ t 两种关系,则称 a j为名义型变量。如果有 s < t、s = t 或 s > t 三种关系,则称 a j 为序数型变量。名义型变量和序数型变量统称为分类型变量。在一个数据集中,如果描述对象的每一个属性都是分类型变量,则称该数据集为分类型数据集、对象为分类型对象。

时间: 2024-09-17 04:14:53

《中国人工智能学会通讯》——12.44 分类型数据的定义的相关文章

《中国人工智能学会通讯》——1.15 聊天机器人的定义及发展现状

1.15 聊天机器人的定义及发展现状 聊天机器人,是一种通过自然语言模拟人类进行对话的程序.通常运行在特定的软件平台上,如 PC 平台或者移动终端设备平台,而类人的硬件机械体则不是必需的承载设备. 聊天机器人的研究源于图灵(Alan M. Turing)在1950 年<Mind>上发表的文章<Computing Machineryand Intelligence>,文章开篇提出了"机器能思考吗?"("Can machines think?")

《中国人工智能学会通讯》——6.2 知识图谱的定义和发展

6.2 知识图谱的定义和发展 知识图谱由谷歌公司于 2012 年提出,用于下一代智能化搜索引擎的构建.在知识图谱出现之 前, 语 义 网(semantic Web) [1] . 数 据 连 接(linked data) [2] 等相关研究和大量的知识库系统(YAGO [3-4] .FreeBase [5] .DBpedia [6] )已经通过实体和实体之间的关系来表示现实世界的知识.知识图谱在提出之时,主要侧重指从网页信息中抽取实体和实体之间的关系信息.实体通常表示人名.地名.时间.地点.结构等

《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

12.43 分类型数据聚类算法研究进展 在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] .在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] .比如,在问卷调查中,客户的兴趣爱好.家庭住址.教育情况都是分类型变量:在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件:在医学中,一个病人受伤的程度可分为轻微的.中度的和严重的:在市场营销中,经常将客户分为高.中.低

《中国人工智能学会通讯》——12.47 分类型数据聚类有效性

12.47 分类型数据聚类有效性 聚类结果的有效性评价是聚类分析中的一个重要组成部分.不同聚类算法或同一算法不同参数设置往往在聚类同一数据时会产生不同的结果.因此,人们需要聚类有效性函数去评价聚类结果,并从众多聚类结果中寻找最适合于数据的一种划分.对于分类型数据而言,k-modes 优化目标函数[31] .分类效用函数[32]和信息熵函数[12]是三个广泛使用的有效性评价函数.k-modes 优化目标函数是由 Huang在 1997 年提出,该目标函数是对 k-means 优化目标函数的扩展.通

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人