《中国人工智能学会通讯》——4.28 数据挖掘技术在电子数据取证中的应用

4.28 数据挖掘技术在电子数据取证中的应用

电子数据取证过程中会获得大量的证据数据,主要来源于三个方面,一是计算机主机系统方面的证据,主要包括来自硬盘、内存、外设中的数据;二是来自网络方面的证据,主要包括实时获取的网络通信数据流网络设备上产生的记录,以及网络安全设备上的日志和登录日志;三是来自其他数字设备的证据,如手机、手持电子设备。这些可疑数据的数据量非常庞大并且不断更新,面对这样庞大的、变化的数据,单纯依靠技术人员的经验去分析、去获取有用的证据是不现实的,需要借助工具从海量的数据中获取有用的证据,或者获取有用的信息来指导下一次的数据分析和检测。数据挖掘就是再合适不过的工具,它能从海量的数据中发现有价值信息。数据挖掘可以发现的模式类型很多,其中关联分析、分类分析是电子数据取证中常用到的方法,这些方法可以运用到电子数据取证系统中去帮助发现证据、发现违法犯罪证据的特征。

数据挖掘[8-12]是一种决策支持过程,主要基于人工智能 (AI)、机器学习、统计学等技术和方法,高度自动化地分析所获取的海量数据,并进行归纳性的推理,从中挖掘出潜在的模式,用以预测分析对象的行为趋势,以帮助决策者或管理者调整策略,做出正确的决策。该技术在违法犯罪行为分析领域中具有很好的应用价值。利用数据仓库和数据挖掘技术,首先解决数据的一致性等问题,建立数据仓库;然后通过所拟定的算法,对大量的违法犯罪行为记录进行分析,从中发现违法犯罪的规律、趋势,了解不同违法犯罪行为之间的关联情况,以及何种状态会导致或诱发何种违法犯罪行为等。因此,采用数据挖掘技术可以在海量数据中发现和特定的违法犯罪有关的数据,这些情况也都是公安、司法等相关领域所迫切需要掌握的,所以数据挖掘这类智能计算与分析技术在电子数据取证中的应用具有相当重要的现实意义。

在利用数据挖掘技术的电子数据取证系统中主要包括数据采集模块、预处理模块、入侵检测模块、数据分析模块、证据鉴定模块、证据保全和提交模块(见图 1)。
(1)数据采集模块:该模块完成数据收集功能,其一方面获取来自主机的信息,包括操作系统的审计日志、应用程序日志等;另一方面获取来自网络的数据,主要包括防火墙及入侵检测系统日志、其他网络工具产生的日志等。

(2)预处理模块:可以根据取证分析的需要,对不同来源的日志记录数据预处理,包括数据的清洗、归约、变换、集成等功能。考虑到日志文件大都是有结构信息的文件,所以本系统基于数据库进行数据挖掘,这样数据的预处理、关系模式的设计都显得比较关键。

(3)入侵检测模块:入侵检测是针对向计算和网络资源实施恶意行为的识别和响应过程,是一种主动的安全措施,一旦有非法入侵者进入系统,能根据事先定义的规则(知识库中提取或者专业人员根据经验编写)及时报警,并进行跟踪获取可疑数据,进行主动取证。

(4)数据分析模块:基于数据挖掘的数据分析模块对数据库中的数据进行分析,利用已有的分类规则、关联规则等提取出反映客观事实的、与案件相关的电子数据证据,同时利用相关算法发现新的规则(存入知识库)指导下一次的数据分析和入侵检测。该模块是整个系统的核心模块。

(5)证据鉴定模块:证据鉴定模块对所搜集来的电子数据证据进行CPU、存储设备、网络设备、集线器、交换机等硬件设备来源和软件来源鉴定,发现电子数据证据与违法犯罪事实之间的联系,从而更加有效地定位违法犯罪。

(6)证据保全和提交模块:证据保全和提交模块将数据分析、鉴定出来的证据使用数据加密、数字摘要或签名技术加密传送到证据库;最后将违法犯罪证据生成完整的报告,依法律程序提交法庭。

时间: 2024-09-18 12:21:15

《中国人工智能学会通讯》——4.28 数据挖掘技术在电子数据取证中的应用的相关文章

《中国人工智能学会通讯》——4.20 粒计算在智能信息服务中的应用

4.20 粒计算在智能信息服务中的应用 粒计算的理论与方法在智能信息服务中的应用可以归结为处理信息系统中的数值. 文本.图像.音视频等数据,解决其中的不确定性问题. 例如,在处理图像方面,Zadeh 提出了模糊信息粒理论研究的一般框架后,Pedrycz 等[22]对信息粒间的结合进行了深入的研究,并结合数字化图像可粒化的特点,基于图像的内容信息和空间信息进行粒化.Pal 等[23] 提出了基于粒计算思想和粗糙熵的图像分割方法,将图像分割成若干的图像粒,最小化粗糙度从而确定分割的阈值.随后,Cha

中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作

5 相关工作 数据修复旨在发现和修正数据库中错误的数据.在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1].这些方法大致可以分为如下三类. (1)传统的方法先依赖各种约束条件,包括FDs[5,7].CFDs[6].完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突):然后用文献[2-4]中的方法修正所有的错误数据,从而解决所有的冲突.对一般的文本数据库,这一类方法中的大部分工作都是使用FD/CFDs进行修复,因为FD/CFD

中国人工智能学会通讯——个性化推荐和资源分配在金融和经济中的应用 1.2 智能金融·个性化推荐

1.2 智能金融·个性化推荐 第一类是关于个性化推荐的情况.我们刚才已经看到过的,有理财产品或者是金融类新闻的每天推送的情况.我们知道,对于不同的用户来说,可能关注点是不一样的,甚至有时用户自己都不知道,自己的风险承受能力怎样,自己到底希望要一个怎样的预期年化收益率.但是我们依然希望通过观察用户的点击历史,慢慢地学到用户潜在的一些特性参数.这是一个(像刚才梦迪提到的)增强学习的过程,其中需要处理所谓的Exploration Exploitation Tradeoff:要在推荐一些确定知道适合该用

《中国人工智能学会通讯》——12.26 基于众包的数据提纯

12.26 基于众包的数据提纯 随着基于位置服务的蓬勃发展 , 随之出现了大量相关的空间文本数据.空间文本数据包括两方面信息,一个空间位置信息 , 通常与一个空间兴趣点相关,由一个经纬度坐标点表示数据所处的地理位置:一个文本信息,通常是由一组关键词构成的类似标签的文本描述.目前,这些关键词标签的生成方式主要通过人工添加与机器算法自动生成,由于来源广泛,这些生成的关键词质量参差不齐,很多质量难以保证.这些错误的数据在实际应用中将带给用户非常糟糕的体验,甚至误导用户,造成损失.比如当前很多基于位置的

《中国人工智能学会通讯》——11.20 多任务学习在交通分析中的应用

11.20 多任务学习在交通分析中的应用 本章对文中所提出的多任务学习方法在我国安徽和山西两省的真实高速公路交通场景中的应用进行介绍,涉及到的具体分析问题包括交通关联模式挖掘.交通流预测和交通异常监测与分析.图 3(a)为安徽省高速交通的出入口流量分配模式矩阵,其中数值较大的出入口流量集中于对角线附近,这说明安徽省高速公路网的出入口流量分配模式具有局部流量密集的特点,即短途的车流量较大.交通路网的出入口流量分配矩阵直接代表了车辆的出行模式[7] .图 3(b) 为两省高速公路交通流全网络下一时刻

《中国人工智能学会通讯》——4.27 电子数据取证理论与技术

4.27 电子数据取证理论与技术 电子数据取证的概念 电子数据取证是指恢复已被破坏的计算机数据及提供相关的电子数据证据.利用计算机软硬件技术,以符合法律规范的方式对计算机入侵.破坏.欺诈.攻击等违法犯罪行为进行证据获取.保存.分析和出示的过程. 电子数据取证理论与技术 电子数据取证技术是伴随着计算机技术.网络技术.信息安全技术发展而快速发展的一个新兴领域,近年来取得了许多重大成就,然而从电子数据取证理论和技术的实际运用中可以发现,当前的电子数据取证技术还存在着很大的局限性.未来电子数据取证面临着

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推