使用InfoSphere Optim Data Masking Solution处理CSV、XML和ECM格式的数据

简介

InfoSphere Optim Data Masking Solution 提供了一种屏蔽数据源中使用的个人信息的方式 。它为您提供一种为测试用途而使用逼真但虚构的数据的方法。在以前的 InfoSphere Optim 版本中,您可以 将提取的数据 (.XF) 转换或屏蔽到另一个数据集中,或者将它们提取到一个业务对象 (CSV) 文件中。业务对 象 (CSV) 文件格式使所有表数据均可存储为 CSV 文件中的一条记录。从 Optim 8.1 及其更高版本开始,您 不仅能将提取的数据转换为 CSV、XML 或企业内容管理 (ECM) 数据格式,还可以在将数据转换为这些格式时 屏蔽这些数据。这项新功能对考虑使用 CSV 或 XML 作为满足其各种需求的数据源(包括通过他们当前的应用 程序直接访问这些数据源)的用户很有用。

这些数据格式(CSV、XML 和 ECM)具有多个可轻松配置的参数 。在以下各节中,您将进一步学习如何配置这些参数。

下面的场景演示了如何使用这项新的屏蔽功能 。

场景

在我们的示例场景中,“ABC” 公司希望将数据发送给另一家公司 “XYZ”。公司 ABC 有一个 Optim 环境,但公司 XYZ 没有。在这样的场景中,公司 ABC 无法以提取/归档文件的形式发送数据, 因为公司 XYZ 没有同样的环境。要解决此问题,公司 ABC 可以使用数据库加载实用程序,将提取或归档文件 中存储的数据转换为 CSV、XML 或 ECM 格式。然后可以将这些数据导入 XYZ 的数据库中。此外,使用这些格 式,可以屏蔽数据,从而满足数据隐私需求和保护数据。

业务对象 (CSV) 文件与 CSV 文件格式之间 的区别

在将源文件转换为一个业务对象 (CSV) 文件之后,就可以在文本编辑器中打开它,所有已选中的列以单个 表和单个文件的形式列出,在使用逗号分隔值 (CSV) 格式时,源文件中的每个表都被转换为一个单独的 CSV 文件。

在使用业务对象 (CSV) 文件格式时,无法屏蔽源文件,但可以屏蔽 CSV 源文件。

在业务对象 (CSV) 文件格式下,无法选择使用阈值限制(比如文件大小、文件数量 和 行数)来控制目标 文件数据,而在 CSV 文件格式下,可以使用这些阈值限制来控制目标文件数据。

在使用业务对象 (CSV) 文件格式时,无法选择使用元数据选项(比如开始/结束标签和头部/字段/字符串 分隔符)来控制目标文件数据,当源数据中存在 XML/LOB 数据类型时,也无法选择为这些类型创建单独的目 标文件。在 CSV 文件格式下,可以使用元数据选项(比如开始/结束标签和头部/字段/字符串分隔符)来创建 目标文件,也可以在源数据中存在 XML/LOB 数据类型时为这些类型创建单独的目标文件。

业务对象 (XML) 与 XML 文件格式之间的区别

在业务对象 (XML) 文件格式下,源文件被转换为一 个 XML 文件,后者能够以 XML 格式打开,所有已选中的列以单个表和单个文件的形式列出。在 XML 文件格 式下,源文件中的每个表都可以转换为单独的 XML 文件。

在业务对象 (XML) 文件格式下,无法屏蔽 源文件,而在 XML 文件格式下,可以屏蔽转换为 XML 文件的源文件。

在业务对象 (XML) 文件格式下 ,无法选择使用阈值限制(比如文件大小、文件数量 和 行数)来控制目标文件数据,而在 XML 文件格式下 ,可以使用这些阈值限制来控制目标文件数据。

在业务对象 (XML) 文件格式下,如果源数据中存在 XML/LOB 数据类型,则无法选择为这些类型创建独立的目标文件来控制目标文件数据,而在 XML 文件格式下 ,如果源数据中存在 XML/LOB 数据类型,则无法选择为这些类型创建独立的目标文件。

理解 ECM 文 件格式

企业内容管理 (ECM) 在转换数据时仅支持将归档文件当作一个文件,而 CSV 文件格式在转换 数据时同时支持将归档文件和提取文件当作源文件。ECM 支持类似于 CSV 文件格式的外部功能,但添加了以 下归档文件元数据值:

归档文件名称

归档文件 GUID

归档请求描述

创建时间

ECM 格式 具有以下功能:

在 ECM 格式下,源文件中的每个表都可以转换为单独的 ECM 文件。

ECM 文件格式 支持数据屏蔽。

在 ECM 格式下,用户可以选择使用阈值限制(比如文件大小、文件数量 和 行数)来控制 目标文件数据。

在 ECM 文件格式下,您可以选择使用元数据选项(比如开始/结束标签 和头部/字段/字符 串分隔符、归档文件名称、归档文件 GUID、归档请求描述 和创建时间)来创建目标文件,当源文件中存在 XML/LOB 数据类型时,也可以为这些类型创建单独的目标文件。

时间: 2024-12-31 19:44:53

使用InfoSphere Optim Data Masking Solution处理CSV、XML和ECM格式的数据的相关文章

数据转换为XML、CSV或ECM格式类型如何应用各种阈值限制

InfoSphere Optim Data Masking Solution 提供了一种屏蔽数据源中使用的个人信息的方式.它为您提供一种为测试用途而使用逼真但虚构的数据的方法.在以前的 InfoSphere Optim 版本中,您可以将提取的数据 (.XF) 转换或屏蔽到另一个数据集中,或者将它们提取到一个业务对象 (CSV) 文件中.业务对象 (CSV) 文件格式使所有表数据均可存储为 CSV 文件中的一条记录.从 Optim 8.1 及其更高版本开始,您不仅能将提取的数据转换为 CSV.XM

Optim Test Data Management Solution的InfoSphere DataStage作业验证步骤

简介:验证 DataStage 作业的需求 如今,企业正在实施以信息为中心的项目来转型其业务,并实 现成本节省.许多数据集成或信息集成应用程序或流程都包含 ETL 并作为其中一个组件. 通常,一个 ETL 流程(工作单元)旨在完成以下工作: 提取:从源系统提取数据并进行整理. 转换:将数据转换为可在下一步中使用的所需格式.通常,这将涉及到应用核心业务逻辑来将数据转换为 信息. 加载:通常,将数据加载到数据库表/仓库中,以供报告引擎用于从转换的数据中获取洞察. 一个数据集成应用程序中的作业会经历两

实现InfoSphere Master Data Management行为扩展

基于事件操作主数据实现业务价值 开始之前 本教程针对 InfoSphere Master Data Management Server.当您实现这个全面的 MDM 解决方案时,您的某些业务需求可能要求修改开箱即用的 MDM 业务服务的默认行为.MDM 业务服务用于维护主数据,比如客户.产品.帐户.合同或位置.本教程演示如何使用 InfoSphere Master Data Management Server 为可用的 MDM 业务服务实现行为扩展. 目标 本教程的目标为: 理解如何扩展 Info

基于IBM InfoSphere DataStage和IBM InfoSphere Change Data Capture集成的解决方案

传统上,通过在非操作时间段内使用一个 ETL 流程批量处理,每年.每月或每周对http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库更新一次.在今天的业务环境中,一线业务用户需要根据每小时.每分钟甚至每秒更新的信息制定决策.这些实时数据需求使得批处理窗口萎缩,并需要一个高效的解决方案来解决这个问题. IBM InfoSphere DataStage 和 IBM InfoSphere Change Data Capture 的集成是通过

使用InfoSphere Optim Query Workload Tuner从不同来源捕获SQL工作负载

在第 3 部分中,将会介绍调优 SQL http://www.aliyun.com/zixun/aggregation/13999.html">工作负载的方法.本文将了解如何使用 InfoSphere® Optim Query Workload Tuner 从不同来源捕获 SQL 工作负载.收集统计数据和索引分析.比较访问计划,并执行计划锁定和​​计划管理.本文的目标是确保 IBM® DB2® 优化器获得它所需要的信息,从而制定出基于最佳性能的 DB2 查询决策,本文还提供了一些建议,以帮

做Data Mining,其实大部分时间都花在清洗数据

前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理.往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗.可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑.  大数据圈里的一位扫地僧 说明:这篇文章很早就想写了,但是切入点一直拿捏不准,要讲的内容比较大众化,却又是重中之重. 一.数据清洗的那些事 构建业务模型,在确定特征向量以后,都需要准备特征数据在线下进行训练.验证和测试.同样,部署发布离线场景模型,也需要每天定时跑P加工模型

c#如何将从CSV导入到DGV中的数据保存到access

问题描述 c#如何将从CSV导入到DGV中的数据保存到access 我希望在导入完成的时候就能将数据保存 然后操作过程中对DGV的改动也会将改动后的DGV数据存在access中同一张表里 新手 还在学习中 求大神解惑 希望能有相关链 接 解决方案 到底是access还是sql server 解决方案二: 首先,你的数据必须有一个可以作为唯一标识的字段,这是你在更改数据后,可以直接操作数据库,而不是需要重新全部写一次的基础. 至于怎么操作access,用sql,添加用insert,删除用delet

将自己网站的商品信息导出为CSV格式的数据包,通过淘宝助理5上传至淘宝店铺

问题描述 在导出CSV格式的数据时,其他的列都好办,唯一麻烦的就是"新图片"这一列,不知道如何将本地图片或者是自己网站上的商品图片填写到这一列! 解决方案 解决方案二:你这个新图片列是二进制数据?

Talking Data副总裁高铎:我们如何赋予大数据生命力

钛媒体注:一个大数据平台平台如何帮助企业发现大数据的魅力和价值?以下内容根据Talking Data副总裁 高铎在2016MIIC上的演讲整理: 当我们在谈论大数据的时候,我们究竟在谈论什么? 我们谈论的不是去追逐一时的趋势和热潮,也不是空有其表却没有发挥任何实际作用和价值的光鲜与流行,在互联网大潮如火如荼地席卷整个行业的时候,很难有传统企业还能保持平稳健康的心态不去一窝蜂地献身到大数据的迷思之中. 但是,实际发生的一切告诉我们,在大多数传统企业乃至互联网企业手上,大数据仅仅是盲目堆砌数据,仅仅