《BI那点儿事》数据流转换——字词查找转换

原文:《BI那点儿事》数据流转换——字词查找转换

字词查找转换将从转换输入列的文本中提取的字词与引用表中的字词进行匹配,然后计算出查找表中的字词在输入数据集中出现的次数,并将计数与引用表中的此字词一并写入转换输出的列中。此转换对于创建基于输入文本并带有词频统计信息的自定义词列表很有用。

本章功能:取出一个表中某字段的数据,并取出另一个表中的关键词,判断关键词在源记录中出现的次数。
创建模拟数据:

--用于查找的表
CREATE TABLE [CustFeedback]
    (
      [Srlno] INT IDENTITY(1, 1) ,
      [UserID] INT ,
      [Feedback] NVARCHAR(100)
    )
GO
--关键词表
CREATE TABLE [SearchKey]
    (
      [Srlno] INT IDENTITY(1, 1) ,
      [Keyword] NVARCHAR(100)
    )
GO  

INSERT  INTO [CustFeedback]
        ( [UserID], [Feedback] )
VALUES  ( 100, 'Heard Touch screen' ),
        ( 101, 'Smooth slicing' ),
        ( 102, 'Getting problem in installing new application' ),
        ( 103, 'Application get hangs duringcall' ),
        ( 104, 'Touch screen not working properly' ),
        ( 105, 'No long battery backup' ),
        ( 106, 'Phone get hang while playing games' ),
        ( 107, 'Screen size is too small' ),
        ( 108, 'Qualty of screen guard is bad' ),
        ( 109, 'Bilt-in memory is too small' ),
        ( 110, 'rescreen' ),
        ( 111, 'Screen and Screen' )
GO  

INSERT  INTO [SearchKey]
        ( [Keyword] )
VALUES  ( 'screen' ),
        ( 'Touch screen not working properly' )
GO  

SELECT  *
FROM    CustFeedback
SELECT  *
FROM    SearchKey
SELECT  *

创建一个【数据流任务】,双击编辑。首先,创建一个数据流源【OLE DB 源】
编辑【OLE DB 源】,连接用于查找的表。

添加【数据转换】组件。字词查找转换只能使用数据类型为 DT_WSTR 或 DT_NTEXT 的列。如果列包含文本,但不具有这两种数据类型之一,则数据转换可以将数据类型为 DT_WSTR 或 DT_NTEXT 的列添加到数据流,并将列值复制到新列。然后,数据转换的输出就可以用作字词查找转换的输入。
编辑组件。将被用于查找的列 Feedback 转变数据类型为 Unicode 文本流[DT_NTEXT],输出名字改为Converted_Feedback。

添加【字词查找】组件到数据流:

编辑组件,只能以 OEL DB 方式连接数据库。连接数据库,引用关键词表:

点击选项 字词查找,设置查找引用,将可输入列Converted_Feedback】关联到可引用列【Keyword】。
并且勾选UserID和Converted_Feedback作为输出。

高级选项还可以设置是否区分大小写查找。关键词会忽略首字母为大写的。

添加,目标组件【OLE DB 目标】:
编辑组件,连接到任意数据库,新建一个表:

erms : 在输入列中找到的关键词
Frequency :每行出现关键词的次数
UserID : 表CustFeedback 的UserID列
Converted_Feedback :被查找的列

时间: 2024-09-22 01:44:39

《BI那点儿事》数据流转换——字词查找转换的相关文章

《BI那点儿事—数据的艺术》目录索引

原文:<BI那点儿事-数据的艺术>目录索引 原创·<BI那点儿事-数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创作的一部原创作品,为了本教程及早与广大读者同仁

《BI那点儿事》数据流转换——查找转换

原文:<BI那点儿事>数据流转换--查找转换 查找转换通过联接输入列中的数据和引用数据集中的列来执行查找.是完全匹配查找.在源表中查找与字表能关联的所有源表记录.准备数据.源表 T_QualMoisture_Middle_Detail字典表 T_DIC_QualProcess数据流任务设计图: 设计步骤:

《BI那点儿事》数据流转换——模糊查找转换

原文:<BI那点儿事>数据流转换--模糊查找转换 BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据.假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据.这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找.这种策略需要花费大量的时间和精力来设计算法,测试,维护,并且它们都是基于词汇的,复用的可能性很小.也可能你会放弃自己处理并把它抛给一些有经验的高手专家来

《BI那点儿事》数据流转换——模糊分组转换

原文:<BI那点儿事>数据流转换--模糊分组转换 在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些"Lazy-add"造成的.这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词.一个简单的例子是X-Ray Tech和xRey,我们很有可能认为他们是同一个职务,CT操作员,但是如果让计算机来处理的话,它们是两种截然不同的东西.和模糊查找一样,模糊分组可以查找出多行中出现的类似的单词进行归类.我们可以使用这些归类得到

《BI那点儿事》数据流转换——透视

原文:<BI那点儿事>数据流转换--透视 这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的.数据透视转换可以将数据规范或使它在报表中更具可读性. 通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低.但更为简洁的版本.例如,在列有客户名称.产品和购买数量的规范的 Orders 数据集中,任何购买多种产品的客户都有多行,每一行显示一种产品的详细订购信息.此时,如果对产品列透视数据集,透视转换可以输出每个客户只有一行的数据集.这一行列出该客户购买的所有产品,产品名称显示为列

《BI那点儿事》数据流转换——字符映射表

原文:<BI那点儿事>数据流转换--字符映射表 特征映射转换如图展示数据流中列的特征,它的编辑界面很简单,只有一个标签界面,点击要进行映射的列,可以选择需要添加新列或需要更新的列.可以在Output Alias列中给原来的列一个别名,选择要进行的操作,可以进行的操作类型有: Byte Reversal:逆转数字位的顺序,例如数据0x1234 0x9876的逆转结果是0x4321 0x6789,这种操作和LCMapString,LCMAP_BYTEREV选项有相同的操作结果 Full Width

《BI那点儿事》数据流转换——OLE DB 命令转换

原文:<BI那点儿事>数据流转换--OLE DB 命令转换 OLE DB命令对数据流中的数据行执行一个OLE DB命令.它针对数据表中的每一行进行更新操作,可以事先将要更新的数据存放在表中.或者针对一个有输入参数的存储过程,可以将这些参数存放在一个数据表中,不用每次都输入参数.示例数据准备: CREATE TABLE SourceParametersForStoredProc ( Param1 INT, param2 INT ) CREATE TABLE DestinationOLEDBCom

《BI那点儿事》数据流转换——百分比抽样、行抽样

原文:<BI那点儿事>数据流转换--百分比抽样.行抽样 百分比抽样和行抽样可以从数据源中随机选择一组数据.这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的.可以将这些选择出的数据发送到开发或者测试服务器上.这个Task的最合适的应用是建立数据挖掘模型然后,使用这些抽样数据来验证这个模型. 编辑这种task,选择要抽取的行数或者 百分比,如图.百分比抽样按百分比从数据源中随机选择数据,行抽样从数据源中随机选择具体的行数.可以对选中的数据和未被选择的数据命名.最后一个选择项

《BI那点儿事》数据流转换——排序

原文:<BI那点儿事>数据流转换--排序 排序转换允许对数据流中的数据按照某一列进行排序.这是五个常用的转换之一.连接数据源打开编辑界面,编辑这种任务.不想设置为排序列的字段不要选中,默认情况下所有列都会选中.如图所示,按照TotalSugar_Cnt排序,并将所有列输出. 在底部的表格中,可以设置输出列的别名,是否按照列来排序.Sort Order列显示列将会第一排序,第二排序还是第三排序.双击列去除重复的排序列.