精简云端数据的策略有哪些?

年复一年,磁盘空间的单位成本正变得每况愈“低”。既然只要花区区50美元就能买个1TB的硬盘,通常来说在存储方面谈什么节流问题总是显得比较鸡肋。

但在云中,情况就完全不同了。如果我们保留太多没啥价值的数据或者文件副本,那么庞大的支出会以两种方式接踵而来。首先是每个月的存储开销,其次则是在涉及搜索、视图、报告以及仪表板升级时由此带来的性能低下。在云中,修整数据集的确能够带来切实的效益。

目前的首要议程是对问题做出评估:我们的存储体系中主要是文档,还是表格数据?二者通常会带来不同类型的存储限制,用于应对它们的策略及工具也颇有差异。

文档通常作为记录的附件存在(例如常常被附于相关业务之后的合同签署PDF文件),因此用户往往很难快速将其找出。这种特性使得同一份文档可能经常会被三到四份不同的记录同时调用。我们还需要找到那些短期进行过数次修改的多个文档版本。首先要做的是将系统中的每份文档归纳起来,形成一份输出列表(包括文档归附的ID记录以及最后一次更新日期等),并利用电子表格过滤器找出重复的文档。有专门的重复文件检测工具,能够在这方面帮上大忙(通过检测文件内容);但在云中我还没听说过哪种工具能实现同样的功能。除非大家愿意把所有文件下载到自己的本地服务器上并深入加以分析;要用这样的方式修整文件,我们将面对极为繁重的工作量。由于光存储介质非常廉价,我们还不如直接把云中的数据归档,再把云存储整体清空,免得将来有人抱怨。

表格数据则完全不同,因为不同类型的云在处理此类数据时会采用许多与系统有关的特定方式与技术。也就是说,常见处理流程如下:

•确定自己的哪一套云系统确实存在存储问题。某些系统(例如财会系统)完全无法加以修整,因为相关工作人员需要经常审核并保存好长期以来的全部细节信息。其它系统(例如营销自动化或者日志分析系统)如果在运行时经常在短时间内收集大量细节信息,它们就是导致系统拖慢的罪魁祸首。

•确定哪些表格消耗掉了我们总存储量的20%以上。它们就是修整的重点。

•针对每个表格,了解各项单独记录的价值。有些表格(特别是账户或者合同)几乎完全不能加以改动,因为它们的内容非常重要而且一旦被清除将造成很大影响(尤其是当这些表格与外部系统集成起来时)。其它表格,例如“匿名信息”,尤其是营销自动化系统当中的那些则往往可以恣意处理。

•在采取进一步措施前,在磁盘或者光介质上先对云中的数据进行一次整体备份。我在这里以最郑重的态度提醒各位:这一步骤绝对不能忽略。

•对于那些可以随意修整的表格,先评估一下其“信噪比”(即有用信息与无用信息之间的比率)。有哪些信息由于年深日久而已经变得完全没有价值了?举例来说,在营销自动化或者网页监控云中,我们有谁会真的在意某位匿名访客已经六个月没有再次出现了?将所有分数为负的内容删除有何不可?我相信大家一定希望先对受影响的用户进行全面分析,不过请记住,以信噪比方式修整数据的最终目的是为了在短时间内迅速清理数以百万计的记录。

•有些表格的信噪比结果良好,但其中所存储的诸多细节也没啥存在的必要。举例来说,许多营销自动化以及电子邮件推送系统使用活跃表格来记录重要的邮件及网页交互行为。这些活跃表格可能会占用一半的系统存储空间。但是某个人一年前的今天看了视频A、前一天则看了视频B,这种信息能有多大意义?大家不妨使用这样一种评判标准:如果某种特定的细节不会改变任何人的决定或者行为,那么它就不算是“信息”。有鉴于此,我们建议采取一种压缩的方式:保留该信息,但清除六个月及之前的各类细节。历史记录通常被存储为自定义表格、描述标签、代表性字符串甚至位图这些对存储空间要求较低的形式。要对其进行修整需要缜密的思维、用户输入以及自定义代码开发,虽然过程不容易,但最终我们会获得一套以信息价值为主导的连续修整机制。

•有些表格(尤其是信息与联系人方面的)往往会迅速收集大量重复信息,特别是大家的公司已经具备了一套专门处理信息与联系人事务的系统。如果大家的云系统支持重复数据删除工具(一般来自主流服务供应商或者第三方),不妨买一套口碑好的并真正掌握它的用法。最理想的工具都拥有模糊逻辑算法,能帮我们在不移动云中数据的前提下找出并合并重复信息。整个合并过程会尽量保留数据,但如果各位的云中存在大量数据冲突(例如为同一位联系人存储了两个完全不同的手机号码),我们恐怕需要为此建立阴影区域并将不同的数据在合并之前填充进去。出于多少复杂的原因,数据合并工作必须分阶段进行:它会占用大量的CPU处理时间,也会给我们的头脑增添不少负担,不过说到底,它也能清除以十万计的重复信息。千万别太过躁进,合并这种工作可是没有撤销功能可用的。

上文中提到的大部分属于一次性修复,而不是将变化融入日常处理过程的长效机制。如果大家不打算投资以改善自己的数据管理流程,那么就准备好每个季度按上述步骤进行一次修整吧。而且请记住,如果不引入长效机制,这些步骤将永远困扰着你。

时间: 2024-09-21 01:40:40

精简云端数据的策略有哪些?的相关文章

云端数据2012年十大潮流趋势

当2010年行将过去之时,全新的私有云和混合云系统被所有人认为是未来的发展方向.而现在,随着时光飞逝,2011年也已经过去,过去的很多预测都成为了现实.2011年可以说是一个名副其实的"云计算"之年.在过去的那一年,数以千计的云架构开始进行构建和部署,并被广泛地用于各行各业之中.越来越多的IT厂商在一点上已经保持了一致的想法,就是他们都认为,未来的一年里,云计算IT设备的采购曲线将会明显地保持继续上升的趋势并稳步发展.而本文将要谈到的十个关键点则非常有可能在2012年持续引领云端数据的

爱数的诗和远方:云端数据运营服务

在整个IT业界都在向"云"看的当下,爱数瞄准了自己的定位:云端数据运营服务. 作为目前国内备份一体机的领头羊,爱数专注于在容灾备份领域已经超过10年,曾连续三年蝉联国内备份一体机市场份额第一.爱数并没有满足于此,在这个瞬息万变的互联网+时代,爱数正积极跳出自己的舒适区,谋求新的业务发展. 从2010年开始,爱数将业务从备份延伸到数据管理,并在2015年启动向云计算转型.在Any Data 2016大会上,爱数总裁贺鸿富向记者表示,爱数将会变成一家由数据运营服务驱动的云计算公司. &qu

2012年云端数据十大热门趋势

当2010年落下帷幕时,新的私有云和混合云系统被大家认为是当时的发展趋势.如今,时光流逝,2011年也已经过去.而以往的预测很多都已经实现.2011年确实是名副其实的"云计算"之年.在过去12个月,数以千计的新的云架构被构建和部署,并被用在各行各业之中.众多的IT厂商已经在一点上达成了一致,他们认为在未来一年云计算IT设备的采购曲线将会继续上升并稳步发展.而以下十个关键点很有可能会在2012年引领云端数据的趋势. 一.继续沿用现有的存储系统 对于大多数企业来说,将所有企业数据都存放在云

SQL Server存储图像数据的策略与方法

server|策略|数据 目前对于图像数据的管理大都采用表+实体的方法,即图像数据以文件形式存放于指定的计算机目录下,在数据库表中只反映图像数据文件的存储路径.这种管理模式,给数据的维护增加了难度,同时,也给数据的安全带来一定的隐患.因此,要真正做到各类数据在数据库中安全管理,研究和探索直接将图像数据存储在数据库关系表中的方法是非常必要的. 笔者在Visual Basic 6.0开发环境中,采用客户机/服务器的工作方式,针对SQL Server数据库关系表中存储图像数据的问题进行了初步探讨,提出

DNN数据访问策略(一)

经过几天断断续续的努力,这篇文章终于翻译结束,文章主要讲了DNN的数据访问策略,对于了解系统整体上是如何工作的有一定的帮助,希望能给dnn的初学者一些有用的信息.由于翻译的匆忙+水平有限,错误或不当之处在所难免,欢迎大家讨论.指正. 原作者: Shaun Walker – Perpetual Motion Interactive Systems Inc. http://www.perpetualmotion.ca 目录 简介... 2 策略... 2 需求... 3 配置... 4 数据访问层

云存储服务平台纷纷下台 云端数据何去何从?

今年3月份以来,华为网盘.新浪微盘.UC网盘.金山快盘.腾讯微云等云存储服务平台接连宣布将关闭或调整个人用户存储等服务,网民热衷的"云存储"几乎集体沦陷.而对于已经习惯使用"网盘"的企业来说,要想安全.稳定的进行云数据分享,就需要为员工的网盘应用开辟出一条新路. 网盘全体"关机",企业用户也中招 舆论认为,导致网盘系统全面"关机"的原因主要有两点:其一,网盘已经成为互联网内容传播非常重要的一种途径,很容易成为非法信息传播的&q

企业如何杜绝云端数据泄密?

一直以来,云计算所倡导的就是:"我们可以做得更好,更便宜".云计算带给企业诸多利好,但实施云计算必然会加剧信息泄露风险.当企业打算把所有数据传输云端的时候,首先要考虑的就是数据保护的问题. 使用云服务,用户数据将面临以下安全威胁:云端数据集中存储带来的管理员有限访问与虚拟机逃逸隐患.数据管理者和数据所有者完全脱离现象.对于数据 所有者而言,把所有数据集中云端存储,如同"将所有鸡蛋放入同一个篮子",数据安全很容易受到威胁.数据离开了其能控制的范围,继而造成了数据的泄密

《Linux防火墙(第4版)》——2.2 选择一个默认的数据包过滤策略

2.2 选择一个默认的数据包过滤策略 就像本章前面所说的那样,防火墙是一个实现访问控制策略的设备.这个策略的大部分的决策基于一个默认的防火墙策略. 实现一个默认的防火墙策略有两种方法: 默认拒绝所有消息,明确地允许选定的数据包通过防火墙: 默认接受所有消息,明确地拒绝选定的数据包通过防火墙. 毫无疑问,推荐的方法是默认拒绝所有消息的策略.这种方法可以更容易地建立一个安全的防火墙,但您需要的每项服务和相关的事务协议必须被明确地启用(见图2.3). 这意味着您必须了解您启用的每一项通信协议."拒绝所

Win10数据收集策略暴露隐私?微软若改才心虚

 <福布斯>曾发文称微软意图改变当前Win10系统数据收集策略,以应对部分用户对于自身隐私安全的担忧.不过微软随后表示该消息并不属实,公司尚未考虑过改变当前数据收集策略. 由于Cortana等Windows10多项新功能需要收集用户的日常活动数据,包括日程安排.通讯录.常去地点.语音信息.面部特征.指纹信息等,这些数据基本上都能算作"隐私"范畴.而微软的一些数据收集服务又需要定期上传用户系统使用情况数据,这主要是电脑本身的软硬件信息等内容.虽然微软多次强调上传到微软内部的信