如何对存储在云端的数据进行精简管理

一年又一年过去了,磁盘空间的成本已经显着下降,50美元就可以买到TB的磁盘,似乎几乎可以不考虑磁盘成本。在企业物理环境,你不会考虑磁盘空间,但是在云环境中,你必须考虑,否则你将为此付出代价。

  但是在云环境中,又是另一回事了。如果你的云空间有太多低价值的数据或者太多文件副本,会给你带来两方面的不必要的开销。首先是每月的存储费用,第二个是不可避免的性能影响,尤其是涉及搜索、查看、报告和系统更新时。在云环境中,确实有必要对数据进行管理,包括精简、重复数据删除和压缩等。

  第一个步骤是评估问题:是文档?还是表数据?这些">数据类型通常有不同的存储限制,对这些数据进行管理所使用的策略和工具往往存在很大差异。

  文档通常是作为记录的附件(例如签署合同的PDF格式),用户可能不能轻易找到它们。相同的文档可能被附到三个或者四个不同的记录,此外,你还需要考虑其他情况,例如用户为迅速变化的文档附上了每个版本。第一件要做的事情是建立一份系统文档的清单(包括它们附加的记录ID,以及最后一次更新日期等),并使用电子表格过滤器,删除重复内容。市面上有很多很好用的重复文件删除工具(通过检测文件的内容来删除),但是不知道这些文件工具是否能够直接在云应用中使用。除非你愿意下载所有文件内容到你自己的服务器来进行深度分析,否则你只能使用元数据分析来管理文件。另外,由于光盘存储很便宜,你还可以将你从云环境删除的所有文件保存在光存储中,以防过后有人需要这些数据。

  表数据又是另一回事了,对于不同类型的云服务,有很多系统特定的技巧和技术。下面是通用的管理表数据的步骤:

  确定你的云系统真的存储存储问题。一些系统(例如财务系统)因为需要审计,并且必须在长期内保存所有细节信息,因而不能进行删减。其他系统(例如营销自动化或者日志分析)通常收集大量细节信息,而这些不必要的信息毫无疑问将会拖慢系统速度。

  确定哪些表数据消耗超过总存储量的20%,将注意力放在这里。

   对于每个表数据,弄清楚单个记录的价值。一些表数据(特别是帐户或者联系方式)是不可以触碰的,因为可能涉及隐私信息,并且删除这些信息可能带来不必要的麻烦(尤其是当这些表数据与外部系统息息相关时)。其他表数据,例如营销自动化系统中的“匿名信息”,完全可以删除。

  再进行下一步之前,将所有云服务的数据完整备份到磁盘或者光学媒介,我想说的是:这个步骤很重要。

  对于你可以自由删减的表数据,可以考虑采用“信噪比”的方法。对于完全无关紧要的信息,是否需要保留一段时间?例如,在营销自动化或者网络监控云中,我们是否真正关心6个月以前的匿名访问者?信噪比分数小于零的信息是否能够删除?采用这个方法前,请确保首先得到所有相关用户群的同意,基于信噪比的数据删减方法可以在短时间内删除数百万条不必要的记录。

  有些表数据的信噪比分数不错,但是随着时间的推移,这些存储的细节信息并不值得。例如,很多营销自动化和E-mail blasting系统使用活动表来记录重要电子邮件和网络交互活动。这些活动表可能占据系统一半的存储。但是一年前用户是否观看了视频A或者视频B有多重要?使用这个作为“试金石”:如果特定细节信息不会实际改变任何人的决定或者行为,它就不再是“信息”。在这种情况下,我们建议采用压缩的方法:保存信息,然后在六个月左右后删除大部分信息。这些历史信息通常作为自定义表存储,形式包括令牌字符或者微小存储需求的位图。这个策略需要认真的考虑,但是可以基于信息价值删减很多不必要的信息。

  一些表数据(特别是联系信息等)可以在短时间内收集大量重复信息,尤其是当你的公司在信息收集和处理方面存在问题时。如果你的云系统提供重复数据删除工具(来自主要供应商或者第三方),那么可以买一个好点的工具,然后认真研究。最好的工具具有模糊逻辑算法,可以让你在不需要将数据移出云环境的情况下找到和合并重复数据。这个合并过程适用于大多数数据,但是如果你有很多数据冲突(例如,相同用户的两个不同的手机号码)的话,你可能需要在进行合并前,创建阴影域,使用不同的数据来进行预先填充。出于多种原因考虑,数据合并必须分几个阶段进行:清楚10万条重复数据需要占用很多CPU事件,以及你是思考时间。不要急于进行合并操作,因为一旦合并,就无法撤销。

  上述大部分步骤都是一次性修复,而不是一个过程变化。如果你不愿意为提高数据管理流程花钱,你可能需要时不时地关注一下这方面的进展。

(责任编辑:蒙遗善)

时间: 2024-09-21 01:52:51

如何对存储在云端的数据进行精简管理的相关文章

红帽开源云:Linux、虚拟化、存储与大数据

三月底,红帽发布了截止2012年2月29日的2012财年第四财季及全年财报.财报显示,红帽2012财年总营收为11.3亿美元.至此,红帽成为IT业首家年收入超过10亿美元的开源解决方案厂商.红帽是如何做到三年十亿?2012年过去了一半,红帽又有哪些新动向?未来又有何计划呢? 核心Linux业务与虚拟化 今年五月,红帽企业Linux面世十周年. 2002年5月,红帽推出首款企业Linux操作系统.十年间,Linux操作系统已经在企业级领域获得认可和普及. 红帽企业Linux还提供了内嵌的KVM虚拟

软件定义存储在大型数据中心的应用分析

历史经验一再表明,由技术进步推动的变革往往以超乎人们想象的速度和烈度发生.SDS软件定义存储作为新兴的技术,即使穷尽你所有想象,也难以预测其发展的速度有多快,影响的程度有多深远.面对新的变革和潮流,在追逐变化的同时,还需冷静思考可能带来的问题.SDS在数据中心的应用一定能提高性能和降低成本,并可控风险么?SDS会隐藏什么样的问题? 问题一.不能充分利用现有的基础架构 数据中心是非常繁忙的,IT部门要同时接受从多个不同的应用系统发来的需求和数据任务并及时响应和处理.另外,IT专业人员的日常工作还需

戴尔存储:实现数据与投资的双重保护

现在的存储基础架构已经形成了大量的存储与数据孤岛,除SAN.NAS.DAS等面向不同数据类型的存储架构产生数据分割的情况,即使在SAN架构内部,由于不同供应商及不同代存储系统之间的区别,存储与数据孤岛的情况也仍然普遍存在. 存储基础架构的低效率.低灵活性和持续增加的复杂性导致企业的数据架构难以持续扩大,而持续扩大存储规模的需求却在不断增长.从最初级的角度来看,增加企业IT预算是最简单的工作,事实上,已经有17%的IT硬件预算用于存储而60%的存储设备投入在人力资源方面,但是这仍然难以满足数据与存

收集并存储性能监控器数据到SQL Server表

server|监控|数据|性能 收集并存储性能监控器数据到SQL Server表 ? ? 当我们需要监控数据库SQL Server服务器性能的时候,有些数据库管理人员可能会选择Windows为我们提供的'性能'监控器来操作(开始菜单à管理工具à性能). 如果可以将性能监控器采集到的数据记录到SQL Server 的数据库表中去,很多工作对我们来说也许方便得多.开启性能监控器点击开始菜单à运行à执行(perfmon) 或者 开始菜单à管理工具à性能 ? 就可以看到下面的画面了 ?定义性能监控器LO

云数据存储:解决数据寻址安全问题

当有暇时你可能会思考这样一个问题,从客户的角度来看,是什么让云计算变得这么的吸引人,是按所需使用资源的能力吗?在你正在使用"应用程序堆栈"的层次以下都成为了一个黑匣子.这包括了基本的基础设施和技术组件.支持与运行机制.托管思考等.云计算的无所不在是一个强大的概念,因为它允许客户能够集中关注其它更多与公司核心业务紧密相关的问题而不是所有这些技术细节.但是,总会有一些预想不到的结果发生.因为与云计算服务实施相关的详细信息并不总是会被仔细核查,它们对安全性的影响在很大程度上都会被忽略.通常情

如何高效存储海量GPS数据

最近几年,移动设备已经非常普及,对GPS的使用也越来越常见,比如快车专车产品中的实时位置和历史轨迹图,运动App中的跑步,骑行轨迹等,很多研发人都遇到了如何设计系统架构来高效存储和查询GPS数据的问题. 对于一个互联网产品,要面对大流量,突发大压力,要保证低延时,高稳定性,还要考虑以后的实时扩展性,作为负责人的话,还需要考虑成本.这样,设计一个满足这些需求的系统就不怎么简单了,比如下面这些应用. 在这篇文章中,我们将通过设计一个骑行类App的GPS功能来说明多种使用场景及其区别. 产品功能 我们

sqlite-使用android的SQLite数据库能存储多大数据

问题描述 使用android的SQLite数据库能存储多大数据 看到网上说SQLite数据库的大小是2TB,但是我觉得这个数据库不应该跟手机内存相联系吗?android上的SQLite数据库真的能容纳下2TB的数据吗??? 解决方案 很明显android上的SQLite数据库是放不下2TB的数据 解决方案二: 一个是sqlite数据库本身最大容量,但是sqlite数据库文件是放在手机上的,所以它也会受到手机存储空间大小限制的.对于android程序,你不能占有太多空间.可以把一些数据放服务器上.

C++程序设计:原理与实践(进阶篇)15.1 存储和处理数据

摘要 Programming: Principles and Practice Using C++, Second Edition 容器和迭代器 只做一件事,并把它做好.多个程序协同工作. --Doug McIlory 本章和下一章将分别介绍C++标准库(STL)中的容器和算法部分.STL是一个用于处理C++程序中数据的可扩展框架.我们首先通过一个简单的例子来说明STL的设计理念和基本概念,然后详细讨论迭代器.链表和STL中的容器.STL通过序列(sequence)和迭代器(iterator)的

51单片机通过IIC向EEPROM存储和读取数据

问题描述 51单片机通过IIC向EEPROM存储和读取数据 我用51单片机通过IIC向EEPROM存储数据,然后再把数据读出来,再通过串口发送出去, 再用串口调试工具(eaglecom)查看数据...最后发现一次只能发送或者读取12个 字节,大于12个字节之后的数据全是0xff.不知道原因是什么. ```#include #include "delay.h" #include "Uart.h" #define ERROR 0 #define SUCCESS 1 #d