机器学习与人工智能(AI)时代的到来已成必然,多数专家认为,这些技术将彻底颠覆数据存储世界。那么在此趋势下,制定存储方案时应注意些什么?
以下是笔者给大家的一些提示:
1、关于制定战略
组织考虑在人工智能和机器学习方面进行投资时,首先应该思考的是底层存储基础设施的战略性。这一观点来自于Pure Storage的产品副总裁Matt Kixmoeller。
他的逻辑很容易理解。AI和机器学习都是数据密集型的,而且组织都希望从这些数据中获得直接可见的价值。这就意味着企业需要一个可伸缩的和具有成本效益的解决方案,但同时它也应该能够高速处理庞大的数据集。也就是一个on-prem和云存储的混合解决方案。on-prem事关性能和成本的可预测性,从另一方面讲,该云能够迅速在开发/测试环境下进行扩展和缩减。
“需求的存在是大量而多样化的,并不存在能够一体适用的工作或应用,” Kixmoeller说,“成功的组织,尤其在尖端技术和科学领域,需要确保基础设施是创新战略中的一个核心组成部分。”
2、理解不同类型的数据管理需求
如果所有数据需求都是相同的,就会非常方便。在理想世界中,对象、文件和区块之间的差别将消失不见,任何事务都可以进行一体化的管理。但这毕竟只是理想,不是存储的真实现状。对于AI和机器学习来说,也是一样。
“用户需要了解业务数据、人类产生的数据和机器数据之间不同的数据管理需求,在存储技术方面的投入,取决于你需要去管理的数据的类型。” 日立数据公司物联网产品和技术高级副总裁Rich Rogers说。
他指出,机器数据的需求完全不同于其他类型的数据。例如,机器数据需要即时处理和一个可伸缩的核心共享仓库。所以被部署在一个特定组织中的传统存储类型,可能不适合一个机器学习环境。
3、考虑I/O和CPU需求
StorageIO集团分析师Greg Schulz认为充分理解被使用的数据或AI和机器学习工具所需要的数据是非常重要的。他更进一步进行了说明,他说,IT经理还必须复审最终数据存储库和数据库以及关键值的需求,同样还有I/O和CPU计算需求。
4、考虑开销
关于使用AI进行自动化数据和存储管理,Schulz表示组织应该考虑数据处理、分析和巨大的数据传输量所带来的开销。在某些情况下,这可能纯粹只是一个影响到一两个系统的问题,但是在其他情况下,这些费用可能涉及许多系统和多个站点。
5、不对冲
在谈到机器学习时,没有对冲可言。有点儿像上世纪九十年代末和二十一世纪初,企业会听到这样的标语:“进入互联网吧,年轻人。”但大多数充其量只是局限于口头应付和没有任何电子商务功能的单向网站。几年后,像eBay和亚马逊这样的领头羊才开辟了新的行业道路。
同样的,关于机器学习,也没有折中的办法。竞争对手都在争相实施,你也必须做好准备。
“AI和机器学习技术将成为主流,我们应该关注的问题不是是否实施,而是何时实施。” Cloudian的CEO Michael Tso说。
互联网和零售搜索引擎都已经具备了分析需求,然后进行个性化搜索结果展示的能力。他们知道你的搜索历史数据和最终购买数据,并以此分析你的喜好。Tso预测,五到十年内,没有部署AI的企业将会被淘汰。组织获取消费者的关键业务信息和如何与消费者联系,将成为新的常态,他补充道。
6、部署对象存储
虽然一些人鼓励企业采用软件定义存储来为机器学习做好更深入的准备,但Tso有不同的看法,他认为对象存储才是更好的选择。
“对于那些希望在AI和机器学习领域进行投资的组织,不要太过在意对象存储的便宜和深入,更应该将其看作是未来差异的中心。”他说,“今天的学习将成为明天AI的动力,IT世界正在改变,胜者将会以AI友好的格式保持数据。”
7、随时准备好进行扩展
显然,机器学习和人工智能已经极大地增加了存储的需求,而且存储需求预计将会持续飙升。所以基础设施的可伸缩性是一个考虑基础设施升级或刷新时的重要因素。但应该是什么样的可伸缩性呢?
“项目越大,对于能够扩展到大容量、高密度的构建区块以减少设备数量的存储系统的需求也会增加,同时数据中心的开销也会随着项目的增长而提升。”DataDirect网络产品营销高级主管Laura Shepard说。
她的建议是仔细搜索可伸缩的、高性能的,拥有智能内置部件去管理闪存和活跃档案的存储。在一个系统中寻找一些可以处理你的中、高等潜力输出结果的东西,可以提高性能和容量而无需并排筒仓。
8、保持冷静,按计划行事
IT领域中一波未平一波又起的趋势,很容易让人陷入疯狂,然后做出一个不明智的决定。当然,忽视这种发展趋势也是行不通的。但与此同时,太过匆忙往往会导致失误,而这些失误所带来的损失可能会非常高昂。
所以即使高管层召开紧急会议,下定命令要制定一个AI或机器学习策略并给出了严格的最后期限,你也仍需保持冷静,制定一个好的计划。
“对你所寻找的用来完成和处理事务的AI工具有一个很好的理解,” Schulz说,“如果你不能很好地表达自己的问题,你就无法正确地部署存储或机器学习技术。”
总之,因为AI和机器学习都是新兴领域,所以对于希望从这些技术中获利的组织来说,问题永远比答案要多。此外,准确预测存储的结果是不可能的,无论有意还是无意。