大数据将演变成重要的企业资产
在我看来,大数据的概念可以从以下两个方面解释:
1. 从技术的角度看,大数据是指数据量大且复杂到无法通过传统数据库技术进行治理和价值发掘。在这种需求下,各种NoSQL、NewSQL、开源技术或者商业平台不断出现并进化。
2. 从商业的角度来看,大数据将衍生出很多新的商业模式。其一、只要技术足够,企业可以整合内部和外部大数据(例如社交数据、App数据),更好地优化自身业务,实现对传统商业模式的超越。其二、只要技术足够,企业将收集并治理那些不曾有能力收集并治理的大数据,再发掘出巨大的商业价值。大数据,将演变成重要的企业资产。
我认为当前热门的大数据技术主要包括以下内容:
1. 用于大数据存储的Hadoop HDFS,以及衍生的数据库HBase;
2. 批处理大数据项目有Hadoop MR,它最新版本是YARN。衍生项目有数据仓库Hive和机器学习Mahout;
3. 实时处理大数据的项目有:Spark以及衍生的数据仓库Shark,Cloudera Impala;
4. 用于流计算的项目有Apache Storm。
5. 商业大数据产品有一体机例如PureData、Exadata、Hana;MPP DW例如Vertica、Aster Data、GP;MPP DM例如 Yonghong DM。
未来比较看好实时大数据技术的原因是实时大数据技术能够让企业对大数据进行探索式和交互式分析,相比于之前没有灵活性和动态性的批处理大数据技术而言,它将大大提升发掘大数据价值的效率和可能性。
我觉得国内大数据发展势头不错,但以下三个方面仍需改进:
1. 商业大数据产品或者技术至少应该占1/2,而不应该逢大数据就聊开源。我们看到在美国很多大数据的商业公司越来越强大,例如Cloudera、Hortonworks、MapR、1010Data。但国内企业要么大数据搞不起来,要么技术比较强的就自己捣腾开源,这不利于资源整合,优势互补。
2. 两个极端。国内大数据项目是哑铃型,要么上超贵的一体机,要么上开源的大数据项目。实际上,在上大数据项目的时候,可以选取性价比比较好的商业产品或者商业服务,而不要走两个极端。
3. 目前的主流大数据产品和技术都在美国。作为21世纪最重要的国家之一,中国应该有自己的主流大数据产品和技术,而不仅仅是搬砖头或者盲目跟从。希望能与各位同仁一起努力,在实时大数据领域做点工作。