数据无边界:非结构化数据在MaxCompute上的处理

这是DT(Data Technology)时代,每天有海量数据的加速产生,而每天产生的海量数据80%+是非结构化的,如何把握数据资源服务大众,激发生产力是每个互联网企业需要掌握的核心竞争力。我们的理想是MaxCompute在SQL线上实现与其它云数据(OSS, TableStore等) 的互联互通,用OSS(阿里云对外提供的海量、安全和高可靠的云存储服务)几种非结构化数据处理为范例,未来我们可以期待对各种非结构化数据的分布式处理成为可能,甚至开启气象数据、基因数据等多种大数据,建立与各种分布式系统的生态连接的无限可能。

欢迎加入MaxCompute钉钉群讨论

时间: 2025-01-30 03:38:45

数据无边界:非结构化数据在MaxCompute上的处理的相关文章

大数据可能“说谎” 非结构化数据将呈现更丰富的世界

在2017年的下半年谈论大数据似乎已经没有什么新意,甚至有些令人生厌了,毕竟这个词在中国已经流行太久,形形色色的产品.平台和公司早已贴满了大数据标签,而真正有价值的创新永远都是少数. 行业对于大数据的认知开始变得更加理性和客观,这是一种成熟的表现.但如果因此就认为大数据时代已经进入风平浪静的"发展期",那么我们很可能会错过一场更加波澜壮阔的变革. 被忽视的非结构化数据 在过去几年,大数据产业更多关注的是如何处理海量.多源和异构的数据,并从中获得价值,而其中绝大多数都是结构化数据.不可否

非结构化数据——RAID模式已过时

一份来自Novell公司Ponemon研究所针对对美国94个大型企业的调查显示,平均每个公司每年花在非结构化数据处理上的成本为210万美元:而一些受到严格监管的行业,比如金融.制药.通讯和医疗行业的成本最高,每年将达到250万美元:另一个来自Unisphere Research的调查则显示,62%的受访者表示非结构化信息的产生是不可避免的,在未来十年内将超过传统数据.此外有35%的人表示,在未来的36个月里,非结构化的信息量将超过传统的关系数据. 据IDC的预测,现在全球数据量每18个月就要翻一

大数据可能「说谎」非结构化数据将呈现更丰富的世界

在2017年的下半年谈论大数据似乎已经没有什么新意,甚至有些令人生厌了,毕竟这个词在中国已经流行太久,形形色色的产品.平台和公司早已贴满了大数据标签,而真正有价值的创新永远都是少数. 行业对于大数据的认知开始变得更加理性和客观,这是一种成熟的表现.但如果因此就认为大数据时代已经进入风平浪静的"发展期",那么我们很可能会错过一场更加波澜壮阔的变革. 被忽视的非结构化数据 在过去几年,大数据产业更多关注的是如何处理海量.多源和异构的数据,并从中获得价值,而其中绝大多数都是结构化数据.不可否

MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

0. 前言 MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断扩展,新的数据使用场景也在不断产生.在这样的背景下,MaxCompute(ODPS)计算框架持续演化,而原来主要面对内部特殊格式数据的强大计算能力,也正在一步步的通过新增的非结构化数据处理框架,开放给不同的外部数据. 我们相信阿里巴巴集团的这种需求,也代表着业界大数据领域的最前沿实践和走向,具有相当的普适性.在之前我们已经对MaxCompute 2.0新增的非

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制. 而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现与各种数据源的互通,对于打通整个阿里云的数据生态具有重要意义.基于这一点,最近MaxCompute团队依托MaxCompute2.0系统架构,引入了非结构化数据处理框架:通过外部表,为各种数据在MaxC

【数据蒋堂】非结构化数据分析是忽悠?

大数据概念兴起的同时也带热了非结构化数据分析.传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大.有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了. 那为什么说非结构化数据分析技术是忽悠呢? 不存在通用的非结构化数据计算技术 非结构化数据五花八门,有声音图像.文本网页.办公文档.设备日志.....:每类数据的都有各自的计算处理手段,比如语音识别.图像比对.文本搜索.图结构计算等等,但是并不存在一种适用于所有

通过企业内容管理(ECM)利用大量非结构化数据

如今的企业无一不受信息泛滥的困扰,这已经不是什么秘密.我们被大量不断增长的数据包围.许多机构内的非结构化内容(从打印文档到社交媒体文章)在无节制的增长.对于许多机构而言,非结构化内容已经占到总体企业信息的 80% 或更高比例.在对纸张密集型流程挥之不去的依赖以及个人和共同使用的数字内容的混乱扩散的驱动下,此类内容不断增长. 好消息是,企业内的人员.设备和系统生成的每一则信息均可用作竞争优势.前瞻性企业已经意识到,用户与内容之间的成功互动在提高业务成果方面发挥着重要的作用.例如,在许多企业中,客户

通过SQL 2008管理非结构化数据

通过SQL Server 2008管理非结构化数据 SQL Server 技术文档 作者:Graeme Malcolm (内容主管) 技术审核员:Shan Sinha 项目编辑:Joanne Hodgins 发布日期:2007年8月 适用产品:SQL Server 2008 概述:数字化信息的增长为企业应当存储和访问业务数据的方法提供了启发.数据库作为业务应用程序的核心,必须能够同非结构化的数据进行集成,其中包括文档.图像.视频.以及其它多媒体格式.为了能够对信息生命周期进行管理,满足策略需求,

结构化数据和非结构化数据是什么意思?

文章中提到的结构化数据.非结构化数据以及半结构化数据是对存储形式的一种数据类型分析,有助于企业细分行业案例,帮助存储合作伙伴更好地解决应用实施方案. 结构化数据,简单来说就是数据库.结合到典型场景中更容易理解,比如企业ERP.财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等.这些应用需要哪些存储方案呢?基本包括高速存储应用需求.数据备份需求.数据共享需求以及数据容灾需求. 非结构化数据,包括视频.音频.图片.图像.文档.文本等形式.具体到典型案例中,像是医疗影像系统.教育视