大数据,“大”容量是多数人关注的焦点,但是却忽略了“内容”。
今天,第七届中国云计算大会第二天日程持续进行中,中国大数据专家委员会顾问、中国科学院院士张钹认为,现在大家比较关注形式和模式,却很少看到内容这个维度。
“大数据的处理问题仍然是个老问题,网络数据与以前的数据不同之处在于,虽然数据很多,但是有用的数据只有34%,好用的数据仅有7%,被分析的数据更是少到只有1%。”
下面张院士的这张幻灯片显示,在单机时代,计算机不需要了解具体内容是什么,然而发展到计算机网络时代,这发生了很大变化,计算机必须通过文本和图像了解用户的意图,输出用户需要的信息。
但是,计算机能了解人类吗?答案是否定的,因为计算机不了解人类的语意。这也是在网络大数据处理过程中,遇到的第一道坎儿。
因此,网络时代信息处理提出了新需求:了解用户意图、用户兴趣、用户体验,将粗数据变成知识,理解信息的内容。这里所说的“理解”,有三个层次:自然语义,也就是了解人类说的是什么,说话人的用意和受众的感受。
这就是传统信息处理面临的根本性挑战,能不能解决呢?院士给出的答案是,很难!“过去我们在处理传统信息的时候,我们做的一切事情都是和形式有关,和语意没有关系。”
所以传统的信息处理,基本上很难去做网络数据的处理,那么问题来了,机器能不能处理语意?如何处理?这时候就不得不说说机器学习和深度学习了,它在特定的条件下具有抗干扰能力。
我们固然可以用知识推动的方法解决人类深思熟虑的行为,但是很难运用到感知的信息处理中,这个事情基本上是有人工多层神经网络做的。
院士提醒说,概率统计方法存在局限性,多层神经网络也不是完美的,不要以为深度学习已经完全可以超过人类的水平,这只是在一定的条件环境下。
展望未来,院士认为,未来的大方向是把传统信息处理和人工智能结合起来,也就是“数据驱动+知识驱动”。
原文发布时间为:2015年6月4日
本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。