&">nbsp;
在本月新出版的一期CACM上又有两篇文章谈到小数据。大数据很热门,小数据也不可忽略,特别是对于个性化的医疗,小数据不可缺少。而且,小数据与大数据的研究是紧密联系在一起的。
大数据、智能设备谈得很多,譬如基因组学、蛋白质组学、代谢组学等等将要改变医学。但是,另一股力量要改变我们关于健康的想法和实践,那就是由个人数字跟踪驱动的小数据。考虑一类基于云的应用,随时间连续地、安全地、私人地分析你工作、购物、睡觉、吃饭、锻炼和通讯的数字追踪而得到的你的健康的一幅画。这里需要私人的装置和网络服务,特别是自跟踪。而现在对于患者的数字跟踪是由临床医生来做,而不是由患者;数据是关于临床治疗的,而不是日常活动的。当你作为一个患者和用户,如果你要确定一种服药的剂量哪个更好?改变两周以后,你可以拿出你的数字跟踪数据与前两周的做比较,看你的日常功能有什么变化,以确定哪种剂量更适合你。对于慢性病、抑郁症、记忆力衰退和克罗恩病,很需要日常活动变化的数据。你是你的数据的用户;我是我的数据的用户。我的数据为我所用。大数据一般是从一个大N的种群里面取得的,而小数据n=me。我们需要数据解放,把移动和网络服务的数据解放到你我自己。我们需要一个开放的体系结构,产生丰富的小数据的APP和服务,就像HTTP标准使得WWW具有了如此之多的APP和服务一样。就像移动APP大大提高了智能手机的价值一样,个人数据跟踪的APP也应该能提高智能手机的价值,及小数据和个人数据仓库的市场。
攻克癌症长期以来都是人们的梦想。现在许多人认识到需要用患者的数据进行个性化的癌症治疗。我们要特征化所有患者。肿瘤细胞的DNA引起不同的癌症病人非常不同的变化。譬如,大致相同的基因变异或删除只占患者的10%。即使是同一个肿瘤,其细胞的变异也不同。所以,对许多患者用同一个治疗方法不可能是成功的。个性化的或者说层次式的药物治疗是要按照特定患者的条件开出药方。不是“对症下药”,而是“对人下药”。基因之间的相互作用可能引起二次变异,对患者的治疗影响很大。这些个性化的治疗都需要记录和分析个人行为随时间变化的规律,这就是小数据。
当然,治疗的一般规律的发现需要大数据。欧美各国都在计划编制患者信息的数据库,不但为了癌症治疗,也为开发新的治疗方法。集成大量在线数据库可以推动个性化用药,减轻他们的痛苦。从大数据得到规律,用小数据去匹配个人。
最近,在科学网上发表了很多关于大数据的博文,但大部分都是概括性的哲学性的议论,很少接触具体问题。彭思龙博主发表的“大数据的结果是福是祸?”一文已有7816次阅读,64个评论,击中了统计分析中的许多要害。而小数据较少引起注意。本人发表的大数据与小数据(131209)一文,承蒙彭思龙研究员的推荐,修改后送到《中国计算机学会通讯》,至今渺无音讯,说明对小数据可能还有争议。中国人不爱标新立异,可能怕小数据会削弱大数据这个研究大方向。其实,“立异”才是创新的源泉。不立异,跟在人家后面喊,怎么能创新?我一直说,大数据分析与大数据技术不是一回事。大数据技术由IT行业来解决,而大数据分析要靠各行各业的专家。还有一种说法,说小数据是大数据的一部分,小数据集多了就变成大数据了。这完全是从字面上去理解大数据、小数据,在技术上它们是不同的,核心的技术问题也完全不同。不要碰到大量的数据,就给它戴上一顶帽子,“大数据”。就像20年前,系统工程也很时髦。哪管是做报告谈到一个比较大的工程,就说那是系统工程。可系统工程怎么样呢?“那是很难的”,没有下文了。这种概念,没有内涵,能说明什么呢?所以,我们应该敞开思想,研究实际问题,切忌空谈。