【BDTC先睹为快】陈一昕：最关心大规模数据挖掘算法及降维技术

2014年12月12-14日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中科院计算所与CSDN共同协办的 2014中国大数据技术大会(Big Data Technology Conference 2014，BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天，以推进行业应用中的大数据技术发展为主旨，拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办，CCF大数据专家委员会承办，南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开，并与技术大会共享主题报告。

本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者，深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展，NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势，OpenStack生态系统对于大数据计算需求的思考，以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用，分享实际生产系统中的技术特色和实践经验。

在本次大会召开之前，CSDN和本次大会“大数据应用”的演讲嘉宾美国华盛顿大学终身教授、中国联通研究院大数据/云计算首席科学家陈一昕进行了一次简单的沟通。陈一昕认为，Hadoop解决了大数据存储的问题，但对电信行业而言，要实现数据价值的挖掘和分析，还要关注大规模数据挖掘的算法、降维技术以及“可解释的机器学习“(Interpretable Machine Learning)等技术。

陈一昕将在12月14日“2014中国大数据技术大会”上和大家分享和交流更多的电信大数据的干货，据他透露，分享的内容将包括和金融行业跨界合作的内容，相信能够让各行各业的大数据拥有者、技术人员、市场业务人员得到启发，开阔思路。点击报名！

陈一昕

美国华盛顿大学终身教授，中国联通大数据首席科学家

博士，美国华盛顿大学计算机系终身教授，北京协和医学院卫生统计学博导，中国联通研究院大数据/云计算首席科学家，中国科技部973项目负责人。

研究领域为数据挖掘，医疗大数据，人工智能，云计算等。在TKDE、TKDD、JAIR、 AIJ等国际一流期刊和ICML、 KDD、IJCAI、 AAAI等顶级会议和上发表论文 100 余篇。任大数据领域多个顶级学术期刊编委和多个一流国际会议的程序委员会委员。为美国国家科学基金委、香港研究基金委、奥地利国家科学基金委、瑞士国家科学基金委、中国科技部科技评估中心的评审委员。中国科技大学所承担的教育部111引智计划专家组专家成员之一，中国计算机学会大数据专家委员会首届委员。其研究连续获得美国国家科学基金委，美国能源部，美国国家卫生局，美国能源研究科学计算中心，美国微软公司，美国斯隆凯特琳癌症中心，美国巴恩犹太医疗基金,中国科技部 973 计划资助。曾获 KDD(2014)、AAAI (2010)、ICTAI (2005)、ICMLC(2004)等国际会议的最佳论文奖，和ICDM(2013)、RTAS(2012)、KDD(2009)、ITA(2004)等国际会议的最佳论文奖提名。其开创性的研究工作获得了美国微软青年教授奖(2007)，美国能源科学计算中心启动项目分配奖(2007)，和美国能源部杰出青年教授奖（2006）。

陈一昕采访问答实录如下：

CSDN：您所在的公司，都曾使用过哪些大数据技术？您对这些技术满意的地方和不满意的地方分别有什么？

陈一昕：联通目前使用的主要大数据技术集中在存储与查询领域，典型代表是流量日志查询系统，这套系统是以Hadoop架构为底层技术架构，应用层以Hbase为支撑。这套技术很好的支持了目前联通的上网流量查询工作，也切实为联通降低了运营成本，效果显著，但是Hadoop本身所能进行的数据挖掘和分析工作却比较有限，一定程度上限制了联通在大数据领域的进一步发展。

CSDN：根据您的了解，目前类似的企业中，在数据方面，遇到的最大困难是什么？

陈一昕：最大的困难是大数据的分析技术与应用场景的结合，Hadoop最大的贡献是解决了大数据存储的问题，大数据“大”的问题得到了解决，可大数据要真正解决的是挖掘数据价值的问题，而这个问题不仅只是单纯的大数据技术使用问题，如何将机器学习、人工智能等几十年研究发展的成果有效结合业务场景进行数据产品创新、大数据业务创新、甚至是商业模式的创新是最困难的。

CSDN：在大数据领域，目前还有哪些技术是您正在观察和研究的，为什么您看好这些技术？

陈一昕：除了Hadoop，目前我们也跟踪各种新的大数据技术，比如基于内存的分析工具Spark、流数据分析的Stream、社交分析的GraphLab以及基于MPP架构的内存数据库等等，不过最关心的仍然是大规模数据挖掘的算法以及降维技术，不论采用何种工具或者架构，最终都需要靠先进的算法来支撑。分布式处理仅仅能够带来常数级的加速，而算法所来带来的效率提高是可以是多项式级甚至指数级的。所以，实际中许多复杂问题的最后解决是依赖于算法，而不仅仅是MapReduce这样的分布式架构。比如我们在2013年ICML大会上提出的MVC流形学习算法，就是通过将N三次方的复杂度降到N平方的复杂度，从而将算法可以有效处理的数据集规模提高了上千倍。

另外一个重要技术是“可解释的机器学习“(Interpretable Machine Learning). 在许多应用领域中（如电商、医疗等等），我们不仅需要得到准确可靠的数据模型，还希望这些模型可以被解释、被理解，从而转化为营销、治疗等等行动决策。我们在2014年KDD大会提出的FFD分类算法就由于其在可解释性方面的一些突破而获得了最佳学生论文奖。可解释的机器学习已经得到重视，除了我们，目前哈佛大学，麻省理工学院，西雅图华盛顿大学，康奈尔大学等一些机器学习的学者也在进行相关研究。

CSDN：请谈谈您在这次大会上即将分享的话题。

陈一昕：对于大数据目前这个热门领域来说，当下的重点我认为是找到这项技术的应用突破口，这需要具备很好的行业认知以及技术实力才能够做到。我将分享两个案例一个是“搜索引擎项目”，这个项目是我们在理解行业问题的基础上利用，搜索引擎这项技术解决传统的营销问题，这个搜索引擎的一大特点是“搜人”而不是搜文档。另一个案例是“金融征信”，这个案例最大的特点是“跨界合作”，是我们同金融行业合作匹配两个行业数据运用大数据技术及算法进行个人信用评级，实现小额个人消费贷的快速审批。希望两个案例给大家带来启发。

CSDN：哪些听众最应该了解这些话题？您所分享的主题可以帮助听众解决哪些问题？

陈一昕：各行各业的大数据拥有者、技术人员、市场业务人员都可以了解这个话题，从这个话题中得到一些启发，开阔思路，我们也只是起一个抛砖引玉的作用。因为大数据应用这个领域很多时候是一种跨界行为，不同行业的思想碰撞，不同行业的数据碰撞，只有不同行业、不同从业人员的交流才能激发这项技术的发展甚至推动各个产业的发展。数据拥有者可以从我们这个话题了解如何去发挥自身的数据优势如何去攫取更大的价值，造福社会，技术人员可以参考如何将技术转化为产品，市场人员可以去了解如何开拓新的商机。

CSDN诚邀您参加中国大数据有奖大调查活动，只需回答23个问题就有机会获得最高价值2700元的大奖（共10个），速度参与进来吧！

全国大数据创新项目评选活动目前也在如火如荼进行中，详情点击这里。

2014中国大数据技术大会（Big Data Technology Conference 2014，BDTC 2014）将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年，历经七届沉淀，“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议，你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G（兼项目管理委员会成员）、Yi Liu，以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势，还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。当下门票团购还有些许优惠，预购从速。

免费订阅“CSDN大数据”微信公众号，实时了解最新的大数据进展！

CSDN大数据，专注大数据资讯、技术和经验的分享和讨论，提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点，大数据技术，大数据平台，大数据实践，大数据产业资讯等服务。

时间： 2024-10-25 17:23:06

【BDTC先睹为快】陈一昕：最关心大规模数据挖掘算法及降维技术

【BDTC先睹为快】陈一昕：最关心大规模数据挖掘算法及降维技术的相关文章

【BDTC先睹为快】陈继东：解密蚂蚁金服基于大数据的安全和风控体系

犀牛科技陈一昕：医疗的蛋糕看上去很大，但是不好切丨清华人工智能研习社

较大规模数据应用PCA降维的一种方法

轻量级大规模机器学习算法库Fregata开源：快速，无需调参

大数据时代到来百度大规模机器学习算法受追捧

【BDTC先睹为快】邹永强：腾讯Mariana深度学习平台实战细节大曝光

【BDTC先睹为快】邵铮：用大数据搞定Dropbox系统运维

【BDTC先睹为快】廖晓格：让大数据更实时和可视化

【BDTC先睹为快】介文清：NoSQL解决12306遇到的新问题