《大数据集成(1)》一导读

前 言

  当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在20世纪六七十年代编写的计算机知识体系上施教,无法把当下大数据带给我们的新思维、新知识传导给学生。
  为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。
  在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。
  丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。
  丛书特点:丛书借鉴Morgan & Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。
  丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。
  当今数据洪流席卷全球,而中国正在努力从数据大国走向数据强国,大数据时代的知识更新和人才培养刻不容缓,虽然我们的力量有限,但聚少成多,积小致巨。因此,我们在设计本套丛书封面的时候,特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅巨卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱,共同谱写出我们这个大数据时代的盛世华章。
  在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。

目 录

第1章 大数据集成的挑战和机遇
1.1 传统数据集成
1.2 大数据集成:挑战
1.3 大数据集成:机遇
1.4 章节安排
第2章 模式对齐
2.1 传统模式对齐:快速导览
2.2 应对多样性和高速性的挑战
2.3 应对多样性和海量性的挑战
第3章 记录链接
3.1 传统记录链接:快速导览
3.1.1 两两匹配
3.1.2 聚类
3.1.3 分块
3.2 应对海量性挑战
3.2.1 使用MapReduce并行分块
3.2.2 meta-blocking:修剪两两匹配
3.3 应对高速性挑战
3.4 应对多样性挑战
3.5 应对真实性挑战
3.5.1 时态记录链接
3.5.2 具有唯一性约束的记录链接

时间: 2024-09-20 06:34:29

《大数据集成(1)》一导读的相关文章

《TCP/IP路由技术(第二卷)》一导读

前 言 TCP/IP路由技术(第二卷)自从出版了<TCP/IP路由技术(第一卷)>之后,虽然Cisco Press"CCIE职业发展系列"中增加了大量新书,而且CCIE计划本身也被扩展到多个专业领域,但IP路由协议仍然是所有准CCIE们的核心基础.因此,必须透彻地对其加以理解和掌握,否则基础不牢,大厦将倾. 我在<TCP/IP路由技术(第一卷)>的前言中曾经说过,"--随着互联网络规模和复杂性的不断增大,路由问题也随即变得庞大且错综复杂".由

《TCP/IP路由技术(第二卷)》一1.4 配置EGP

1.4 配置EGP TCP/IP路由技术(第二卷) 通过以下4个基本步骤即可完成路由器上的EGP配置. 第1步:利用命令autonomous-system指定路由器的AS. 第2步:利用命令router egp启动EGP进程并指定邻居的AS. 第3步:利用命令neighbor指定EGP邻居. 第4步:指定由EGP宣告的网络. 下面的第一个案例研究将详细解释前3个配置步骤,同时也给出了步骤4的多种实现方法. 1.4.1 案例研究:EGP末梢网关 图1-10给出了一台位于AS 65502的EGP末梢

《TCP/IP路由技术(第二卷)》一1.9 配置练习题

1.9 配置练习题 TCP/IP路由技术(第二卷) 本书附录E中提供了以下配置练习题的答案. (1)图1-14中的自治系统65531是一个核心AS,请在RTA和RTB上配置EGP,要求如下: 不要将AS内的数据链路宣告给任何外部邻居. RTA将连接在其S1接口上的网络宣告给RTB:另外,要求RTA和RTB之间不能宣告其他AS间链路. RTA和RTB向其外部邻居(除了从其他自治系统学习到的网络)宣告默认路由,而且这两个网关都不得将默认路由宣告给其内部邻居. (2)例1-26给出了图1-15中RTC

《TCP/IP路由技术(第二卷)》一1.1 EGP的起源

1.1 EGP的起源 TCP/IP路由技术(第二卷)在20世纪80年代早期,构成ARPANET(现代互联网的前身)的路由器(网关)设备上都运行了一种距离向量路由协议--GGP(Gateway-to-Gateway Protocol,网关到网关协议).但是随着ARPANET的不断发展,与当今许多负责管理日益增长的互联网络的网管员一样,ARPANET的架构师们也预见到了相同的问题:现在运行的路由协议没有很好的扩展性. Eric Rosen在RFC 827中阐述了以下扩展性问题. 由于所有的网关都要知

《TCP/IP路由技术(第二卷)》一1.6 附 注

1.6 附 注 TCP/IP路由技术(第二卷)1Eric Rosen,"RFC 827:外部网关协议(EGP)". 2Linda J. Seamonson和Eric C. Rosen"RFC 888:'末梢'外部网关协议". 3D.L. Mills,"RFC 904:外部网关协议正式规范". 4J. Rekhter,"RFC 1092:EGP和新NSFNET骨干网的策略路由".

《TCP/IP路由技术(第二卷)》一1.5 检测与排除EGP故障

1.5 检测与排除EGP故障 TCP/IP路由技术(第二卷)在1.3节中已经解释了EGP为何无法应用于复杂的AS间拓扑结构,而强制性的简单拓扑结构带来了一个意外的好处,那就是EGP的故障检测和排除变得非常简单. 与其他路由协议一样,检测与排除EGP故障的第一步工作就是查看路由表.如果所请求的路由缺失或路由表中存在一条非期望路由,通过查看路由表就可以检测到问题的根源.由于EGP的度量值几乎没有任何意义,因而与其他路由协议相比,利用路由表进行EGP故障的检测和排除工作可以得到大大简化. 需要注意的是

《TCP/IP路由技术(第二卷)》一第1章 外部网关协议

第1章 外部网关协议 TCP/IP路由技术(第二卷)本章将主要讨论以下主题. • EGP的起源:本节将讨论在RFC 827(1982)中定义的外部网关协议的发展历史. • EGP的操作:本节将讨论EGP的基本操作机制,重点是EGP拓扑结构.EGP功能及EGP消息格式. • EGP的不足:本节将探讨为什么EGP不再是一种可行的外部网关协议解决方案. • 配置EGP:本节将通过4个独立的案例研究--EGP末梢网关.EGP核心网关.间接邻居和默认路由,来说明不同类型的EGP配置方法. • 检测和排除E

《TCP/IP路由技术(第二卷)》一1.7 展 望

1.7 展 望 TCP/IP路由技术(第二卷)本章不但说明了AS间路由协议的发明驱动力,也解释了EGP难以胜任该角色的原因.第2章将简要描述EGP的替代协议--边界网关协议及其操作.表1-10汇总了本章用到的所有命令.

《TCP/IP路由技术(第一卷)(第二版)》一导读

前 言 TCP/IP路由技术(第一卷)(第二版)路由技术即使在最小的数据通信网络中也是基本的要素.在某种程度上,路由技术和路由器的配置是相当简单的.但是,当网络的规模越来越大,并且越来越复杂的时候,路由选择问题就变得比较突出和难以控制了.或许,有点不恰当地说,作为一名网络系统顾问,我应该感谢当前出现的大规模路由技术难题,这些问题给了我谋生的手段.假设没有它们,"你何以为生?"这句习语可能就会不幸地成为我每天生活词汇的一部分了. Cisco认证互联网专家(CCIE)在大型网络的设计.故障

《TCP/IP路由技术(第一卷)(第二版)》一第1章 TCP/IP回顾1.1 TCP/IP协议层

第1章 TCP/IP回顾 TCP/IP路由技术(第一卷)(第二版)本章包括以下主题: TCP/IP协议层: IP包头(IP Packet Header): IPv4地址: 地址解析协议(ARP): Internet控制消息协议(ICMP): 主机到主机层. 考虑到这本书的书名是<TCP/IP路由技术>,有必要从回顾TCP/IP的基本知识开始讲起,然后再讲述如何进行TCP/IP路由选择.如果读者正在准备Cisco认证互连网专家(Cisco Certified Internetwork Exper