Tachyon简介及目前可用性分析

简介

翻译tachyon wiki上的介绍

Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件”。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。

使用

鉴于Tachyon也是AMP实验室开发的项目,属Spark整个生态环境里的一部分,原本打算尝试让Spark/Shark在Tachyon上跑,看看速度/性能有没有一些提升。

Tachyon目前发布的release版本是0.2的,支持CDH3。支持CDH4的tachyon-0.3版本还未发布,不过可以在0.3-branch上下载到,需要自己编译打包,依赖的jdk是1.7的。想要部署cluster,让Spark和Shark在上面跑的话,可以参考下面几份wiki,

https://github.com/amplab/tachyon/wiki/Running-Tachyon-on-a-Cluster
https://github.com/amplab/tachyon/wiki/Running-Spark-on-Tachyon
https://github.com/amplab/tachyon/wiki/Running-Shark-on-Tachyon

部署和使用还是很方便的,可以用

./start.sh SudoMount

启动master和所有workers,然后在webui上看到worker情况以及FileSystem内已经存储的文件情况。

./run-tests.sh

测试文件里,写死了$MASTER_ADDRESS的端口,如果在/conf/tachyon-env.sh里修改了端口的话,需要保持一致。

可用性

最近新发布的shark-0.8,发布的pre-built版本是默认不支持tachyon的,因为shark-0.8的标配是spark-0.8,scala-2.9.3和cdh4,而tachyon的支持cdh4的0.3版本如上所述还未正式发布,所以我在shark-0.8上基于tachyon create table的时候,提示版本不支持。具体在SharkBuild.scala里可以看到编译的时候没有enable:

// Shark version
  val SHARK_VERSION = "0.8.0"

  val SPARK_VERSION = "0.8.0-incubating"

  val SCALA_VERSION = "2.9.3"

  // Hadoop version to build against. For example, "0.20.2", "0.20.205.0", or
  // "1.0.1" for Apache releases, or "0.20.2-cdh3u3" for Cloudera Hadoop.
  val DEFAULT_HADOOP_VERSION = "1.0.4"

  lazy val hadoopVersion = env("SHARK_HADOOP_VERSION") orElse
                           env("SPARK_HADOOP_VERSION") getOrElse
                           DEFAULT_HADOOP_VERSION

  // Whether to build Shark with Yarn support
  val YARN_ENABLED = env("SHARK_YARN").getOrElse("false").toBoolean

  // Whether to build Shark with Tachyon jar.
  val TACHYON_ENABLED = false

另一方面,我用shark-0.7跑的时候,会出一些奇怪的问题,在google的tachyon user上看了相关帖子,很多问题和bug都说会在0.3或者future release中解决,觉得tachyon还不够成熟和稳定,暂时还不敢继续尝试使用。至少等到0.3正式发布,再观望一下情况。

时间: 2024-10-30 23:42:18

Tachyon简介及目前可用性分析的相关文章

利用SQL SERVER 2005数据库镜像实现可用性分析_mssql2005

我们首先来看一下什么是数据镜像: 现在几乎所有的应用系统都是基于数据库的,那么数据库的负荷是比较大的,在一天24小时中,任何时间都有可能会有数据要保存到数据库,或是从数据库中读出数据.任意时刻都会有用户连接到我们的数据库服务器上,几十,几百甚至成千上万个用户来连接使用我们的数据库,那么不论是计划内的宕机还是计划外的故障都会造成一定的损失.给我们的用户或是企业带很大的损失,特别是随着数据时代的到来,用户对数据的使用提出了更高的要求,那么作为一个DBA,就要想怎么做才能将这个损失减少到最低,正是因为

关于web注册页的可用性分析

在Nielsen的可用性工程里提到可用性的其中一个原则是Errors,记得刚开博客的时候也穷举了一些关于可用性方面的文章,里面将这个errors翻译成了"少错",实际上我个人觉得(也有不少版本这么翻译)"容错"更为贴切.无论是客户端软件还是web软件,用户毕竟不是专业人员,他的操作必然不能按照程序员所设定的路线来走,那么很有可能就会发生错误,"少错"是一个很含糊的概念,怎样做到少错,如何才是少错呢?真正需要做的应该是"容错",

Ajax基础教程(1)-Ajax简介 1.4 可用性问题

前面谈到的都是用户的期望,除此以外,可用性也不能不提.Ajax方法相当新,还没有多少成熟的最佳实践.不过,标准Web设计原则还是适用的.随着时间推移,当越来越多的人开始尝试这种方法时,就会发现可能存在哪些限制,并建立适当的指导原则.也就是说,你应该让用户来指导你.根据在应用中使用Ajax的方式,你可能会动态地改变页面中的某些部分,习惯于整个浏览器刷新的用户可能不会注意到与以前相比有什么变化.这个问题引出了一些新的特性,如37signals所普及的黄褪技术(Yellow Fade Techniqu

深入理解Spark:核心思想与源码分析

大数据技术丛书 深入理解Spark:核心思想与源码分析 耿嘉安 著 图书在版编目(CIP)数据 深入理解Spark:核心思想与源码分析/耿嘉安著. -北京:机械工业出版社,2015.12 (大数据技术丛书) ISBN 978-7-111-52234-8 I. 深- II.耿- III.数据处理软件 IV. TP274 中国版本图书馆CIP数据核字(2015)第280808号 深入理解Spark:核心思想与源码分析 出版发行:机械工业出版社(北京市西城区百万庄大街22号 邮政编码:100037)

网站可用性研究:网页上的文本内容

本教程翻译自:How Usable is Your Copy? 当我们谈论网站可用性的时候,我们总会提及用户界面(UI)--按钮.标记(label).标签(tab)等的设计与布局.但是,还有一个可能会被你忽视的元素可能会把你辛辛苦苦设计的网站毁于一旦,那就是(文字)内容. 这些文字内容就是你的网站上用文本方式提及的方方面面,它涵盖了何种类型的文本内容.今天网页教学网要谈论的网站可用性分析就是关于网站的文字内容如何对访问者起到引导和告知的作用,例如:引导用户如何下载需要的文件,如何订阅你网站的Fe

转 Tachyon:Spark生态系统中的分布式内存文件系统

Tachyon是Spark生态系统内快速崛起的一个新项目. 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力.Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率. 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度在大数据平台上利用Tachyon取得的性能改善的用例,以及在实际使用Tachyon过程中遇到的一些问

探讨现代网站设计基本可用性原则

打造非凡的交互体验,设计一个可用性强的网站,对任何一个设计者来说都不失为一个雄心勃勃的目标.为了使我们的网站更加接近用户的预期,这是一个缓慢的过程,需要技巧和一系列细节性工作及一点点运气,如何让用户方便.快速地找到自己需要的服务,并用最简单的操作方法来完成操作,需要更加注重细节,细节就是您的用户会反复留意的东西,比如友好的界面.清晰的导航.完善的帮助系统.合理的信息架构.出色的视觉设计.优良的网站性能等.以下逐一讨论那些容易被忽略的用户体验基本原则,并提供实例和可用性分析. 简介 相互竞争的网站

IBM经验总结:网站设计中不可忽视的可用性原则

本文主要探讨那些容易被忽略的用户体验基本原则,并提供实例和可用性分析,关于视觉设计.信息构建及可用性分析等方面提供实用的建议.打造非凡的交互体验,设计一个可用性强的网站,对任何一个设计者来说都不失为一个雄心勃勃的目标.为了使我们的网站更加接近用户的预期,这是一个缓慢的过程,需要技巧和一系列细节性工作及一点点运气,如何让用户方便.快速地找到自己需要的服务,并用最简单的操作方法来完成操作,需要更加注重细节,细节就是您的用户会反复留意的东西,比如友好的界面.清晰的导航.完善的帮助系统.合理的信息架构.

关于隐式挖掘网站用户行为的分析

隐式挖掘网站用户行为 如何了解用户和需求 如何了解用户需求?根据用户是否主动参与分为显式与隐式两种挖掘模式,因为显式的动静比较大,有很大局限性,所以为了保证结果准确性以及提高用户接受度,一般都采用隐式. 用户的日常交互行为会产生四类关键数据:鼠标移动轨迹.链接点击分布.页面浏览流.页面停留时间.通过用户的行为能反映用户的观点,同时利用访问的网页次序可以找出网页之间的隐性关系. 收集数据 Web服务器的日志(用户会话记录) Web trends或类似的第三方共享软件(客户端分析,流量分析,可用性分