Git 常用的几种处理大型二进制文件的组件

Git大文件存储(Large File Storage,简称LFS)的目标是更好地把“大型二进制文件,比如音频文件、数据集、图像和视频”集成到Git的工作流中。众所周知,Git在存储二 进制文件时效率不高,因为:Git默认会压缩并存储二进制文件的所有完整版本,如果二进制文件很多,这种做法显然不是最优。因此,在Git仓库处理大量的二进制文件似乎是很多Git用户的瓶颈。由于Git的分散性,这意味着每个开发人员对文件的操作是变化的,对二进制文件的更改导致Git仓库文件不断变化增长。当数据文件需要恢复的时候,这就变成一个很难操作的问题。存储虚拟机映像的快照,改变其状态,并存储新的状态到Git仓库将与各自的快照的大小约为成长库的大小。如果这是你的团队每天的日常运作,你可能已经感受到来自过度肿胀Git仓库的痛苦。

本文将介绍几种常用的处理大型二进制文件的组件,旨在为你解决上述问题。

Git annex : 允许映射 Git 资料库到文件,Git annex 采用 Haskell Script 编写。

Git LFS : 一个命令行扩展和规范用于利用Git来管理大文件。其客户端采用Go开发,为Mac, Windows, Linux, and FreeBSD提供预编译好的binaries。

Git bigfiles : 提供了Python接口,允许用户处理没有存储在Git上的大文件。

优点:

Git 操作可以回滚。

可以设置文件大小的阈值,以限定“大文件”这个概念。

缺点:

存在兼容性问题。

Git fat : 可以简单的处理一些比较大的文件,而无需提交到Git。同时,Git-fat 也支持 rsync 同步处理。

优点:

使用透明

缺点:

仅支持rsync的作为后端。

Git media : 可能是可供选择的最古老的多媒体处理方案。 Git media使用类似过滤器,并支持亚马逊的S3,本地文件系统路径,SCP,ATMOS和WebDAV作为后端存储大文件。 Git media是用Ruby编写的。

优点:

支持多种后端
使用透明

缺点:

不再发展。
含糊的命令(e.g. git update-index --really refresh))。
并不完全与Windows兼容。

Git bigstore : 最初实现是作为 Git media 替代品。它支持Amazon S3的,谷歌云端存储或Rackspace公司云帐户作为后端存储二进制文件。Git bigstore 提高协同开发时的稳定性。 Git bigstore是根据Apache 2.0许可授权。Git bigstore是用Python编写,需要Python2.7以上的运行环境。

优点:

仅需要Python2.7以上运行环境

使用透明

缺点:

目前只支持基于云存储。

Git sym : 是一款通过git符号链接的进行大文件处理的软件,其目的是从修订控制中分离出庞大的文件缓存。

结论:

有多种方式来处理Git仓库大型二进制文件,其中许多人使用几乎相同的工作流程和方法来处理这些文件。然而,一些解决方案都不再积极开发,因此,选择一个有技术支持的解决方案尤为重要。如果Windows支持或透明度是一个必须具备的条件,你最好选择Git LFS,因为它会被长期支持。

====================================分割线================================
文章转载自 开源中国社区[http://www.oschina.net]

时间: 2024-07-28 19:46:10

Git 常用的几种处理大型二进制文件的组件的相关文章

网站运营:大型网站常用的五种推广方法

推广|网站运营 大型网站常用的五种推广方法   不同类型的网站,其推广方法的选择也是不同的,对于大型网站而言,那几种方法是最有效的呢?     1.搜索引擎优化:     由于大型网站的信息量非常的大,它的页面可能是上百万个页面,其每个页面都包含有相应得关键词,所以如果这些页面都能够从搜索引擎优化的角度来设计的话,将会帮助网站从搜索引擎中获得非常大的流量.比如IT.com.cn网站,目前每天能够从搜索引擎中获得几十万IP的流量.     平均而言,搜索引擎给网站带来的流量,占其新流量的75%左右

Git 常用命令收集

Git 的基本命令 现在我们有了本地和远程的版本库,让我们来试着用用Git的基本命令: git pull:从其他的版本库(既可以是远程的也可以是本地的)将代码更新到本地,例如:'git pull origin master'就是将origin这个版本库的代码更新到本地的master主枝,该功能类似于SVN的update git add:是将当前更改或者新增的文件加入到Git的索引中,加入到Git的索引中就表示记入了版本历史中,这也是提交之前所需要执行的一步,例如'git add app/mode

MySQL中优化sql语句查询常用的30种方法

本篇文章是对MySQL中优化sql语句查询常用的30种方法进行了详细的分析介绍,需要的朋友参考下   1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描. 3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以

Git常用命令(转)

目前开发的新项目使用的版本控制工具基本用的都是Git,老项目用的还是Svn,网上Git资源也很多,多而杂.我整理了一份关于Git的学习资料,希望能帮助到正在学习Git的同学. 一. Git 命令初识 在正式介绍Git命令之前,先介绍一下Git 的基本命令和操作,对Git命令有一个总体的认识 示例:从Git 版本库的初始化,通常有两种方式: 1)git clone:这是一种较为简单的初始化方式,当你已经有一个远程的Git版本库,只需要在本地克隆一份 例如:git  clone  git://git

WebService最常用的两种方法

企业级应用,主要是讲PHP5对webservice的一些实现(以下的程序可以被JAVA,NET,C等正常调用) 国内用PHP写WebService的真的很少,网上资料也没多少,公司的项目开发过程中,经历了不少这方面的东西,写出来以供大家参考 客户端 代码: 01.<?php 02.header ( "Content-Type: text/html; charset=utf-8" ); 03./* 04.* 指定WebService路径并初始化一个WebService客户端 05.

PHP-WebService的最常用的两种方法

Ping Service,博客程序提供一种通知机制,以便在第一时间将博客的更新信息发布到提供Ping Service服务的网站,写聚合的时候研究了一下 Ping Service,博客程序提供一种通知机制,以便在第一时间将博客的更新信息发布到提供Ping Service服务的网站,写聚合的时候研究了一下 先看 标准 吧 这是一个标准的Ping Service,用XMLRPC来传数据的,注释写的这么详细,代码说明就不需要了吧,PHP5开启XMLRPC方法 client.php <?php $host

搜索引擎常用的三种网站排序算法

搜索引擎如何对互联网上那么多的网站进行合适的排名?想必做站长的都想知道这一点,这是通过一套非常繁琐复杂的算法计算出来的,具体的算法想必没有几个人知道,但是最常用的三种算法还是需要大家去了解一下的. 1.词频位置加权排序算法:顾名思义是说从整个网站上的文字的位置上与出现的次数进行排序,先来说一下位置,不同的网站关键词在内容里出现与在标题里面出现时差别非常大的,搜索引擎认为标题能表现出一个网站是干什么的,如果标题里面出现了关键词要远比文章里面出现关键词重要的多的多.这就是现在大家都知道一个网站的标题

常用的两种抠图技巧 如何轻松玩转PS抠图

  常用的两种抠图技巧            一.简易抠图法 简易抠图法主要是对前背景色色差较大,特别是要抠的图与周边的图色差较大,这样一般用简易法就可抠出来,简易抠图法可以通过很多种工具来实现. 工具一.魔术棒,注意魔术棒的容差,容差是魔术棒抠图的关键,在PS CS3以上的版本新增了一个魔术棒快速选择工具,对抠简易的图形非常方便. 工具二.套索工具,有时我们也会通过套索工具中的多条形套索及磁形套索工具来抠图. 工具三.色彩范围选择法,可以通过菜单栏中的[选择]→[色彩范围],根据相似颜色来进行

常用的10种CSS BUG解决方法与技巧

最常用的10种CSS BUG解决方法与技巧-浏览器兼容教程 CSS bug是布局中最头疼的问题.我们需要兼顾各种浏览器,以期待获得一致的效果. 非常遗憾的是各厂商之间的竞争导致很多问题的存在.而IE6与IE7在很多问题上也存在着很大的差别. 轻松的解决CSS bug是我们必须掌握的技能.现在整理出最常用的12种CSS BUG解决方法以及CSS BUG类的小技巧. 希望对您的学习.工作有所帮助,如果您依然有疑问, 一. 针对浏览器的选择器 这些选择器在你需要针对某款浏览器进行css设计时将非常有用