OssImport系列之一——架构

相关文章:OssImport系列之二——单机部署
相关文章:OssImport系列之三——分布式部署

概述

OssImport工具可以将本地、其它云存储的数据迁移到OSS,它有以下特点:

  • 支持的丰富的数据源,有本地、七牛、百度BOS、AWS S3、Azure Blob、又拍云、腾讯云COS、金山KS3、HTTP、OSS等,并可根据需要扩展;
  • 支持断点续传;
  • 支持流量控制;
  • 支持迁移指定时间后的文件、特定前缀的文件;
  • 支持并行数据下载、上传;
  • 支持单机模式和分布式模式,单机模式部署简单使用方便,分布式模式适合大规模数据迁移。

架构

OssImport是基于 master-worker 的分布式架构,如下图:

Master --------- Job --------- Console
    |
    |
   TaskTracker
    |_____________________
    |Task     | Task      | Task
    |         |           |
Worker      Worker      Worker

其中:

  • Job:用户通过提交的数据迁移任务,对用户来说一个任务对应一个配置文件job.cfg
  • Task:Job按照 数据大小文件个数 可以分成多个 Task ,每个 Task 迁移部分文件。Job切分成Task的最小单位是文件,同一个文件不会切分到多个Task中。

OssImport各模块说明,如下表:

角色 说明
Master 负责Job切分成Task,按照数据大小和文件个数分解成Task,数据大小/文件个数是可配置的 sys.properties 中配置。 Job切分成Task详细过程是:Master先从 本地/其它云存储 中遍历出完整的待迁移的文件列表,然后 按 照 数据大小文件个数 把完整的文件列表切分成Task,每个Task负责部分文件的迁移或校验。
Worker 负责Task的文件迁移和数据校验,从数据源上拉取指定文件,并上传到OSS的指定目录,迁移的数据源和OSS的配置在job.cfglocal_job.cfg中指定;Worker数据迁移支持限流、指定Task并发数,在sys.properties 配置。
TaskTracker 简称Tracker,负责Task的分发、Task状态跟踪。
Console 负责与用户交互,接受命令显示结果,支持的系统管理命令 deploy/start/stop ,Job管理命令 submit/retry/clean

部署方式

OssImport有 单机模式分布式模式 两种部署方式。对于小于 30TB 的小规模数据数据迁移,单机模式即可完成。对于大规模的数据迁移,请使用分布式模式。

单机

Master、Worker、Tracker、Console运行在一个机器上,系统中有且只有一个Worker。我们对单机模式的部署和执行进行了封装优化,单机部署和执行都很简单。点击模式下Master、Worker、TaskTracker、Console四个模块统一打包成ossimport2.jar

单机模式下文件结构如下:

ossimport
├── bin
│   └── ossimport2.jar  # 包括Master、Worker、Tracker、Console四个模块的总jar
├── conf
│   ├── local_job.cfg   # 单机Job配置文件
│   └── sys.properties  # 系统运行参数配置文件
├── console.bat         # Windows命令行,可以分布执行调入任务
├── console.sh          # Linux命令行,可以分布执行调入任务
├── import.bat          # Windows一键导入,执行配置文件为conf/local_job.cfg配置的数据迁移任务,包括启动、迁移、校验、重试
├── import.sh           # Linux一键导入,执行配置文件为conf/local_job.cfg配置的数据迁移任务,包括启动、迁移、校验、重试
├── logs                # 日志目录
└── README.md           # 说明文档,强烈建议使用前仔细阅读

提示

  • import.bat/import.sh为一键导入脚本,修改完local_job.cfg后可以直接运行;
  • console.bat/console.sh为命令行工具,可以用于分布执行命令;
  • 脚本或命令时请在ossimport目录下执行,即 *.bat/*.sh 的同级目录。

分布式

分布式模式下可以启动多个Worker执行迁移数据,Task平均分配到Worker上执行,一个Worker执行多个Task。每一个机器上只能启动一个Worker。workers配置的第一个 Worker 上会同时启动 MasterTaskTrackerConsole 也要在该机器上运行。

分布式模式下文件结构如下:

ossimport
├── bin
│   ├── console.jar     # Console模块jar包
│   ├── master.jar      # Master模块jar包
│   ├── tracker.jar     # Tracker模块jar包
│   └── worker.jar      # Worker模块jar包
├── conf
│   ├── job.cfg         # Job配置文件模板
│   ├── sys.properties  # 系统运行参数配置文件
│   └── workers         # Worker列表
├── console.sh          # 命令行工具,目前支持只Linux
├── logs                # 日志目录
└── README.md           # 说明文档,强烈建议使用前仔细阅读

提示

  • 分布式命令行工具 console.sh 目前只支持Linux,Windowns暂不支持。

配置文件

单机模式下有两个配置文件sys.propertieslocal_job.cfg,分布式模式下有三个配置文件sys.propertieslocal_job.cfgworkers。其中local_job.cfgjob.cfg是完全一样的,只是名称不一样,workers是分布式环境先独有的。

sys.properties

系统运行参数。

字段 含义 说明
workingDir 工作目录 工具包解压后的目录。单机模式下请不要修改此选择,分布式模式下每个机器的工作目录必须相同。
workerUser Worker机器的ssh用户名 如果配置了 privateKeyFile ,则优先使用privateKeyFile;如果没有配置privateKeyFile,则使用workerUser/workerPassword。单机模式不需要修改此项。
workerPassword Worker机器的ssh用户密码 单机模式不需要修改此项。
privateKeyFile public key文件路径 如果已经打通了ssh通道,则可以指定public key文件路径,否则为空。如果配置了privateKeyFile,则优先使用privateKeyFile;如果没有配置privateKeyFile,则使用workerUser/workerPassword。 单机模式不需要修改此项。
sshPort ssh端口 默认22,一般情况无需更改 单机模式不需要修改此项。
workerTaskThreadNum Worker执行Task的最大线程数 该参数机器的内存/网络有关,建议值 60 。物理机可以适当加大,比如 150 ,如果网络已经打满,请不要再加大。如果网络较差,请适当降低,比如 30,防止请求竞争网络造成大量请求超时。
workerMaxThroughput(KB/s) worker数据迁移的流量上限 该值能起到限流作用,默认0表示不限流。
dispatcherThreadNum Tracker的Task分发与状态确认的线程数 默认值一般够用,没有特殊需要请不要修改默认值。
workerAbortWhenUncatchedException 表示遇到未知错误时是跳过还是Abort 默认跳过。
workerRecordMd5 在OSS中是否使用元数据 x-oss-meta-md5 记录迁移文件MD5值,默认不记录 主要用于用户使用MD5校验文件数据。

job.cfg

数据迁移任务配置,local_job.cfg和job.cfg的配置项是完全一样的,只是名称不一样。

字段 含义 说明
jobName 任务名字,字符串 任务的唯一标识,命名规则 [a-zA-Z0-9_-]{4,128}, 支持提交多个名字不同的任务。如果重复提交同名任务会提示任务已存在,清理( clean )同名任务前, 无法提交同名任务。
jobType 任务类型,字符串 两类 importaudit ,默认 importimport ,执行数据迁移操作并校验迁移数据的一致性; audit ,仅进行数据一致性校验。
isIncremental 是否打开增量迁移模式,布尔类型 默认值false;如果设为true,会每间隔incrementalModeInterval(单位秒)重新扫描一次增量数据,并将增量数据迁移到OSS。
incrementalModeInterval 增量模式下的同步间隔,整形,单位秒 isIncremental=true时有效。可配置的最小间隔为900秒,不建议配置成小于 3600秒 的值,会浪费大量请求,造成额外的系统开销。
importSince 迁移文件的最后修改时间,整形,单位秒 如果文件的最后修改(LastModified Time)在 importSince 之前(包含)将被迁移,如果文件的最后修改(LastModified Time)在 importSince 之后将不被迁移;importSinceUnix时间戳,即自1970年1月1日UTC零点以来的秒数,通过命令date +%s获取;默认为0,表示迁移全部数据。
srcType 同步源类型,字符串, 请注意大小写 目前支持localossqiniubosks3s3youpaihttpcosazure等十种类型。 local,从本地文件迁移数据到OSS,该选项只需要填写srcPrefix不需要填写srcAccessKey,srcSecretKey,srcDomain,srcBucketoss,从一个 bucket 迁移到另一个 bucketqiniu,从七牛云存储迁移到OSS;bos,从百度的云存储迁移到OSS;ks3,从金山云存储迁移到OSS;s3,从 AWS S3 迁移到OSS;youpai,从又拍云迁移到到OSS;http,通过提供的HTTP链接列表迁移数据到OSS;cos,从腾讯云存储 COS 迁移到OSS;azure,从 Azuer Blob 迁移到OSS。
srcAccessKey 源AccessKey,字符串 如果 srcType 设置为ossqiniubaiduks3s3,填写数据源的 AccessKeylocalhttp,该项不需要填写;youpaiazure则填写用户名AccountName。
srcSecretKey 源SecretKey,字符串 如果 srcType 设置为ossqiniubaiduks3s3,填写数据源的 SecretKeylocalhttp,该项不需要填学;youpai,填写操作员密码;azure,填写AccountKey。
srcDomain 源Endpoint 如果 srcType 设置为localhttp,该配置项不需要填;oss,从控制台获取的域名,非带bucket前缀的二级域名,列表请参看域名列表; qiniu,从七牛控制台获取的对应bucket的域名;bos,百度BOS域名,如http://bj.bcebos.comhttp://gz.bcebos.comks3,金山ks3域名,如http://kss.ksyun.comhttp://ks3-cn-beijing.ksyun.comhttp://ks3-us-west-1.ksyun.coms3, AWS S3各 region 的域名请参考S3 Endpointyoupai,又拍云域名,如自动判断最优线路http://v0.api.upyun.com 或电信线路http://v1.api.upyun.com 或联通网通线路http://v2.api.upyun.com 或移动铁通线路http://v3.api.upyun.comcos,腾讯云填写bucket所在的区域,比如华南园区:gz、华北园区:tj、华东园区:sh;azure,Azure Blob连接字符串中的 EndpointSuffix ,如core.chinacloudapi.cn
srcBucket 源bucket名字或container名称 如果 srcType 设置为localhttp,不需要填写;azure,Azure Blob填写container名称,其它填写bucket名称。
srcPrefix 源前缀,字符串,默认为空 如果srcType=local,填写本地目录,需要完整路径,以 / 进行分割并且以 / 结尾,如 c:/example//data/example/srcTypeossqiniubosks3youpais3,则为待同步object的前缀,不包括bucket名称,如data/to/oss/同步所有文件srcPrefix设置为空
destAccessKey 目的AccessKey,字符串 OSS的 AccessKeyID,请到阿里云控制台查看。
destSecretKey 目的SecretKey,字符串 OSS的 AccessKeySecret,请到阿里云控制台查看。
destDomain 目的endpoint,字符串 从控制台获取,非带bucket前缀的二级域名,列表请参看域名列表。
destBucket 目的bucket,字符串 OSS的bucket名称,不需要以 / 结尾。
destPrefix 目标前缀,字符串,默认为空 目标前缀,默认为空,直接放在目标bucket下;如果要将数据同步到oss的某个目录下,请以 / 结尾,如data/in/oss/;注意oss不支持以 / 作为文件的开头,所以destPrefix请不要配置以 / 做为开头。一个本地文件路径为srcPrefix + relativePath的文件,迁移到oss的路径为destDomain/destBucket/destPrefix + relativePath;一个云端文件路径为 srcDomain/srcBucket/srcPrefix + relativePath的文件,迁移到oss的路径为destDomain/destBucket/destPrefix + relativePath
taskObjectCountLimit 每个 Task 最大的文件数,整型,默认10000 该配置项会影响到任务执行的并行度,一般配置为 总文件数/Worker总数/迁移线程数(workerTaskThreadNum) ,最大值不要超过50000,如果不知道总文件数,请使用默认值。
taskObjectSizeLimit 每个 Task 最大数据量,整型,单位bytes,默认1GB 该配置项会影响到任务执行的并行度,一般配置为 总数据量/Worker总数/迁移线程数(workerTaskThreadNum),如果不知道总数据量,请使用默认值。
scanThreadCount 并行扫描文件的线程数,整型,默认1 该配置项与扫描文件的效率有关,没有特殊需求请不要修改
maxMultiThreadScanDepth 最大允许并行扫描目录的深度,整型,默认1 默认值1表示在顶级目录间并行扫描; 没有特殊需求不要修改,随意配置过大值会导致任务无法正常运行
appId 腾讯云COS的 appId ,整型 srcType=cos时有效。
httpListFilePath HTTP列表文件的绝对路径,字符串 srcType=http时有效,源为HTTP链接地址时,需要提供内容为HTTP链接地址文件的绝对路径,如c:/example/http.list;该文件中的HTTP链接需要划分成两列,以空格分开,分别代表前缀和上传到OSS后的相对路径。例如c:/example/http.list文件内容如下:
http://127.0.0.1/aa/    bb.jpg
http://127.0.0.1/    cc/dd.jpg
两行,迁移到OSS的文件名分别是 destPrefix + bb.jpgdestPrefix + cc/dd.jpg

workers

workers是分布式模式先独有的,每个IP一行,如:

192.168.1.6
192.168.1.7
192.168.1.8

提示:

  • 上述配置情况下,192.168.1.6上会启动 MasterWorkerTaskTrackerConsole 也需要在该机上执行。
  • 多个 Worker 机器的用户名、登录方式、工作目录请确保相同。

运行环境

  • Java 1.7及以上

相关文章:OssImport系列之二——单机部署
相关文章:OssImport系列之三——分布式部署

时间: 2024-11-16 13:53:43

OssImport系列之一——架构的相关文章

OssImport系列之五——常见问题及排除

相关文章:OssImport系列之一--架构 1. UnsupportedClassVersionError异常 执行命令时异常: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/aliyun/ossimport2/OSSImport2 : Unsupported major.minor version 51.0 at java.lang.ClassLoader.defineClass1(Na

OssImport系列之三——分布式部署

相关文章:OssImport系列之一--架构 下载 分布式部署目前只支持Linux,Windows暂不支持. 分布式版本下载地址 ossimport-2.2.1.tar.gz ,下载到本地后,使用命令 tar -zxvf ossimport-2.2.0.tar.gz -C $HOME/ossimport 解压,解压后的文件结构如下: ossimport ├── bin │   ├── console.jar # Console模块jar包 │   ├── master.jar # Master模

OssImport系列之二——单机部署

相关文章:OssImport系列之一--架构 下载 单机部署支持Linux.Windows. 单机版本下载地址 ossimport-2.2.1.zip ,下载到本地后,使用工具或命令unzip,解压后的文件结构如下: ossimport ├── bin │   └── ossimport2.jar # 包括Master.Worker.TaskTracker.Console四个模块的总jar ├── conf │   ├── local_job.cfg # Job配置文件 │   └── sys.

OssImport系列之四——最佳实践

相关文章:OssImport系列之一--架构 本文主要介绍,OssImport在典型场景下应用,典型需求的实现. 单机与分布式 OssImport有 单机模式 和 分布式模式 两种部署方式.对于小于 30TB 的小规模数据数据迁移,单机模式即可完成.对于大规模的数据迁移,请使用分布式模式. 分时限流 Worker有限流功能,通过修改配置文件sys.properties的配置项workerMaxThroughput(KB/s)实现,该配项不是动态生效的,修改后需要重启服务才能生效.分布式部署情况下

JUnit 5系列之架构体系介绍

现在,我们已经知道了 如何配置 JUnit 5 环境 及 如何写一些测试,接下来就来看一点封面下的内容吧.本篇我们将讨论 JUnit 5 的架构体系,以及它之成形如此的原因. 概述 本文章是这个 JUnit 5 系列的一部分: 环境搭建 基础入门 架构体系 扩展模型(Extension Model) 条件断言 注入 动态测试 ... (如果不喜欢看文章,你可以戳这里看我的演讲,或者看一下最近的 vJUG 讲座,或者我在 DevoxxPL 上的 PPT. 本系列文章都基于 Junit 5发布的先行

ENode框架Conference案例分析系列之 - 架构设计

Conference架构概述 先贴一下Conference案例的在线地址,UI因为完全拿了微软的实现,所以都是英文的,以后我有空再改为中文的. Conference后台会议管理:http://www.enode.me/conference Conference前台预定座位:http://www.enode.me/registration ENode论坛开源案例:http://www.enode.me/post ENode开源项目地址:https://github.com/tangxuehua/e

Adaptec 5Z系列产品面世

微软雅黑,sans-serif; font-size:10.5pt">Adaptec公司发布了Adaptec 5Z系列Unified Serial (SATA/SAS) RAID控制卡系列.这些高性能控制卡的发布集中了业内首个基于闪存的零维护缓存保护(Zero-Maintenance Cache Protection)模块,数据中心经理在断电或者驱动器故障情况下可通过它实施数据保护的单控制卡方案.现有一代基于锂电池的缓存设备在未来很可能会被Adaptec RAID 5Z系列设计所取代.整体

提前认识软件开发(1) 序言

序言 正式踏上软件开发岗位已经将近两年了,经历了很多,也学到了很多."万事开头难",学生转变为职业人的过程,恰似茧化成蝶的过程. 1.为什么要写作本系列? 在工作的过程中,我发现我们在学校里面学到的很多东西片面肤浅,根本达不到岗位的要求.像编码规范.研发流程等等学校里几乎不提及的知识,在实际的软件开发项目中却恰恰是异常的重要. 在学校里面,我们欠缺的教育主要包括以下方面: 第一,对编码规范的要求.计算机编程课上,老师只要求学生能够编写程序实现既定的功能即可,几乎不会对编码规范提出要求,

深入认识酷睿2处理器

每个人在新购买电脑的时候,第一件事情就是选择适合自己的处理器,他们会花尽心思从各大电脑网站搜索处理器的资料,经过千辛万苦后,终于把处理器定型 后,一台新电脑的基本框架也就浮出水面了.可见,处理器在电脑中的重要性.处理器技术的每一次改革总是那么吸引人的,它的发展甚至关乎到整个电脑领域的兴 衰,当中起着重要作用的是处理器的制造厂商,他们使得处理器的技术和市场发生了翻天覆地的变化,站在电脑领域的最前端,引领着整个电脑领域的发展. 经过多年的发展,现在在处理器这个巨大的森林只剩下了AMD和INTEL这两