MongoDB 哈希分片为什么数据大小不均匀？

今天接到一个用户反馈的问题，sharding集群，使用wiredtiger引擎，某个DB下集合全部用的hash分片，show dbs 发现其中一个shard里该DB的大小，跟其他的集合差别很大，其他基本在60G左右，而这个shard在200G左右？

由于这个DB下有大量的集合及索引，一眼也看不出问题，写了个脚本分析了一下，得到如下结论

somedb 下所有集合都是hash分片，并且chunk的分布是比较均匀的
show dbs 反应的是集合及索引对应的物理文件大小
集合的数据在各个shard上逻辑总大小是接近的，只有shard0占用的物理空间比其他大很多

从shard0上能找到大量 moveChunk 的记录，猜测应该是集合的数据在没有开启分片的情况下写到shard0了，然后开启分片后，从shard0迁移到其他shard了，跟用户确认的确有一批集合是最开始没有分片。

所以这个问题就转换成了，为什么复制集里集合的逻辑空间与物理空间不一致？即collection stat 里 size 与 storageSize 的区别。

mymongo:PRIMARY> db.coll.stats()
{
    "ns" : "test.coll",
    "size" : 30526664,
    "count" : 500808,
    "avgObjSize" : 33,
    "storageSize" : 19521536,
    "capped" : false,
    ....
}

逻辑存储空间与物理存储空间有差距的主要原因

存储引擎存储时，需要记录一些额外的元数据信息，这会导致物理空间总和比逻辑空间略大
存储引擎可能支持数据压缩，逻辑的数据块存储到磁盘时，经过压缩可能比逻辑数据小很多了（具体要看数据的特性，极端情况下压缩后数据变大也是有可能的）
引擎对删除空间的处理，很多存储引擎在删除数据时，考虑到效率，都不会立即去挪动数据回收删除的存储空间，这样可能导致删除很多文档后，逻辑空间变小，但物理空间并没有变小。如下图所示，灰色的文档删除表示被删除。删除的空间产生很多存储碎片，这些碎片空间不会立即被回收，但有新文档写入时，可以立即被复用。

而上述case里，集合数据先分到一个shard，然后启用分片后，迁移一部分到其他shard，就是一个典型的产生大量存储碎片的例子。存储碎片对服务通常影响不大，但如果因为空间不够用了需要回收，如何去强制的回收这些碎片空间？

数据清理掉重新加入复制集同步数据，或者直接执行resync命令（确保有还有其他的数据备份）
对集合调用 compact 命令

2017-08-03 15:42:04 update

关于 compact操作，有同学问道，问题链接

mongdb中由于删除了大量的数据，但是没有释放磁盘空间给系统，想通过compact命令来释放磁盘空间；但是对compact命令有几个疑问
1. compact命令在WiredTiger引擎上是库级别锁还是collection级别锁？
2. 执行compact命令需要多大的空余磁盘空间呢

compact 加的是DB级别的互斥写锁，同一个DB上的读写都会被阻塞
compact基本不需要额外的空间，wiredtiger compact的原理是将数据不断往前面的空洞挪动，并不需要把数据存储到临时的位置（额外的存储空间）。

参考资料

resync命令
compact命令
云数据库MongoDB版

时间： 2024-12-09 00:01:45

MongoDB 哈希分片为什么数据大小不均匀？的相关文章

Mongodb 删除添加分片与非分片表维护_MongoDB

MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的. 一.如何移除分片 1.确认balancer已经开启 mongos> sh.getBalancerState() true 2.移除分片注:在admin db下执行命令. mongos> use admin switched to db admin mon

PHP实现格式化文件数据大小显示的方法

这篇文章主要介绍了PHP实现格式化文件数据大小显示的方法,通过一个自定义函数实现针对文件大小的精确格式化,具有一定的参考借鉴价值,需要的朋友可以参考下本文实例讲述了PHP实现格式化文件数据大小显示的方法.分享给大家供大家参考.具体分析如下: 有时候我们需要在网页上显示某个文件的大小,或者是其它数据的大小数字. 这个数字往往从跨度很大,如果以B为单位的话可能是个位,如果1G则长达1073741824的数字,这个时候我们就需要根据大小来格式化,比如小于1K则以B为单位显示,小于1M则以K

分片副本-分布式存储中的数据分片和数据主副本的作用

问题描述分布式存储中的数据分片和数据主副本的作用分布式存储中需要对数据进行分片,假设一个数据到来后,分成 A, B, C三片,分别存放在不同的节点上,并且每个分片都有三个副本. 问题1:分片的作用是什么?是不是提升数据的读写速度?如果一个数据本来就很小,比如每个节点都是一个KV数据库,存放的KV键值对都不大于1KB,那还需要分片的必要吗? 当然主副本就是防止放生故障时能够继续为客户服务的. 问题2:分片和副本之间存放的节点有什么必要的关系吗?是不是一个分片的副本和其他的分片存放在同一个节点上

mysql查询数据，比较数据大小

问题描述 mysql查询数据,比较数据大小我现在碰到的问题: 在一个列的信息中查处2013年6月8日前的信息(该列值是一个varchar2类型,而且值中的第2位为年,第3位为月,第4位为日信息).而2013使用N表示(2000年开始用字母A,B.C...表示),月份超过10的用字母A,B...表示,日期超过10的也用A,B...表示我要怎么使用MYSQL语句直接查出数据呢(是mysql,不是oracle),数据可能有一百多万笔... 如:NN68KKKKKKKK这个值表示是2013年6月8号

php 将文件里面的数据大小限制为1M,超过1M则显示最近1M的数据

问题描述 php 将文件里面的数据大小限制为1M,超过1M则显示最近1M的数据 php file_put_contents生成一个文件,将文件里面的数据大小限制为1M,超过1M则显示最近1M的数据解决方案获取文件长度,如果超过1M,从文件长度-1M处读取

用java来操作mongoDB,备份mongDB中的数据

问题描述用java来操作mongoDB,备份mongDB中的数据 come on 大神如题现在想每个月把数据库中的数据导出来做备份 , 怎么用java语言来实现呢 ? 谢啦!!! 解决方案 omg 我在顶顶吧解决方案二: 写一个quartz的定时任务管理, 然后创建一个机遇每月月初几点几分执行的任务... 然后就是执行你需要的业务逻辑,如果比较复杂的话,就使用异步来实现. 最后记得生成一份日志或者报表用于查看数据备份后的一些结果输出信息... 大致的思路是这样的

web前端-怎么用js来获取网页元素，请求响应事件和返回数据大小

问题描述怎么用js来获取网页元素,请求响应事件和返回数据大小如图那样..不要使用后台,直接用jq来抓取,可不可行??领导说不能用后台语言来实现..本来用C#做好了的,现在又要重新做过解决方案 js不是有函数什么的,利用js语法应该可以的

mongodb移除分片

MongoDB的Shard集群来说,添加一个分片很简单,AddShard就可以了. 但是缩减集群(删除分片)这种一般很少用到.由于曙光的某服务器又挂了,所以我们送修之前必须把它上面的数据自动迁移到其他Shard上. 1.执行RemoveShard命令 1 db.runCommand( { removeshard: "your_shard_name" } ) 2 3 { msg : "draining started successfully" , state: &

CentOS6配置安装MongoDB及主从同步与数据备份与恢复

=== 安装.配置 === 代码如下复制代码 #下载源码包 cd /usr/local/src/mongodb wget -c http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.2.7.tgz #解压.把bin文件夹拷贝到指定目录 /usr/local/mongodb tar -xzvf ./mongodb-linux-x86_64-2.2.7.tgz cd ./mongodb-linux-x86_64-2.2.7 mkdir /u

猜你喜欢

iOS中大流中的自定义cell 技术分享

版权声明:本文为博主原创文章,未经博主允许不得转载. AppDelegate.m指定根视图 [objc] view plain copy self.window.rootViewController ...

JVM的重排序

感谢同事[沐剑]的投稿重排序通常是编译器或运行时环境为了优化程序性能而采取的对指令进行重新排序执行的一种手段.重排序分为两类:编译期重排序和运行期重排序,分别对应编译时和运行时环境. 在并发程序中, ...

网页制作奇思妙想表格也加滚动条

网页其实这个东西没什么技术含量,就是给大家提供一个给表格加滚动条的思路. 下面是源代码: <html><head><title>My table</titl ...

用CSS构建iframe效果

css iframe应用很普遍,通常的需求有两种: 1. 获取iframe效果,就是带一个滚动条,可以省不少版面.2. 要嵌一个页面,实现框架链接. 如果不方便使用iframe,可以有如下相应解决方 ...

9i新特性之Flashback Query的应用-------------针对DML误操作的恢复(1)

恢复 9i新特性之Flashback Query的应用-------------针对DML误操作的恢复作者:刘颖博时间:2003-12-29 mail:liuyingbo@126.com,请 ...

深入理解ASP中FSO的神奇功能

fso 在ASP中,FSO的意思是File System Object,即文件系统对象. 我们将要操纵的计算机文件系统,在这里是指位于web服务器之上.所以,确认你对此拥有合适的权限.理想情况 ...

ASP.NET状态管理之一(概括篇)

每次将网页发送到服务器时,都会创建网页类的一个新实例.在传统的Web编程中,这通常意味着在每一次往返行程中,与该页及该页上的控件相关联的所有信息都会丢失.例如,如果用户将信息输入到文本框,该信息将在从 ...

hibernate annoation (一加载)

一,配置文件加载 1,Configuration 如果不是annoation则可以使用Configuration configuration = new Configuration(): 使用anno ...

Win7系统如何不重装系统拆分分区

[第一步]"计算机"→右键打开"管理" [第二步]单击"磁盘管理" 开始分区拆分 [一]选择需要拆分的磁盘分区.这里以D盘为例,将其选中,右 ...

excel表头斜线设置

如下图,需要在表头A1中画表格斜线,以便制作横向为学科,纵向为姓名的成绩表. excel表格斜线制作方法1:利用绘图工具画表格斜线做法: 1.点击"视图"的"工具栏 ...

学习如何制作 404 错误页面的15个最佳案例

一个自定义的404错误页面将鼓励用户在您的网站上停留更长的时间.这种页面必须容易理解,友好(保持网站的整体感觉)以及有一些互动.你会看到下面的例子中,有的网站会在404页面中添加用户可以参与的小游戏. ...

JS实现文字向下滚动完整实例

这篇文章主要介绍了JS实现文字向下滚动的方法,以一个完整实例形式详细分析了html页面布局.css样式及对应的js滚动功能实现技巧,需要的朋友可以参考下本文实例讲述了JS实现文字向下滚动的 ...

CPU-Z在哪里下载？

CPU-Z在哪里下载?在之前的教程中,我们给大家介绍了CPU-Z这款软件的5大功能,不少网友都觉得非常好用,尤其是对于购买了组装电脑的用户来说,CPU-Z可以检测出电脑的配置,可以了解自己的电脑情 ...

windows7系统怎么卸载IIS信息服务

1.现在打开电脑的控制面板-系统和安全-管理工具中可以看到IIS服务; 2.点击开始菜单,打开电脑的控制面板; 3.控制面板窗口中查看方式为类别,然后点击下方卸载程序; 4.程序和功能 ...

iOS开发系列--绘图与滤镜全面解析

在iOS中常用的绘图框架就是Quartz 2D,Quartz 2D是Core Graphics框架的一部分,是一个强大的二维图像绘制引擎.Quartz 2D在UIKit中也有很好的封装和集成,我们日常 ...

|M| 求一个浮动DIV的width:100%的CSS写法因为body用了margin-left: 5px;margin-right: 5px; 显示出来的那个DIV不能100%大小

问题描述因为bodyCSSmargin-left:5px;margin-right:5px;然后我浮动DIV的CSS为<divid='divAjaxLoad'style='position:a ...

php 魔术方法详解_php技巧

从PHP 5以后的版本,PHP中的类就可以使用魔术方法了.其规定以两个下划线(__)开头的方法都保留为魔术方法,所以建议大家函数名最好不用__开头,除非是为了重载已有的魔术方法.PHP 将所有以 _ ...

如何将页面数据传到弹框里的文本框中

问题描述如何将页面数据传到弹框里的文本框中点击修改按钮弹出一个弹框里面有文本框如何将要修改的那一行的信息传到文本框里要弹框一出现就自动加载在里面的解决方案 http://www.jb51 ...

SQL Server数据库的存储过程中定义的临时表，真的有必要显式删除（drop table #tableName）吗？

原文:SQL Server数据库的存储过程中定义的临时表,真的有必要显式删除(drop table #tableName)吗? 本文出处:http://www.cnblogs.com/wy123/ ...

Introduction to MapKit Framework for iPhone Development

Maps are important part of our life. We use them daily to find places and directions. The MapKit fra ...

数据类型-安卓数据库操作图片存储

问题描述安卓数据库操作图片存储安卓, 我想要把图片存入数据库中,应该用什么样的类型来存储,另外这样的数据类型在代码中对应什么类型解决方案首先你要区分是存在服务器端还是客户端. 如果是客 ...

网站数据分析：SkyGlue—用GA标记用户生成点击流

中介交易 SEO诊断淘宝客云主机技术大厅最早看到SkyGlue这个工具是在Cloga博客的文章,后来经过jasseyyang的推荐,向SkyGlue的cindy申请开通了博客GA账号的试用.经 ...

网页挂马清除全流程

本文转自IT摆渡网欢迎转载,请标明出处更多文章请阅读 SEO建站教程记一次网站挂马的分析与解决全流程今天收到一位站长的反馈,告知网站又被挂马,(织梦程序真让人着急~)相信站长们都有遇到过网站被挂 ...

Oracle中的记录(Record)

一.什么是记录(Record) 由单行多列的标量构成的复合结构.可以看做是一种用户自定义数据类型.组成类似于多维数组.将一个或多个标量封装成一个对象进行操作.是一种临时复合对象类型. 记录可以直接赋值 ...

c#视频教程下载

问题描述求助,有哪些好c#视频教程下载网站?? 解决方案解决方案二:webCast解决方案三:传智播客解决方案四:http://msdn.microsoft.com/zh-cn/dd796167. ...

苹果推出iOS 8最新测试版beta 3

腾讯科技讯 7月8日,根据科技博客9to5 Mac报道,苹果周一推出了iOS 8最新测试版beta 3,新增了WiFi通话功能.今后,安装了该版本的T-Mobile网络的iPhone用户可以享受高质量 ...

spring mvc-Spring mvc结合Hibernate中实现ajxa出现懒加载异常

问题描述 Spring mvc结合Hibernate中实现ajxa出现懒加载异常我要实现一个选择省份加载城市列表,然后选择城市加载区列表的操作,但是我在加载城市的时候一直报懒加载异常,session ...

窗体-BarManager PopupMenu

问题描述 BarManager PopupMenu DevExpress 之从我加入了一个BarManager运行窗体后,点GridControl表头鼠标右键,怎么ContextMenuStrip 和 ...

互联网的创业就是属于年轻人的

中介交易 SEO诊断淘宝客站长团购云主机技术大厅创业者的平台会有不同作为创业者,我们承认人的平台确实是有一点不一样.我们知道李泽楷,在2000年他一天之内赚的钱相当于他爸一辈子赚的钱,但是没 ...

c++-iOS开发：：更新的xcode7.3，项目里边有C++，报这个错误，不影响运行，真机测试？

问题描述 iOS开发::更新的xcode7.3,项目里边有C++,报这个错误,不影响运行,真机测试 ? 解决方案 link 优化等警告直接真机测试吧

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.024 s.