分布式系统的那些事儿(五) - 容错与故障

我们都经历过巨石应用,单一应用某个功能诱发的故障导致整个站点挂掉,任何人都无法访问,只能一一排错再部署上线,这样造成的影响就是用户的流失。而分布式应用就没有这样的问题,就算某个节点出现故障,那么主备切换,替换主节点,整个系统还是照样运行,完全没有访问不了的现象。

要使系统达到一定的容错性,那么

首先要实现的就是高可用,最简单的就是进行节点集群化,使用心跳机制让好的节点替换坏的节点。

其次要保证系统的稳定性,如果运维有事没事上去重启一次,这样也不太好吧(其实很多应用在一开始都是每周重启一次的)

然后整个系统平台的安全性当然要提高,比如防CSRF攻击,防IIS攻击等等,安全性一旦提高系统崩溃的几率也相应降低。

最后就是系统的可维护性,这个在我看来是最高级别的,一旦系统难以维护,那么开发人员以及运维人员的工作量是巨大的,甚至会出现有人不想维护而离职不干,这都是会发生的情况,所以一个系统的可维护性非常考验架构师的能力。

对于故障的分类有代码级别的,也有硬件方面的,硬件的故障咱们姑且不说,而代码方面的故障我们要做的就是日志分析了,设置好日志级别,在很多发生业务的地方会产生大量的日志,这个时候就需要ELK来进行分析了,通过日志来解决代码放的bug,也是必要的。

时间: 2024-10-08 21:54:55

分布式系统的那些事儿(五) - 容错与故障的相关文章

手机用五年出故障维修难买配件

维修不难,可就是买不到配件你遇到过这种情况吗?你觉得手机是否该具有终身维修权? 买不到手机配件,难道我就成废品? 维修不难,可就是买不到配件 你遇到过这种情况吗?你觉得手机是否该具有终身维修权? 重庆 (记者 喻亚)五年前,家住沙坪坝的侯大爷在三峡广场一通讯卖场买了一款科健K168型号的手机.用久了,习惯了,有感情了,侯大爷舍不得换,可就在上个月,手机显示屏白屏了. 由于已过保修期,侯大爷无法从品牌商家处得到维修的服务."我手机里面有很多重要的资料."侯大爷想把手机修好,把资料导出来.

读研的那些事儿(五)

        在这篇文章中要简单地介绍一下我最初的四位室友.基于众所周知的原因,我将它们的名字用字母表示.           我本以为同师门的几个人会被分在同一个宿舍,但后来才知道情况不总是这个样子的.           我到宿舍后首先见到的是LJZ和LCH同学.LJZ同学来自福建福州,是本校计算机专业考上来的,可谓是"科班出生".他给我的第一印象就是说话不多,有点儿高傲.我记得当时我把<世界因你不同>那本书给他看,他翻了一下就还给我了,什么话也没有说,我想他不是很感

分布式系统的那些事儿(一)

巨石应用在如今互联网+时代逐渐淘汰,而分布式系统,集群,微服务可谓现在的流行趋势.那么近期花点时间来讲讲分布式系统吧. 什么是分布式系统,很多人一直不理解,只知道把系统分布式部署就行了,但是没有做过这样的系统,也没在里面写过代码,当然连部署都不知道,那么就更加的模糊了. 笼统而言,分布式系统从软件上来讲,对于用户来说是一个不可分割的整体.从硬件上讲就是多台独立的服务器.举个栗子,我们在访问淘宝的时候,我们不会去关心淘宝后台代码是怎么实现的,是如何部署的,我们唯一想要的就是完成购物流程,买到心仪的

分布式系统的那些事儿(二) - 线程与进程

线程和进程在之前的文章有讲过,这里简单再说一下吧.   进程,一个程序可以称为一个进程 线程,一个程序中包含多个线程,线程的集合体可以称之为进程. 同一进程中的不同线程可以互相影响,也可以并行操作(并发),进程占用系统资源,不同进程中的线程互相不影响.   ​举个栗子,玩家在玩魔兽争霸,让3个不同的农民工分别去采矿伐木打野,这是3个不同的线程:此时玩家还在聊QQ,QQ中播放着音乐,那么QQ这个进程中的线程不影响魔兽中的线程. 在并发中涉及到最多的还数线程了.多线程操作可以并行执行很多相同的动作,

分布式系统的那些事儿(六) - SOA架构体系

有十来天没发文了,实在抱歉!最近忙着录视频,同时也做了个开源的后台管理系统LeeCX,目前比较简单,但是后续会把各类技术完善.具体可以点击"原文链接". 那么今天继续说分布式系统的那些事. 我们现在动不动就讲分布式吧?那么SOA是不是必须得聊一聊呢? 面向服务的架构,简称SOA,他是基于服务组件的,把原来那种一个大型应用程序的不同的功能拆分为一些接口,通过这些接口串联起来. 这么做的好处是: 1.重用性大大提高 2.明确了接口的服务定义规则 3.定义了自家公司的api标准 4.降低系统

分布式系统的那些事儿(三) - 系统与系统之间的调用

系统与系统之间的调用通俗来讲,分为本地同一台服务器上的服务相互调用与远程服务调用,这个都可以称之为RPC通信.浅白点讲,客户访问服务器A,此时服务器要完成某个动作必须访问服务器B,服务器A与B互相通信,相互调用,A访问B的时候,A挂起,等待B的响应,B响应返回相应的数据个A,A再返回给用户,这就是一个很简单的栗子. 举个常见栗子,用户上传图片,用户上传图片首先会经过自身的服务器,然后再对图片进行处理,此时图片处理放在图片服务器中进行,那么我们只需要调用图片服务器提供的接口即可,然后等待响应返回的

分布式系统的那些事儿(七) - 微服务架构体系

微服务的出现,标志了又一个新的里程碑,似乎你不知道微服务就代表你好像out了一样.微服务是业务服务化,将SOA更好的延续了下去.配合restful也能够更好的提供api接口. 简单来说就是微服务把各种各样的小的服务区分开来当做一个当度的应用跑在服务器上,并且他的通信机制也是十分简单的,使用rest或者rpc都行.他们可以各自对自己的业务进行处理.各个服务直接可以用不同的语言开发,这样提高了不同技术团队之间的职能. 微服务的特点: 1.微服务的组件是以服务的形式存在的. 2.由各个不同的业务来切分

交换机出故障最可能的几个原因分析

  交换机出故障了,不知道如何下手?如何维修,下面笔者为大家推荐一篇总结的非常详细的交换机可能发生故障的原因,助您一个个地排查,希望对您有帮助. 在日常的网络故障维护中我们接触最多的设备就是交换机,特别是接入层交换机,它是连接用户和交换路由设备的桥梁,交换机作为一个中间体,对我们排查网络故障起到非常重要的作用,如果我们对它本身的故障有个了解,或许就能帮助我们更快.更准的发现和解决问题,现就底层交换机故障排除和大家分享下. 交换机故障问题大致包括物理层故障.端口协商以及自环问题.Vlan问题.设备

深度解析win7旗舰版下鼠标的五种常见问题已经解决技巧

  鼠标:计算机的繁琐的指令英文名,鼠标的使用是为了使计算机的操作更加简便"Mouse"滑鼠).鼠标的标准称呼应该是"鼠标器"一种输入设备,分有线和无线两种,也是计算机显示系统纵横坐标定位的指示器,因形似老鼠而得名"鼠标"(港台作,快捷,来代替键盘那. 鼠标大家想必都很熟悉吧,它是使用电脑是必备的设备之一,而只要是电子产品,使用时间一长就很容易出现一些小问题,就比如鼠标在电脑使用中起着十分重要作用,只要电脑一开启就会使用到鼠标,但是在使用过程中可