面向鲁棒的系统设计

前言

本来打算叫做面向异常的编程的，后来觉得可能多的是系统健壮性方面，于是改名面向鲁棒的系统设计，所谓鲁棒，鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。
平时在做业务系统的时候，尤其是最近一年多接触的超复杂系统，发现处理线上问题所占的时间越来越多，总结发现，其实这些问题大都是之前欠下的债，至于为啥欠债，大多数情况下迫于项目或者日常的时间压力，很多设计从简，业务流程考虑主流程和分支流程，异常流程关注的少，不管三七二十一，功能先上线再说，如此便导致了恶性循环。
由此，我们可以有的应对方案是啥呢，后面的项目，肯定也会是时间压力大的，那只能提升我们自身处理异常的能力了，也就是说在系统设计或者方案考虑的时候，就规避掉，提升应对经验，这样在同样的时间里面，就能够游刃有余，编写出更高质量的代码，进入良性循环阶段。

解决方案探索

大多数的新手程序员，由于编码经验的缺失，导致在代码的保护方面做的不好，随着后续编码经验的积累以及采坑次数的增加，慢慢的会更多关注在健壮性方面；
分享部分典型的案例，抽象一下，学习别人失败的教训，举一反三，来规避问题；

抽象的解决方案描述

远程资源的调用，务必考虑失败或者超时的逻辑；
业务逻辑的测试，多多模拟异常的边界情况；
数据获取类的接口，需要评估目前的数据量，后续的增长情况，以及极端情况下的量大小；
列表类的接口或者数据展示，需要考虑数据的极限情况，最大是多少，并做好保护；
批量的数据，务必需要考虑异常情况，部分失败了怎么办;

典型案例

本地缓存，加载失败，之后应用系统启动
- java local cache在高并发系统中，使用的较多，把热点的数据或者元数据存储在JVM的heap区，从而实现低延迟，但是这里就涉及到缓存数据的加载了；
- 常用的数据加载方案，一种是应用启动的时候，全部加载所有的数据，之后有增量变更的时候，再增量更新；另外一种是启动的时候不加载，在数据第一次访问的时候加载这个数据；
- 这两种方式各有优劣，但是假如选择了第一种，就需要在逻辑里面考虑，假如缓存数据加载失败了，怎么办，是应用系统直接启动失败，还是代码逻辑里面冗余懒加载的机制，如果不考虑，又一个坑留下了；
分布式缓存和数据库中的数据一致性考虑
- 目前互联网级的系统，缓存基本上是架构上不可或缺的，引入缓存，必然就会面临数据一致性问题，举个例子，加入同一份数据，在DB和缓存中都有，这时候用户在页面操作，变更数据，需要变更缓存和DB，需要同时生效，如果update 的sql执行成功，之后缓存变更的时候超时了导致变更失败，这时候，整体应该返回用户失败，然后DB的数据回滚掉。
- 如果是没有经验的开发，可能就DB更新，然后缓存更新，没有针对缓存更新失败或者超时做逻辑处理，本地值系统功能逻辑缺失导致；
业务操作和数据库持久化以及消息发送的一致性考虑
- 业务系统，在考虑异步解耦的时候，会引入消息系统，这时候面临了一个问题，就是业务操作和消息系统的一致性问题；
- 业务操作和消息的发送，要能够满足事务的特性，例如借助二阶段提交来实现，然后消息系统来进行重试，从而实现最终一致性的要求；
批量更新数据库的顺序问题导致的死锁
- 假如这里有个方法，是List数据的更新，在并发情况下，如果更新的SQL不做排序，会导致死锁问题，这时候需要按照唯一主键，例如id来做排序，从而保证锁占用的时候的顺序性；
- 至于为啥会有死锁问题，假如两个调用，含有相同的数据，例如都含有A和B，因为批量update占锁的时候，是行级占用，第一个线程是A-B顺序，第二个线程是B-A顺序，第一个线程占了A，第二个线程占了B，然后，然后就死锁了；
页面点击操作，可能涉及到非常复杂的业务逻辑，是否考虑异步化，引入排队机制
- 举个例子，点击一个确认按钮，背后很多业务逻辑，这时候需要用户等待的时间比较长；
- 如果存在少量数据和大量数据共同存在，切大数据量是常态的情况下，可以考虑异步化操作；
- 用户点击之后，存储任务在进行中的状态，然后后台多线程处理，处理完了之后，回写状态，页面刷新后看到最新的结果，如果不需要用户刷新就能看到结果，可以在页面做长连接或者ajax轮训；
更新数据，例如更新十条，第六条出错了，是回滚还是继续处理
- 批量操作，正常流程没有问题，一下子全部成功，但是假如其中的一条出现错误；
- 两种方案，一种是所有的数据都回滚，然后提示用户修改数据，重新提交，另外一种就是成功的提交，失败的记录下来，让用户重试失败的数据，但是失败的逻辑一定要有；
页面数据加载多个区块的数据，且部分区块获取数据的接口高延迟
- 同步加载的时候，整个页面加载的速度会慢很多，所以在做数据加载设计的时候，就要区分掉；
- 区块可以修改为异步ajax来进行加载数据；
数据导出功能，如果是非常少的数据导出，则直接导出即可，但是数据量大，就会面临各种问题
- 数据读取的时候，如果多于特定的量，是否可以分页或者多线程加载；
- 导出数据的上限限制，如果没有上限，可能出现几百万的数据，用户点击导致，由于http请求的超时机制，用户可能会重复点击，此时服务器和数据库的压力会很大；
- 数据回写，除了直接返回之外，是否可以写文件，然后直接提供给用户需要下载的文件链接；
- 平时遇到的问题大多数是，系统刚刚上线，业务数据比较少，功能能够正常，但是随着业务发展，数据越来越多，导致的问题就是无法下载下来，而如果没有做上面的优化或者保护的话，这个功能使用就会出现异常；

时间： 2024-10-02 06:45:00

面向鲁棒的系统设计的相关文章

《中国人工智能学会通讯》——11.38 在线鲁棒负荷频率控制器设计

11.38 在线鲁棒负荷频率控制器设计频率稳定是电力系统安全稳定运行的重要因素,它反映了电力系统中有功功率供需平衡的基本状态, 频率异常将会给发电机和系统的安全运行,以及用户带来极为严重的后果.然而对于电力系统而言,负荷总是不断变化的,还可能随时发生各种故障,这样导致很难建立精确的电力系统的数学模型,因此在实施负荷频率控制中[40-41] ,应该保证控制的具有良好的鲁棒性.文献 [42] 采用了变结构控制思想设计了负荷频率控制器以提高动态品质.文献 [43] 在 Riccati 方程中考虑系统

中国人工智能学会通讯——无智能，不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还存在着一些问题.我们现在看到很多道路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个交通标志牌,因为毕竟这个深度学习算法是目前最完美的,它有时候还会错过一个交通标志牌,这时候怎么办呢?我们会发现在路面上也有非常明显的视觉特征,我只要把路面的这些视觉特征识别出来进行匹配,其实是有连续的绝对的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

机器人系统设计与制作：Python语言实现3.1　什么是机器人仿真

摘要用ROS和Gazebo进行机器人仿真在上一章中,我们了解了机器人的机械设计过程,并着手设计了机器人的2D和3D模型.在这一章中,将对我们设计的机器人进行模拟仿真.在进行仿真之前,要先来了解一下机器人仿真的作用,它存在的优缺点,以及各式各样的机器人仿真软件工具. 本章中我们还将讨论机器人的运动学和动力学参数,它会有助于您了解机器人的各项功能.在讨论了这些概念之后,将确定用于机器人仿真的软件平台.我们计划是在机器人操作系统(Robot Operating System,ROS)平台下,使用G

数据挖掘训练题

单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现 B. 聚类C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准. (b)描述有多少比例的小偷给警察抓了的标准. A. Precision, Recall B. Recall, PrecisionC. Precision,

可靠的通信是物联网增长的关键所在

据技术行业研究公司Gartner表示,物联网中每天增加的"事物"多达550万件.截止2020年,预计总数将达208亿.鉴于这种爆炸式增长,检查连接所有事物并在它们之间实现通信的互联网势在必行.事实证明,在这些设备之间建立可靠的无线连接是物联网的最大挑战之一.通信系统的可靠性可以用两个关键元件的性能来定义:射频收发器和通信微控制器.本文讨论ADI公司的元件和解决方案如何能够最大程度地提高系统级可靠性,以支持对数据质量和完整性以及洞察有极高要求的高影响力应用. 现有技术还不够好面向消费电

多元化的5G：既要演进也要革命

5G将是一个全球的标准,这点与4G类似.与前4代不同的是,5G的应用十分多样化.峰值速率和平均小区频谱效率不再是唯一的要求.除此之外,体验速率.连接数.低延时.高可靠.高能效都将成为系统设计的重要考量因素.应用场景也不只是广域覆盖,还包括密集热点.机器间通信.车联网.大型露天集会.地铁等.这也决定了5G中的技术是多元的,不会像前几代的每一代都有唯一一个标志性的技术. 5G应用和关键性能指标面向移动互联网用户,未来5G的目标是达到类似光纤网速的用户体验.而对于物联网,5G系统应该支持多种应用,如

语音识别的痛点在哪，从交互到精准识别如何做？ | 硬创公开课

语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如Siri以及各种语音助手,到现在,语音识别的应用已经完成了向智能硬件以及机器人上延伸,不过,新的人机交互对硬件.算法要求更加苛刻,各企业正面临着巨大的挑战. 那么实现人机交互需要解决哪些问题?这其中的关键技术有哪些?人机交互的未来趋势如何?本期硬创公开课邀请了科大讯飞的研发主管赵艳军为大家答疑解惑.雷锋网雷锋网(公众号:雷锋网)雷锋网分享嘉宾:赵艳军,AIUI项目负责人,科大讯飞云平台研发主管,负责讯飞

阿里云智能语音交互技术实践干货分享

阿里云技术总监/研发总监陈一宁博士通过直播分享了<阿里云智能语音交互技术实践>.他首先介绍了智能语音面临的技术挑战,然后对智能语音技术做了详细介绍.其中,他主要分享了阿里云使用的BLSTM & LFR声学模型的优化过程,并对基于深度学习的自然语言理解的不同场景进行了详细分享. 以下内容根据直播视频整理而成. 阿里云智能语音概述阿里云智能语音交互=语音+自然语言处理,语音包括语音识别.语音合成.声纹等,自然语言处理包括自然语言理解.对话系统.问答系统等.阿里云智能语音团队不是一

快速了解什么是自然语言处理

1 计算机对自然语言处理的过程 1.1把需要研究是问题在语言上建立形式化模型,使其可以数学形式表示出来,这个过程称之为"形式化" 1.2把数学模型表示为算法的过程称之为"算法化" 1.3根据算法,计算机进行实现,建立各种自然语言处理系统,这个过程是"程序化" 1.4对系统进行评测和改进最终满足现实需求,这个过程是"实用化" 2 自然语言处理涉及的知识领域语言学.计算机科学(提供模型表示.算法设计.计算机实现).数学(数学模型