那些年移动App域名解析踩过的坑

一、摘要

移动应用出现域名劫持、解析结果修改生效慢、跨运营商跨地域访问问题?阿里云HTTPDNS可以解决这类问题。

二、域名解析阿喀琉斯之踵

域名解析是终端设备访问互联网的第一步,扮演着至关重要的角色。同时,域名解析服务是当前整个互联网基础设施中最脆弱的几个环节之一。移动互联网时代,由于接入智能终端数量激增,问题愈加严重。

案例1: 域名解析问题导致访问流量减半

2017年2月24日21:20-2月25日1:00之间,某App A在江苏省某ISP访问流量减半,排查后发现为递归DNS故障导致。


图1 递归DNS故障导致业务访问受害

如图1所示,正常访问期间,App业务访问大致分为四步:

  • Step 1: App发起业务域名解析
  • Step 2: 递归DNS返回域名解析结果IP
  • Step 3: App根据返回的IP向业务服务器发起请求
  • Step 4: 业务服务器返回响应,交互结束。

故障发生时,递归DNS在第二步无法返回解析结果或者返回错误的结果,导致App无法正确获取业务服务器的IP,最终业务访问受到巨大影响。

案例2: 域名解析结果修改不生效导致流量无法迁移

2016年11月中旬,由于某App B访问的节点存在服务质量方面问题,计划通过修改域名解析记录将流量切走,但由于域名解析不生效,导致流量无法调走,最终4个小时后节点服务质量恢复了业务才回归正常。


图2 域名解析不生效的恶果

如图2所示,正常访问期间,App业务访问的细化步骤可以分解成六步:

  • Step 1: App发起业务域名解析
  • Step 2: 递归DNS向权威DNS发起域名解析结果
  • Step 3: 权威DNS返回域名对应的IP给递归DNS
  • Step 4: 递归DNS给App返回域名解析结果
  • Step 5: App根据返回的IP向业务服务器发起请求
  • Step 6: 业务服务器返回响应,交互结束。

故障发生时,尽管权威DNS的解析记录已经修改,但递归DNS的解析结果却没有任何变化(常见原因是递归DNS不遵循返回结果的TTL,私自设置缓存时间),仍然返回之前的结果,导致了故障的发生。

案例3: 不能碰的递归DNS节点

2011年,某公司流量峰值期间,运维人员计划通过修改CDN的智能DNS系统配置将某一地区的部分流量从负载高的CDN节点到相对流量小的CDN节点去。实施过程中,发现某一个DNS IP对应的流量到达5G+,无法实现“调部分流量”的目标。

案例4: 客户端调度不准

客户反馈的服务质量问题往往是由于调度不准确导致的。参见以下案例。


图3 手机DNS配置不准导致跨ISP跨地域访问

根据IP地址来判断,案例中的用户位于武汉联通,而递归DNS却配置成了上海电信的DNS服务器,导致最终调度系统会按照上海电信区域来做就近接入,出现了跨运营商、跨地域访问问题。

三、问题溯源

3.1 域名劫持问题

现网上DNS解析一般基于UDP来实现,由于UDP自身的脆弱性,很容易被劫持。


图4 域名劫持原理

根据多种渠道统计数据,国内现网的周劫持率在3%-5%左右(对于某一个业务,一周之内曾经被劫持过的用户占比),部分地区部分时段的劫持率超过20%。

基于国内严重的流量劫持情况,腾讯、小米等六公司与2015年底联合声明抵制流量劫持等违法行为,但当前的形式仍不容乐观。

域名劫持的危害性在于隐蔽性强、品牌伤害严重、解决难度大。

  • 隐蔽性强。 劫持偶发,难以复现,举证难。
  • 品牌伤害严重。 劫持后往往弹出涉黄、涉赌等内容,严重伤害应用品牌。
  • 解决难度大。 确认域名劫持后,一般开发者没有渠道去解决问题。

3.2 递归DNS数量少且分布不均导致无法就近接入

在国内,递归DNS数量较少且分布不均。据统计,top 200的递归DNS承担国内90%+的DNS访问流量。这样少的递归DNS是无法承载就近接入需求的。

3.3 终端手机的Local DNS配置错误导致无法就近接入

上节的案例4就是典型的递归服务器配置错误导致的就近接入问题。

四、阿里云飞天的解决之道

4.1 小工具大本领:HTTPDNS

  • HTTPDNS原理


图5 HTTPDNS服务原理

如图5所示,HTTPDNS与传统的DNS对比起来,有以下几项功能:

  • 使用HTTP协议进行域名解析,极大增强了域名解析的安全性
  • 绕过了递归DNS服务器,最大限度防止域名劫持的发生
  • HTTPDNS服务自身利用IP地址而非域名对外提供服务,防止HTTPDNS自身域名被劫持
  • HTTPDNS想权威请求解析结果时,使用客户端IP进行解析
    • HTTPDNS优势
    • 零劫持
    • 域名解析结果修改秒级生效
    • 零延迟解析
    • 基于手机IP就近接入
    • 支持https接口
    • 批量域名解析接口
    • Android/iOS SDK

4.2 适用对象

有自己App的开发者,并且需要一定的App编码能力(接入HTTPDNS必须修改App源码)。

4.3 如何使用

  • Step 1: 开通HTTPDNS
  • Step 2: 到HTTPDNS产品控制台配置待解析域名
  • Step 3: 通过Android/iOS SDK或者HTTP API将App接入HTTPDNS服务

请参见HTTPDNS的帮助文档

五、案例

手机淘宝、支付宝钱包等阿里系App都已经接入HTTPDNS产品,治愈了上面提到的一系列顽疾。

案例中App B尝试接入阿里云飞天HTTPDNS后,在2017年2月24日的故障中,新版本未受任何影响,老版本则遇到了App A类似的问题。

时间: 2024-12-27 16:02:31

那些年移动App域名解析踩过的坑的相关文章

7个产品经理/交互新人初入职场时踩过的坑

  前车之鉴后事之师,聪明的人可以从别人的错误中学到经验.这次特意邀请了七位迈入职场不久的产品经理.交互设计师同学,分享那些他们踩过的坑.话不多说,收获有多少,就看你有多聪明啦. 当从象牙塔走入职场,新人们除了兴奋和憧憬以外更多的还有紧张和迷茫:对庞大业务的不熟悉.对工作模式和规范的不了解.对同事和前辈的生疏,都是新人成长的必经之路.有些坑,需要我们亲自踩过才能有深刻的体会,但是前车之鉴后事之师,聪明的人一样可以从别人的错误中学到经验. 这次特意邀请了七位迈入职场不久的产品经理.交互设计师同学,

详解Bypass UAC过程中踩过的坑(第一部分)

本文讲的是详解Bypass UAC过程中踩过的坑(第一部分),我目前正在尝试对Chrome沙盒进行一些改进.而作为其中的一部分,我现在正在对我的沙盒攻击Surface 分析工具进行更新,因为我想衡量我对Chrome做的事情是否具有实际的安全性.但事实上当我在进行这一切时,我一直躲不开绕过UAC的麻烦,这就导致进程出现了问题.所以为了顺便演示下我以前在UAC绕过的博文中所讲的,我决定将这一切再来一次.当我完成这一切的时候,我将使用最新版本的NtObjectManager  Powershell模块

这篇必看:那些产品、交互新人初入职场踩过的坑

当从象牙塔走入职场,新人们除了兴奋和憧憬以外更多的还有紧张和迷茫:对庞大业务的不熟悉.对工作模式和规范的不了解.对同事和前辈的生疏,都是新人成长的必经之路.有些坑,需要我们亲自踩过才能有深刻的体会,但是前车之鉴后事之师,聪明的人一样可以从别人的错误中学到经验. 这次特意邀请了七位迈入职场不久的产品经理.交互设计师同学,分享那些他们踩过的坑.话不多说,收获有多少,就看你有多聪明啦. 交互设计师 鸿影 from 阿里巴巴 1. 无脑闷头执行 过程描述:接到需求的时候,对方描述了一个具体的解决方案,就

详解Bypass UAC 过程中踩过的坑(第二部分)

本文讲的是详解Bypass UAC 过程中踩过的坑(第二部分),在第1部分完成后,我们知道普通用户在拆分令牌管理登录中处理可以获得对升级进程的Terminate,QueryLimitedInformation 和  Synchronize进程访问权限的访问.这是由于正常的用户和管理员具有默认DACL,该默认DACL授予对同一桌面上所有令牌设置的当前登录会话的执行访问权限.我们接下来的问题是如何才能提升你的权限? 在我们拥有的3个访问权限中, Terminate 和 Synchronize 都不是

游戏服务器数据库踩过的坑

     在页游服务器这块很早之前一直没有认真考虑过,大部分是之前搭建好的,我只需要按照他原来的设计继续码代码就好了.      可是这次服务器重构的过程中,还是遇到了很多始料不及的问题.那么就按照踩过的坑,去一个个讲讲分析分析.      1:起初mysql的方案    起初的设计方案是这样,用一个RolePlayer 去做玩家数据的缓存,所有玩家的数据更新到RolePlayer中,定时十秒中更新到数据库.RolePlayer大概是这样一个设计       class RolePlayer 

说说云计算时代,运维人员会踩到哪些坑?

近期在ChinaUnix论坛有一场讨论,标题是--云计算时代:运维人员会踩到哪些坑? 整个讨论过程非常活跃,大概有50个答复,运维派这就给大家整理了一些讨论的优质内容分享给大家. 背景: 在云计算领域,运维人员就是这样的存在,小到一条短信,大到一次网上交易,只要和IT相关的业务就需要这些运维人员,没有他们在背后的支持,生活是会出大乱子的. 可是到了云计算时代,不少人说IT人要下岗了,是否真会如此呢?云计算的出现是否会使得整体行业对运维的需求萎缩了呢? 面对传统的几十台服务器时,运维人员还能手动处

Javascript之旅——第八站:说说instanceof踩了一个坑

原文:Javascript之旅--第八站:说说instanceof踩了一个坑 前些天写js遇到了一个instanceof的坑,我们的页面中有一个iframe,我在index页面中计算得到了一个array,然后需要传递到Flight页面 这个嵌套的iframe中的一个函数(SearchFlight)中,作为防御性编程,我需要在SearchFlight函数中进行参数检测,也就是判断过来的参数一 定是Array类型.   一:抛出问题 举个例子,下面有两个页面. Index.html页面 1 <!DO

phonegap开发app中踩过的那些坑

把遇到的问题列出来,如果有解决方案的,偶也会写下来,如果大家有更好解决方法的,欢迎留言噢   phonegap 2.9无法触发deviceready事件 亲们可以看下控制台有木有报错,如果有提示cordova_plugins.json 404 (Not Found) ,就在www目录下新建个空文件,命名为cordova_plugins.json就好了,cordova初始化的时候会请求这个文件,但po主还没发现这个文件有啥用,但是没有这个文件的话,cordova初始化失败,自然不会触发device

那些年使用Hive踩过的坑

1.概述 这个标题也是用血的教训换来的,希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助.打算分以下几个部分去描述: Hive的结构 Hive的基本操作 Hive Select Hive Join Hive UDF Hive的M/R 使用Hive注意点 优化及优化详情 优化总结 调优的经常手段 解决Hive问题的途径 这篇文章只是起个头,为描述其他部分做下准备.下面我赘述下Hive的结构和一些基本的操作. 2.介绍 Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一