开发一个Linux调试器(三):寄存器和内存

上一篇博文中我们给调试器添加了一个简单的地址断点。这次,我们将添加读写寄存器和内存的功能,这将使我们能够使用我们的程序计数器、观察状态和改变程序的行为。

系列文章索引

随着后面文章的发布,这些链接会逐渐生效。

  • 准备环境
  • 断点
  • 寄存器和内存
  • Elves 和 dwarves
  • 源码和信号
  • 源码级逐步执行
  • 源码级断点
  • 调用栈展开
  • 读取变量
  • 下一步

注册我们的寄存器

在我们真正读取任何寄存器之前,我们需要告诉调试器一些关于我们的目标平台的信息,这里是 x8664 平台。除了多组通用和专用目的寄存器,x8664 还提供浮点和向量寄存器。为了简化,我将跳过后两种寄存器,但是你如果喜欢的话也可以选择支持它们。x86_64 也允许你像访问 32、16 或者 8 位寄存器那样访问一些 64 位寄存器,但我只会介绍 64 位寄存器。由于这些简化,对于每个寄存器我们只需要它的名称、它的 DWARF 寄存器编号以及 ptrace 返回结构体中的存储地址。我使用范围枚举引用这些寄存器,然后我列出了一个全局寄存器描述符数组,其中元素顺序和 ptrace 中寄存器结构体相同。


  1. enum class reg { 
  2.     rax, rbx, rcx, rdx, 
  3.     rdi, rsi, rbp, rsp, 
  4.     r8,  r9,  r10, r11, 
  5.     r12, r13, r14, r15, 
  6.     rip, rflags,    cs, 
  7.     orig_rax, fs_base, 
  8.     gs_base, 
  9.     fs, gs, ss, ds, es 
  10. }; 
  11. constexpr std::size_t n_registers = 27; 
  12. struct reg_descriptor { 
  13.     reg r; 
  14.     int dwarf_r; 
  15.     std::string name; 
  16. }; 
  17. const std::array<reg_descriptor, n_registers> g_register_descriptors {{ 
  18.     { reg::r15, 15, "r15" }, 
  19.     { reg::r14, 14, "r14" }, 
  20.     { reg::r13, 13, "r13" }, 
  21.     { reg::r12, 12, "r12" }, 
  22.     { reg::rbp, 6, "rbp" }, 
  23.     { reg::rbx, 3, "rbx" }, 
  24.     { reg::r11, 11, "r11" }, 
  25.     { reg::r10, 10, "r10" }, 
  26.     { reg::r9, 9, "r9" }, 
  27.     { reg::r8, 8, "r8" }, 
  28.     { reg::rax, 0, "rax" }, 
  29.     { reg::rcx, 2, "rcx" }, 
  30.     { reg::rdx, 1, "rdx" }, 
  31.     { reg::rsi, 4, "rsi" }, 
  32.     { reg::rdi, 5, "rdi" }, 
  33.     { reg::orig_rax, -1, "orig_rax" }, 
  34.     { reg::rip, -1, "rip" }, 
  35.     { reg::cs, 51, "cs" }, 
  36.     { reg::rflags, 49, "eflags" }, 
  37.     { reg::rsp, 7, "rsp" }, 
  38.     { reg::ss, 52, "ss" }, 
  39.     { reg::fs_base, 58, "fs_base" }, 
  40.     { reg::gs_base, 59, "gs_base" }, 
  41.     { reg::ds, 53, "ds" }, 
  42.     { reg::es, 50, "es" }, 
  43.     { reg::fs, 54, "fs" }, 
  44.     { reg::gs, 55, "gs" }, 
  45. }}; 

如果你想自己看看的话,你通常可以在 /usr/include/sys/user.h 找到寄存器数据结构,另外 DWARF 寄存器编号取自 System V x86_64 ABI。

现在我们可以编写一堆函数来和寄存器交互。我们希望可以读取寄存器、写入数据、根据 DWARF 寄存器编号获取值,以及通过名称查找寄存器,反之类似。让我们先从实现 get_register_value 开始:


  1. uint64_t get_register_value(pid_t pid, reg r) { 
  2.     user_regs_struct regs; 
  3.     ptrace(PTRACE_GETREGS, pid, nullptr, &regs); 
  4.     //... 

ptrace 使得我们可以轻易获得我们想要的数据。我们只需要构造一个 user_regs_struct 实例并把它和 PTRACE_GETREGS 请求传递给 ptrace。

现在根据要请求的寄存器,我们要读取 regs。我们可以写一个很大的 switch 语句,但由于我们 g_register_descriptors 表的布局顺序和 user_regs_struct 相同,我们只需要搜索寄存器描述符的索引,然后作为 uint64_t 数组访问 user_regs_struct 就行。(你也可以重新排序 reg 枚举变量,然后使用索引把它们转换为底层类型,但第一次我就使用这种方式编写,它能正常工作,我也就懒得改它了。)


  1. auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors), 
  2.                        [r](auto&& rd) { return rd.r == r; }); 
  3. return *(reinterpret_cast<uint64_t*>(&regs) + (it - begin(g_register_descriptors))); 

到 uint64_t 的转换是安全的,因为 user_regs_struct 是一个标准布局类型,但我认为指针算术技术上是未定义的行为undefined behavior。当前没有编译器会对此产生警告,我也懒得修改,但是如果你想保持最严格的正确性,那就写一个大的 switch 语句。

set_register_value 非常类似,我们只是写入该位置并在最后写回寄存器:


  1. void set_register_value(pid_t pid, reg r, uint64_t value) { 
  2.     user_regs_struct regs; 
  3.     ptrace(PTRACE_GETREGS, pid, nullptr, &regs); 
  4.     auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors), 
  5.                            [r](auto&& rd) { return rd.r == r; }); 
  6.     *(reinterpret_cast<uint64_t*>(&regs) + (it - begin(g_register_descriptors))) = value; 
  7.     ptrace(PTRACE_SETREGS, pid, nullptr, &regs); 

下一步是通过 DWARF 寄存器编号查找。这次我会真正检查一个错误条件以防我们得到一些奇怪的 DWARF 信息。


  1. uint64_t get_register_value_from_dwarf_register (pid_t pid, unsigned regnum) { 
  2.     auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors), 
  3.                            [regnum](auto&& rd) { return rd.dwarf_r == regnum; }); 
  4.     if (it == end(g_register_descriptors)) { 
  5.         throw std::out_of_range{"Unknown dwarf register"}; 
  6.     } 
  7.     return get_register_value(pid, it->r); 

就快完成啦,现在我们已经有了寄存器名称查找:


  1. std::string get_register_name(reg r) { 
  2.     auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors), 
  3.                            [r](auto&& rd) { return rd.r == r; }); 
  4.     return it->name; 
  5. reg get_register_from_name(const std::string& name) { 
  6.     auto it = std::find_if(begin(g_register_descriptors), end(g_register_descriptors), 
  7.                            [name](auto&& rd) { return rd.name == name; }); 
  8.     return it->r; 

最后我们会添加一个简单的帮助函数用于导出所有寄存器的内容:


  1. void debugger::dump_registers() { 
  2.     for (const auto& rd : g_register_descriptors) { 
  3.         std::cout << rd.name << " 0x" 
  4.                   << std::setfill('0') << std::setw(16) << std::hex << get_register_value(m_pid, rd.r) << std::endl; 
  5.     } 

正如你看到的,iostreams 有非常精确的接口用于美观地输出十六进制数据(啊哈哈哈哈哈哈)。如果你喜欢你也可以通过 I/O 操纵器来摆脱这种混乱。

这些已经足够支持我们在调试器接下来的部分轻松地处理寄存器,所以我们现在可以把这些添加到我们的用户界面。

显示我们的寄存器

这里我们要做的就是给 handle_command 函数添加一个命令。通过下面的代码,用户可以输入 register read rax、 register write rax 0x42 以及类似的语句。


  1. else if (is_prefix(command, "register")) { 
  2.     if (is_prefix(args[1], "dump")) { 
  3.         dump_registers(); 
  4.     } 
  5.     else if (is_prefix(args[1], "read")) { 
  6.         std::cout << get_register_value(m_pid, get_register_from_name(args[2])) << std::endl; 
  7.     } 
  8.     else if (is_prefix(args[1], "write")) { 
  9.         std::string val {args[3], 2}; //assume 0xVAL 
  10.         set_register_value(m_pid, get_register_from_name(args[2]), std::stol(val, 0, 16)); 
  11.     } 

接下来做什么?

设置断点的时候我们已经读取和写入内存,因此我们只需要添加一些函数用于隐藏 ptrace 调用。


  1. uint64_t debugger::read_memory(uint64_t address) { 
  2.     return ptrace(PTRACE_PEEKDATA, m_pid, address, nullptr); 
  3. void debugger::write_memory(uint64_t address, uint64_t value) { 
  4.     ptrace(PTRACE_POKEDATA, m_pid, address, value); 

你可能想要添加支持一次读取或者写入多个字节,你可以在每次希望读取另一个字节时通过递增地址来实现。如果你需要的话,你也可以使用 process_vm_readv 和 process_vm_writev 或 /proc/<pid>/mem 代替 ptrace。

现在我们会给我们的用户界面添加命令:


  1. else if(is_prefix(command, "memory")) { 
  2.         std::string addr {args[2], 2}; //assume 0xADDRESS 
  3.         if (is_prefix(args[1], "read")) { 
  4.             std::cout << std::hex << read_memory(std::stol(addr, 0, 16)) << std::endl; 
  5.         } 
  6.         if (is_prefix(args[1], "write")) { 
  7.             std::string val {args[3], 2}; //assume 0xVAL 
  8.             write_memory(std::stol(addr, 0, 16), std::stol(val, 0, 16)); 
  9.         } 
  10.     } 

给 continue_execution 打补丁

在我们测试我们的更改之前,我们现在可以实现一个更健全的 continue_execution 版本。由于我们可以获取程序计数器,我们可以检查我们的断点映射来判断我们是否处于一个断点。如果是的话,我们可以停用断点并在继续之前跳过它。

为了清晰和简洁起见,首先我们要添加一些帮助函数:


  1. uint64_t debugger::get_pc() { 
  2.     return get_register_value(m_pid, reg::rip); 
  3. void debugger::set_pc(uint64_t pc) { 
  4.     set_register_value(m_pid, reg::rip, pc); 

然后我们可以编写函数来跳过断点:


  1. void debugger::step_over_breakpoint() { 
  2.     // - 1 because execution will go past the breakpoint 
  3.     auto possible_breakpoint_location = get_pc() - 1; 
  4.     if (m_breakpoints.count(possible_breakpoint_location)) { 
  5.         auto& bp = m_breakpoints[possible_breakpoint_location]; 
  6.         if (bp.is_enabled()) { 
  7.             auto previous_instruction_address = possible_breakpoint_location; 
  8.             set_pc(previous_instruction_address); 
  9.             bp.disable(); 
  10.             ptrace(PTRACE_SINGLESTEP, m_pid, nullptr, nullptr); 
  11.             wait_for_signal(); 
  12.             bp.enable(); 
  13.         } 
  14.     } 

首先我们检查当前程序计算器的值是否设置了一个断点。如果有,首先我们把执行返回到断点之前,停用它,跳过原来的指令,再重新启用断点。

wait_for_signal 封装了我们常用的 waitpid 模式:


  1. void debugger::wait_for_signal() { 
  2.     int wait_status; 
  3.     auto options = 0; 
  4.     waitpid(m_pid, &wait_status, options); 

最后我们像下面这样重写 continue_execution:


  1. void debugger::continue_execution() { 
  2.     step_over_breakpoint(); 
  3.     ptrace(PTRACE_CONT, m_pid, nullptr, nullptr); 
  4.     wait_for_signal(); 

测试效果

现在我们可以读取和修改寄存器了,我们可以对我们的 hello world 程序做一些有意思的更改。类似第一次测试,再次尝试在 call 指令处设置断点然后从那里继续执行。你可以看到输出了 Hello world。现在是有趣的部分,在输出调用后设一个断点、继续、将 call 参数设置代码的地址写入程序计数器(rip)并继续。由于程序计数器操纵,你应该再次看到输出了 Hello world。为了以防你不确定在哪里设置断点,下面是我上一篇博文中的 objdump 输出:


  1. 0000000000400936 <main>: 
  2.   400936:   55                      push   rbp 
  3.   400937:   48 89 e5                mov    rbp,rsp 
  4.   40093a:   be 35 0a 40 00          mov    esi,0x400a35 
  5.   40093f:   bf 60 10 60 00          mov    edi,0x601060 
  6.   400944:   e8 d7 fe ff ff          call   400820 <_ZStlsISt11char_traitsIcEERSt13basic_ostreamIcT_ES5_PKc@plt> 
  7.   400949:   b8 00 00 00 00          mov    eax,0x0 
  8.   40094e:   5d                      pop    rbp 
  9.   40094f:   c3                      ret 

你要将程序计数器移回 0x40093a 以便正确设置 esi 和 edi 寄存器。

在下一篇博客中,我们会第一次接触到 DWARF 信息并给我们的调试器添加一系列逐步调试的功能。之后,我们会有一个功能工具,它能逐步执行代码、在想要的地方设置断点、修改数据以及其它。一如以往,如果你有任何问题请留下你的评论!

你可以在这里找到这篇博文的代码。

作者:Simon Brand

来源:51CTO

时间: 2024-12-29 00:50:31

开发一个Linux调试器(三):寄存器和内存的相关文章

开发一个Linux调试器(二):断点

在该系列的第一部分,我们写了一个小的进程启动器,作为我们调试器的基础.在这篇博客中,我们会学习在 x86 Linux 上断点是如何工作的,以及如何给我们工具添加设置断点的能力. 系列文章索引 随着后面文章的发布,这些链接会逐渐生效. 准备环境 断点 寄存器和内存 Elves 和 dwarves 源码和信号 源码层逐步执行 源码层断点 调用栈 读取变量 10.之后步骤 断点是如何形成的? 有两种类型的断点:硬件和软件.硬件断点通常涉及到设置与体系结构相关的寄存器来为你产生断点,而软件断点则涉及到修

开发一个Linux调试器(一):准备环境

任何写过比 hello world 复杂一些的程序的人都应该使用过调试器(如果你还没有,那就停下手头的工作先学习一下吧).但是,尽管这些工具已经得到了广泛的使用,却并没有太多的资源告诉你它们的工作原理以及如何开发,尤其是和其它那些比如编译器等工具链技术相比而言. 此处有一些其它的资源可以参考: http://eli.thegreenplace.net/2011/01/23/how-debuggers-work-part-1 https://t-a-w.blogspot.co.uk/2007/03

开发一个Linux调试器(十):高级主题

我们终于来到这个系列的最后一篇文章!这一次,我将对调试中的一些更高级的概念进行高层的概述:远程调试.共享库支持.表达式计算和多线程支持.这些想法实现起来比较复杂,所以我不会详细说明如何做,但是如果你有问题的话,我很乐意回答有关这些概念的问题. 系列索引 准备环境 断点 寄存器和内存 ELF 和 DWARF 源码和信号 源码级逐步执行 源码级断点 堆栈展开 处理变量 高级话题 远程调试 远程调试对于嵌入式系统或对不同环境进行调试非常有用.它还在高级调试器操作和与操作系统和硬件的交互之间设置了一个很

开发一个Linux调试器(五):源码和信号

在上一部分我们学习了关于 DWARF 的信息,以及它如何被用于读取变量和将被执行的机器码与我们的高级语言的源码联系起来.在这一部分,我们将进入实践,实现一些我们调试器后面会使用的 DWARF 原语.我们也会利用这个机会,使我们的调试器可以在命中一个断点时打印出当前的源码上下文. 系列文章索引 随着后面文章的发布,这些链接会逐渐生效. 准备环境 断点 寄存器和内存 Elves 和 dwarves 源码和信号 源码级逐步执行 源码级断点 调用栈展开 读取变量 下一步 设置我们的 DWARF 解析器

开发一个Linux调试器(四):Elves和dwarves

到目前为止,你已经偶尔听到了关于 dwarves.调试信息.一种无需解析就可以理解源码方式.今天我们会详细介绍源码级的调试信息,作为本指南后面部分使用它的准备. 系列文章索引 随着后面文章的发布,这些链接会逐渐生效. 准备环境 断点 寄存器和内存 Elves 和 dwarves 源码和信号 源码级逐步执行 源码级断点 调用栈展开 读取变量 下一步 ELF 和 DWARF 简介 ELF 和 DWARF 可能是两个你没有听说过,但可能大部分时间都在使用的组件.ELF(Executable and L

开发一个Linux调试器(六):源码级逐步执行

在前几篇博文中我们学习了 DWARF 信息以及它如何使我们将机器码和上层源码联系起来.这一次我们通过为我们的调试器添加源码级逐步调试将该知识应用于实际. 系列文章索引 随着后面文章的发布,这些链接会逐渐生效. 准备环境 断点 寄存器和内存 Elves 和 dwarves 源码和信号 源码级逐步执行 源码级断点 调用栈展开 读取变量 下一步 揭秘指令级逐步执行 我们正在超越了自我.首先让我们通过用户接口揭秘指令级单步执行.我决定将它切分为能被其它部分代码利用的 single_step_instru

开发一个Linux调试器(八):堆栈展开

有时你需要知道的最重要的信息是什么,你当前的程序状态是如何到达那里的.有一个 backtrace 命令,它给你提供了程序当前的函数调用链.这篇文章将向你展示如何在 x86_64 上实现堆栈展开以生成这样的回溯. 系列索引 这些链接将会随着其他帖子的发布而上线. 准备环境 断点 寄存器和内存 ELF 和 DWARF 源码和信号 源码级逐步执行 源码级断点 堆栈展开 读取变量 之后步骤 用下面的程序作为例子: void a() {      //stopped here  }  void b() {

《嵌入式 Linux C 语言应用程序设计(修订版)》——2.4 嵌入式Linux调试器GDB的使用

2.4 嵌入式Linux调试器GDB的使用 在程序编译通过生成可执行文件之后,就进入了程序的调试环节.调试一直来是程序开发中的重中之重,如何使程序员能够迅速找到错误的原因是一款调试器的目标. GDB是GNU开源组织发布的一个强大的Linux下的程序调试工具,它是一种强大的命令行调试工具. 一个出色的调试器需要有以下几项功能. 能够运行程序,设置所有能影响程序运行的参数. 能够让程序让指定的条件下停止. 能够在程序停止时检查所有参数的情况. 能够根据指定条件改变程序的运行. 2.4.1 GDB使用

Linux调试器的工作原理(一):基础篇

这是调试器工作原理系列文章的第一篇,我不确定这个系列会有多少篇文章,会涉及多少话题,但我仍会从这篇基础开始. 这一篇会讲什么 我将为大家展示 Linux 中调试器的主要构成模块 - ptrace 系统调用.这篇文章所有代码都是基于 32 位 Ubuntu 操作系统.值得注意的是,尽管这些代码是平台相关的,将它们移植到其它平台应该并不困难. 缘由 为了理解我们要做什么,让我们先考虑下调试器为了完成调试都需要什么资源.调试器可以开始一个进程并调试这个进程,又或者将自己同某个已经存在的进程关联起来.调