如何识别并避开花指令

 

前言

在逆向工程师的职业生涯之中,有一个常见的问题一直在困扰着他们,就是有时会耗费大量的时间去阅读并研究花指令(Junk Code)。所谓花指令,并不是程序真正需要执行的指令,而是一段在不影响程序正常运行前提下迷惑反编译器的汇编指令。借助花指令,可以增加反编译过程的难度。有时,工程师发现可执行代码出现在他们没有预料到的地方,从而误以为发现了一个漏洞,或发现了一个最新的恶意软件样本,然而事实上,他们遇到的很可能就是花指令。

 

在这篇文章中,我们将讨论如何识别花指令,并了解它与实际代码之间的区别。我们将重点关注x86系统中的反汇编过程,但在许多其他的结构中也会存在类似的问题,大家可以参考。

 

1. 问题描述

通常,在反编译花指令过程中,我们所犯的第一个错误就是:因为它可以被反编译成有效的指令,所以就将其假设为实际的代码。我们知道,x86的指令集是紧密排列的,其中有许多都是以单字节编码。一眼望去,不管我们反编译任何数据,都能得到看起来有效的x86代码。

 

举例来说,我生成了一个16KB的随机数据文件,并将其反编译。这样一来,就产生了6455个有效的32x86指令,以及239字节无法识别的数据。这就意味着,超过98%的随机数据可以被反编译成有效指令,剩下的则无法被解析为有效指令。为了进一步说明,我们一起来看看这个随机数据最开始部分的反汇编,其中包含了一些指令,以及1字节无法识别的数据。

如上所示,其中的第一列是数据偏移量,本文中所有的反汇编指令都以此来表示。第二列是组成该条指令的字节,而第三列则是这些字节相应的反汇编表示。除去标红的0x16之外,反汇编后所得到的全部指令都是有效的。尽管偏移0x16的内容看起来像是指令,但“db”仅仅是用于声明一个字节的汇编符号,反汇编程序并不会将其识别为指令的一部分。正如前面所说,x86的指令集非常密集,因此每个字节都有可能是一条指令的开始部分。在这种情况下,0xF6有可能是指令的有效开始,但由于与后面的0x4E组合之后没有形成有效的操作数,因此0xF6就被视为了无效。在16字节的随机数据中,274个无法识别的字节共包含27种不同的值。而在这27种不同的值之中,唯一一个在英文字符串范围内的,是字母“b”(0x62)。

 

在这里,我们重点关注了更为主流的32位反汇编过程,但同样的情况也会发生在16位和64位英特尔汇编指令之中。当上述随机数据被反编译成16位代码时,其中的96%将被解析为有效指令。而假如反编译成64位,有效指令占比则为95%

 

你可能会说,有可能随机数据中会连续出现较多的0,这就意味着在这个区域中没有代码。然而,高级的反编译器能够智能识别出大量0的出现,判断出它们并非代码,但这部分仍会被反汇编成有效的x86指令,如下所示:

更进一步,如果我们使用英语文本生成随机数据,就会更具有迷惑性。我尝试使用一个包含随机英文字符(lorem ipsum,即“乱数假文”)的60KB的文件,并对其进行了反编译,得到了23170条指令,其中没有任何无法识别的数据。因此,我们现在生成的随机数据,100%都可以反编译成有效指令。下面的片段展示的是“乱数假文”前三个单词(Lorem ipsum dolor)的反编译结果:

很显然,面对这样的花指令,我们就要花费更多的精力去从中辨别出真正的代码。

 

2. 解决方案

目前来说,我们应对这一问题的最好武器恐怕是人的大脑,但我们还是应该想办法,借助一些启发式算法,利用脚本更好地过滤掉这些花指令。由此也可以看出,即使是经验丰富的逆向工程师,也要不断学习了解这类的代码片段,提升发现花指令的能力。

2.1 特权指令

x86处理器中,会通过四个Ring级别来进行访问控制的保护,听起来就像指环王一样。其中,有两个Ring基本上不使用。内核模式的执行发生在Ring0,而用户模式发生在Ring3。某些指令只能在Ring0中执行。有许多特殊的特权指令,也恰好是单字节的操作码,并且经常出现在反编译的花指令之中。让我们再来看看之前的“乱数假文”,但在这次,我将重点标记其中的特权指令:

如果我们发现,某段代码并不是作为操作系统引导加载程序、内核或者设备驱动程序运行的,那么一旦看到这些特权指令,就应该意识到该反汇编实际上并不是有效的代码。标红的这些,都是从硬件端口读写数据的输入/输出指令。这些指令必须在设备驱动程序中使用,如果在Ring3用户模式中执行,会产生异常。即使我们现在反编译的是内核代码,这些指令出现的频率也比正常情况下高出很多。下面是一些常见的Ring0指令列表,经常会作为花指令使用:

l  IN  (INS, INSB, INSW, INSD)

l  OUT (OUTS, OUTSB, OUTSW, OUTSD)

l  IRET

l  IRETD

l  ARPL

l  ICEBP / INT 1

l  CLI

l  STI



l  HLT

2.2 不常见的指令

在用户模式下,有一些合法但却并不常见的Ring3指令,由于这些指令都是从编译代码而来,并不是直接人工编写的汇编语言,因此就显得格外奇怪。我们可以将这类指令分为三小类,分别为:过于便捷的指令、不常见的数学运算和远指针指令。接下来让我们仔细研究一下。

(1) 过于便捷的指令

l  ENTER

l  LEAVE

l  LOOP (LOOPE/LOOPZ, LOOPNE/LOOPNZ)

l  PUSHA



l  POPA

其中,ENTERLEAVE指令经常被汇编语言的编写者用于函数的开始和结束,但它们并不实用,也不能与PUSHMOVSUB这些指令一起完成。因此,当前的编译器更倾向于避免使用ENTERLEAVE,绝大多数的程序员也都不会去使用它们。这些指令在操作码中大约占比1%,经常被用作花指令来使用。

 

LOOP指令(包括带有条件的LOOPZLOOPNZ指令)提供了一种非常直观有效的方式来编写汇编语言中的循环。但编译器一般不会使用这些指令,它们通常会创建自己的循环,并使用JMP(无条件跳转指令)以及其他条件跳转指令。

 

PUSHAPOPA指令的作用是将所有的16位通用寄存器压入堆栈或取出堆栈。对于编写者来说,这两个指令就像宏一样方便。由于它们还可以存储或恢复堆栈指针本身,因此它们非常复杂。所以编码器并不会在函数的一开始存储它们,再在函数的结尾恢复它们。在编译的代码中不会存在这些指令,但由于它们也同样占据了1%左右的操作码范围,因此也经常被用作花指令。

(2) 不常见的数学运算

浮点指令

l  F*

l  WAIT/FWAIT

浮点指令通常是以字母“F”开始。尽管有一小部分程序会使用浮点数学运算,但大部分程序都不会使用。浮点指令在操作码范围中占有较大比例,所以在花指令中特别常见。在这里,代码设计的知识往往能够在逆向工程的尝试中派上用场。如果我们对一个3D图形程序进行逆向,就会发现其中存在大量的浮点指令,这是正常的。但如果我们对恶意软件进行逆向,浮点数学运算就不太可能会出现在其中。最后需要特别说明的一点是,Shellcode经常会使用一些浮点指令,用来得到指向其自身的指针。

l  SAHF

l  LAHF

SAHF的作用是将寄存器AH的值传送到标志寄存器PSWLAHF则是反过来将PSW的值保存到AH。由于这一操作只能通过编程时明确的语句来实现,并不会从高级语言中翻译而来,所以编译器通常情况下不会输出这些指令。其实,即使是人工编写的汇编代码,也很少使用这两个指令。并且它们还是单操作码范围内的单字节指令,同样常常作为花指令。

ASCII调整指令

l  AAA

l  AAS

l  AAM

l  AAD

这一系列的“AA”指令,作用是在汇编语言中以十进制的形式来处理数据。同样,由于这些指令在早期比较流行,现在已经不被广泛使用,所以理论上不应该经常出现。它们同样也是单字节指令。

l  SBB

SBB指令与SUB相似,只不过它将进位标志(Carry Flag)添加到源操作数之中。该指令在合法的代码中,特别是在对大于机器字长的数字进行运算时也能见到。然而,SBB指令有9个以上的操作码,占比3.5%。尽管并不是单字节指令,但由于其拥有多种形式和众多操作码,所以会被用作花指令。

l  XLAT

XLAT是汇编语言查表指令。由于它并不能直接翻译成某个特定的高级语言结构,所以编译器一般不会使用该指令。它同样也是一个单字节指令,因此它是花指令的概率,要比人工使用该指令的概率更大一些。

l  CLC

l  STC

l  CLD

l  STD

这些指令会清除/设置进位标志及目的标志(Destination Flag)。这些指令可能会在流操作的附近出现,我们通常会在REP前缀的地方看到它们。同样,它们都是单字节指令,经常用作花指令。

(3) 远指针指令

l  LDS

l  LSS

l  LES

l  LFS

l  LGS

在英特尔的架构中,远指针(Far Pointer)不会存在于16位之中。但是,设置远指针的指令,仍然会占用两个单字节的操作码,还占用了双字节操作码中的3个值。因此,这些指令也会作为花指令出现。

2.3 频繁出现的指令前缀

x86中的指令可以带有前缀,我们将其称为指令前缀。指令前缀的作用是修改后面指令的行为,最常见的一种就是改变操作数的大小。例如,我们正在以32位的模式执行指令,但希望能使用16位寄存器或操作数执行计算,那么就可以在计算指令中添加一个前缀,以告知CPU,这是一个16位的指令,并不是32位。

这样的指令前缀有很多,但非常不巧的是,其中的一大部分都在ASCII的字母范围之内。这也就意味着,如果我们反汇编了一个ASCII的文本(比如之前的“乱数假文”),那就会出现特别多的指令前缀。

如果我们在对一个32位的代码进行反汇编,却发现它大量使用了16位的寄存器(比如使用了AXBXCXDXSPBP,而不是EAXEBXECXEDXESPEBP),此时就要意识到,现在在看的很有可能就是花指令。

反汇编器会在指令助记符(Instruction Mnemonic)前添加特定的符号来表示其他前缀。如果我们在代码中能看到下面这些关键词,很有可能会是花指令:

l  LOCK

l  BOUND

l  WAIT

段选择器

l  FS

l  GS

l  SS

l  ES

16位模式下,会使用段寄存器(CSDSFSGSSSES)进行寻址的存储。程序的代码通常是基于CS“代码段”寄存器来实现引用的,而程序处理的数据是从DS“数据段”寄存器引用的。ESFSGS是额外的数据段寄存器,用于32位代码。段选择器(Segment Selector)的前缀字节,可以添加在指令之前,从而强制使其基于特定的段来引用内存,而不是基于其默认的段。由于上述这些都占用了单字节操作码空间,因此也会在花指令中频繁出现。在我的随机数据中,有一个反编译后的指令,是GS寄存器的段选择符前缀使其不指向地址存储器:

相比于普通代码来说,花指令会更加频繁地使用这些段寄存器,并且编译器不会产生输出。我们再看看另外一个例子:

该指令会从堆栈中弹出SS“堆栈段”寄存器。这是一个完全有效的指令,然而,由于这是反编译的32位代码,段寄存器并不会像16位那样进行改变。同样,如果只有上面几行代码,会出现另一个奇怪的指令:

32位的体系结构中,支持更多段寄存器的寻址。这条指令的作用是将一些数据移动到第七个段寄存器中,我的反编译器将其命名为“segr7”。

 

3. 总结

由于花指令的存在,最好的情况是浪费分析人员的时间和精力,而最坏的情况恐怕是会误导我们的分析过程,让我们去分析错误的数据。通过本文,我们学会了识别常见的反汇编花指令,并对其频繁出现的原因做以详细地分析。

希望通过本文的阅读,可以让你在以后的工作中轻松识别出花指令,从而节约工作时间,确保分析的准确性。

(完)