简介
2014年,Microsoft推出了一种名为控制流保护(CFG)的控制流完整性(CFI)解决方案。CFG在过去有非常多的研究,随着时间的推移,大家想出了许多绕过CFG的方法;其中一些绕过依赖于实现,比如与JIT编译器的集成,或者易被滥用的敏感api的可用性,但这些问题最终都得到了解决。然而,一个设计问题仍然存在:CFG没有提供有效调用目标的任何粒度。任何受保护的间接调用允许调用任何有效的调用目标。在较大的二进制文件中,有效的调用目标很容易有成千上万个,这给攻击者提供了很大的灵活性,可以通过链接有效的C++虚函数来绕过CFG(参考COOP)。
这几年,Microsoft一直在开发CFG的改进版本,称为Xtended Flow Guard(XFG)。XFG通过类型签名检查限制间接调用/跳转,提供了一种更细粒度的CFI。XFG的概念是,在编译时将基于类型签名的哈希分配给可以作为间接调用/跳转目标的那些函数。然后,在使用XFG的间接调用位置上,执行哈希检查:仅允许具有预期签名哈希的函数。
几周前,研究员Connor McGarr发表了一篇名为《Exploit Development: Between a Rock and a (Xtended Flow) Guard Place: Examining XFG》的文章。这激发了我的好奇心,所以我决定打开IDA Pro和Windbg来了解XFG哈希是如何生成的。
在写本文时,XFG已经出现在Windows 10 Insider Preview版本中中,为了编译支持XFG的程序,需要使用Visual Studio 2019预览版。
本文中的分析的二进制文件基于Visual Studio 2019 Preview 16.8.0 Preview 2.1版本:
- c1.dll version 19.28.29213.0
- c2.dll version 19.28.29213.0
这篇文章重点介绍如何为C源代码生成XFG哈希。尽管C++代码的哈希算法乍一看很相似,但我们没有深入研究它的细节。由于这是一篇相当长的文章,内容分为几个部分:首先,我们从一个关于XFG哈希的快速入门开始。然后,我们分析函数是如何哈希的,然后查看不同的C类型是如何哈希的。最后,我们检查一些应用于计算的哈希值的最终转换,并动手通过计算哈希的练习得出结论。
关于XFG哈希的入门
让我们从一个简单的C程序开始,该程序定义了一个名为FPTR([1])的函数指针类型,它声明了一个函数,该函数接受两个浮点参数并返回另一个浮点数。main函数声明了一个名为fptr的函数指针变量,类型为fptr,它被设置为foo([2])函数的地址,该函数的原型与fptr类型匹配。最后,在[3]处,调用fptr指向的函数,并将值1.00001和2.00002作为参数传递。
#include <stdio.h>
[1] typedef float (* FPTR)(float, float);
float foo(float val1, float val2){
printf("I received float values %f and %f\n", val1, val2);
return (val2 - val1);
}
int main(int argc, char **argv){
[2] FPTR fptr = foo;
printf("Calling function pointer...\n");
[3] fptr(1.00001, 2.00002);
return 0;
}
我们使用以下命令行从VS 2019 Preview的x64本机工具命令提示符中编译了上述源代码。注意,我们使用/ guard:xfg
标志来启用XFG。
> cl / Zi / guard:xfg example1.c
反汇编生成的main函数如下所示:
main ; int __cdecl main(int argc, const char **argv, const char **envp)
main
main var_18 = qword ptr -18h
main var_10 = qword ptr -10h
main arg_0 = dword ptr 8
main arg_8 = qword ptr 10h
main
main mov [rsp+arg_8], rdx
main+5 mov [rsp+arg_0], ecx
main+9 sub rsp, 38h
main+D lea rax, foo
main+14 mov [rsp+38h+var_18], rax
main+19 lea rcx, aCallingFunctio ; "Calling function pointer...\n"
main+20 call printf
main+25 mov rax, [rsp+38h+var_18]
main+2A mov [rsp+38h+var_10], rax
main+2F mov r10, 99743F3270D52870h
main+39 movss xmm1, cs:__real@40000054
main+41 movss xmm0, cs:__real@3f800054
main+49 mov rax, [rsp+38h+var_10]
main+4E call cs:__guard_xfg_dispatch_icall_fptr
main+54 xor eax, eax
main+56 add rsp, 38h
main+5A retn
main+5A main endp
我们可以在main+0x2F处看到,对于main+0x4E后面的函数指针调用,R10寄存器被设置为预期的基于类型的哈希(0x99743F3270D52870),通过函数指针调用的函数是foo,我们可以验证它的原型哈希(由函数开始前的8字节给出)是否与预期的散列匹配,也就是说foo函数是main+0x4E处的间接调用的有效目标。更准确地说,原型哈希位于foo函数(0x99743F3270D52871)之前的8字节,与我们在R10寄存器(0x99743F3270D52870)中看到的哈希匹配,除了0位:
.text:0000000140001008 dq 99743F3270D52871h
foo
foo ; =============== S U B R O U T I N E ================================
foo ; float __fastcall foo(float val1, float val2)
foo foo proc near ; DATA XREF: main+D
foo
foo arg_0 = dword ptr 8
foo arg_8 = dword ptr 10h
foo
foo movss [rsp+arg_8], xmm1
foo+6 movss [rsp+arg_0], xmm0
foo+C sub rsp, 28h
foo+10 cvtss2sd xmm0, [rsp+28h+arg_8]
foo+16 cvtss2sd xmm1, [rsp+28h+arg_0]
foo+1C movaps xmm2, xmm0
foo+1F movq r8, xmm2
foo+24 movq rdx, xmm1
foo+29 lea rcx, _Format ; "I received float values %f and %f\n"
foo+30 call printf
foo+35 movss xmm0, [rsp+28h+arg_8]
foo+3B subss xmm0, [rsp+28h+arg_0]
foo+41 add rsp, 28h
foo+45 retn
foo+45 foo endp
但是不必担心这种差异,因为在XFG调度函数(ntdll!LdrpDispatchUserCallTargetXFG)的起始处,R10的0位就被设置了,导致预期哈希值和函数哈希值在0位上的差异没有意义。
LdrpDispatchUserCallTargetXFG LdrpDispatchUserCallTargetXFG proc near
LdrpDispatchUserCallTargetXFG ; __unwind { // LdrpICallHandler
LdrpDispatchUserCallTargetXFG or r10, 1
LdrpDispatchUserCallTargetXFG+4 test al, 0Fh
LdrpDispatchUserCallTargetXFG+6 jnz short loc_180094337
LdrpDispatchUserCallTargetXFG+8 test ax, 0FFFh
LdrpDispatchUserCallTargetXFG+C jz short loc_180094337
LdrpDispatchUserCallTargetXFG+E cmp r10, [rax-8]
LdrpDispatchUserCallTargetXFG+12 jnz short loc_180094337
LdrpDispatchUserCallTargetXFG+14 jmp rax
哈希函数类型
MSVC编译器由两个阶段组成:前端和后端。前端是特定于语言的:它读取源代码,词法,解析,进行语义分析并发出IL(中间语言)。后端特定于目标体系结构:它读取前端生成的IL,执行优化并为给定的体系结构生成代码。
函数原型哈希的生成留给前端语言处理。这意味着在编译C代码时,C前端(c1.dll)负责生成原型哈希,而在编译C++代码时,C++前端(c1xxxx .dll)负责这项任务。
一旦原型哈希由相应的前端语言生成,编译器后端(在我们的例子中是x64后端,c2.dll)将执行一些最终的转换。在下面,我们将详细介绍在编译C代码时创建原型哈希的具体步骤。
当使用/guard:xfg标志编译C源代码时,编译器前端调用c1!XFGHelper__ComputeHash_1 函数,来计算要处理的函数的原型哈希值。
c1 !XFGHelper__ComputeHash_1函数创建一个XFGHelper::XFGHasher类型的对象,对象负责为正在处理的函数收集类型信息,并根据收集到的类型信息生成原型哈希。XFGHelper::XFGHasher使用std::vector的一个实例来存储所有将要被哈希的类型信息,并且它提供了许多方法,这些方法在构建哈希的过程中被调用:
- XFGHelper::XFGHasher::add_function_type()
- XFGHelper::XFGHasher::add_type()
- XFGHelper::XFGHasher::get_hash()
- XFGHelper::XFGTypeHasher::compute_hash()
- XFGHelper::XFGTypeHasher::hash_indirection()
- XFGHelper::XFGTypeHasher::hash_tag()
- XFGHelper::XFGTypeHasher::hash_primitive()
在初始化XFGHelper::XFGHasher的实例后,XFGHelper_uucomputehash_1函数调用XFGHelper::XFGHasher::add_function_type(),将XFGHelper::XFGHasher的实例和一个包含哈希函数的类型信息的type_t对象作为参数传递。
XFGHelper__ComputeHash_1 XFGHelper__ComputeHash_1 proc near
XFGHelper__ComputeHash_1
XFGHelper__ComputeHash_1 arg_0 = qword ptr 8
XFGHelper__ComputeHash_1 arg_8 = qword ptr 10h
XFGHelper__ComputeHash_1 arg_10 = qword ptr 18h
[...]
XFGHelper__ComputeHash_1+79 xorps xmm0, xmm0
XFGHelper__ComputeHash_1+7C movdqu cs:xfg_hasher, xmm0 ; zero inits xfg_hasher
[...]
XFGHelper__ComputeHash_1+B1 mov rdx, rbp ; rdx = Type_t containing function information
XFGHelper__ComputeHash_1+B4 lea rbp, xfg_hasher
XFGHelper__ComputeHash_1+BB mov rcx, rbp
XFGHelper__ComputeHash_1+BE call XFGHelper::XFGHasher::add_function_type(Type_t const *,XFGHelper::VirtualInfoFromDeclspec)
XFGHelper__ComputeHash_1+C3 mov rdx, rsi ; rdx = function->return_type (struct Type_t *)
XFGHelper__ComputeHash_1+C6 mov rcx, rbp ; this
XFGHelper__ComputeHash_1+C9 call XFGHelper::XFGHasher::add_type(Type_t const *) ; (step 5)
函数XFGHelper::XFGHasher::add_function_type将检索有关正被哈希的函数的4条信息,从XFGHelper::XFGHasher::add_function_type返回后,通过调用XFGHelper::XFGHasher::add_type会再添加一条信息。正如我们在上面的反汇编中XFGHelper__ComputeHash_1 + C9上看到的那样。这些信息存储在XFGHelper::XFGHasher实例拥有的std::vector中:
- 1.4个字节,表示函数的参数数量;
- 2.每个函数参数8个字节,保存所述参数类型的哈希值;
- 1个字节,表示函数是否可变参数(即,是否使用可变数量的参数);
- 4个字节,指定函数使用的调用约定;
- 8个字节,存放函数返回类型的哈希值。
component 1:参数数量
XFGHelper::XFGHasher::add_function_type函数首先向std::vector添加一个DWORD,表示函数的参数数量。注意,这个数字可以影响函数接受数量可变的参数,或具有来自declspec的virtual信息的影响我怀疑这可能是C ++的XFG实现中的某些重用代码,因此,它实际上不适用于C代码,尽管我尚未确认)。简而言之,此处考虑的参数数量将是在函数原型中声明的实际参数数量;如果函数采用可变数量的参数,则为负1;如果函数具有来自declspec的虚信息,则为负1 。
XFGHelper::XFGHasher::add_function_type+18 mov rsi, [rdx+10h] ; rsi = function_info->FunctionTypeInfo
XFGHelper::XFGHasher::add_function_type+1C mov rbx, rcx
XFGHelper::XFGHasher::add_function_type+1F mov rcx, rsi ; this
XFGHelper::XFGHasher::add_function_type+22 movzx r14d, r8b
XFGHelper::XFGHasher::add_function_type+26 mov r15, rdx
XFGHelper::XFGHasher::add_function_type+29 call FunctionTypeInfo_t::RealNumberOfParameters(void)
XFGHelper::XFGHasher::add_function_type+2E mov rcx, rsi ; this
XFGHelper::XFGHasher::add_function_type+31 mov r9d, eax ; r9 = real_number_of_params
XFGHelper::XFGHasher::add_function_type+34 call FunctionTypeInfo_t::IsVarArgsFunction(void)
XFGHelper::XFGHasher::add_function_type+39 mov rdx, [rbx+8]
XFGHelper::XFGHasher::add_function_type+3D lea rbp, [r9-1] ; rbp = real_number_of_params - 1
XFGHelper::XFGHasher::add_function_type+41 test al, al ; is variadic function?
XFGHelper::XFGHasher::add_function_type+43 mov rcx, rbx
XFGHelper::XFGHasher::add_function_type+46 cmovz rbp, r9 ; if not variadic, rbp = real_number_of_params
XFGHelper::XFGHasher::add_function_type+4A test r8b, r8b ; does it have virtual info from __declspec?
XFGHelper::XFGHasher::add_function_type+4D lea r9, [rsp+48h+arg_14]
XFGHelper::XFGHasher::add_function_type+52 lea r8, [rsp+48h+arg_10]
XFGHelper::XFGHasher::add_function_type+57 lea eax, [rbp-1] ; number of params = rbp - 1
XFGHelper::XFGHasher::add_function_type+5A cmovz eax, ebp ; if no virtual info from __declspec, number of params = rbp
XFGHelper::XFGHasher::add_function_type+5D mov [rsp+48h+arg_10], eax ; value to add = number of params (dword)
XFGHelper::XFGHasher::add_function_type+5D ; [step 1]
XFGHelper::XFGHasher::add_function_type+61 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
component 2:每个参数类型的哈希
接下来,XFGHelper::XFGHasher::add_function_type进入一个循环,在循环中计算每个函数参数类型的哈希,并将每个类型哈希(8字节)添加到std::vector中。
对于一些边缘情况(type & 0x10f == 0x103, type & 0x103 == 0x101)有特殊的处理,但是对于大多数参数类型,它将退回到loc_180105541。在该位置,如果需要(调用Type_t::clearModifiersAndQualifiers),则清除表示要处理的参数类型的Type_t对象的限定符(例如const(0x800)和volatile(0x40)),然后清除8个字节的哈希通过调用XFGHelper::XFGHasher::add_type将参数类型添加到std::vector,我们可以在下面看到XFGHelper::XFGHasher::add_function_type + CC。如果您想知道XFGHelper::XFGHasher::add_type如何精确计算给定Type_t的哈希,会在下文中详细介绍。
最后,如果还有更多参数需要哈希,它将跳回到循环的起始位置。
XFGHelper::XFGHasher::add_function_type+6E loc_1801054F6:
XFGHelper::XFGHasher::add_function_type+6E mov rax, [rsi] ; rax = &function_info->params
XFGHelper::XFGHasher::add_function_type+71 mov rcx, [rax+rdi*8] ; rcx = function_info->params[i] (Type_t)
XFGHelper::XFGHasher::add_function_type+75 mov edx, [rcx] ; edx = params[i].type
XFGHelper::XFGHasher::add_function_type+77 mov eax, edx
XFGHelper::XFGHasher::add_function_type+79 and eax, 10Fh
XFGHelper::XFGHasher::add_function_type+7E cmp eax, 103h ; params[i].type & 0x10f == 0x103 ?
XFGHelper::XFGHasher::add_function_type+83 jnz short loc_18010552C
XFGHelper::XFGHasher::add_function_type+85 cmp edx, 8103h ; params[i].type == 0x8103 ?
XFGHelper::XFGHasher::add_function_type+8B jz short loc_18010554E
XFGHelper::XFGHasher::add_function_type+8D mov r8d, [rcx+4]
XFGHelper::XFGHasher::add_function_type+91 lea edx, [rax-1]
XFGHelper::XFGHasher::add_function_type+94 mov rcx, [rcx+8]
XFGHelper::XFGHasher::add_function_type+98 btr r8d, 1Fh
XFGHelper::XFGHasher::add_function_type+9D call Type_t::createType(Type_t const *,uint,mod_t,bool)
XFGHelper::XFGHasher::add_function_type+A2 jmp short loc_18010554B
XFGHelper::XFGHasher::add_function_type+A4 ; --------------------------------------------------------------
XFGHelper::XFGHasher::add_function_type+A4
XFGHelper::XFGHasher::add_function_type+A4 loc_18010552C:
XFGHelper::XFGHasher::add_function_type+A4 and edx, 103h
XFGHelper::XFGHasher::add_function_type+AA cmp edx, 101h ; params[i].type & 0x103 == 0x101 ?
XFGHelper::XFGHasher::add_function_type+B0 jnz short loc_180105541
XFGHelper::XFGHasher::add_function_type+B2 call Type_t::decayFunctionType(void)
XFGHelper::XFGHasher::add_function_type+B7 jmp short loc_18010554B
XFGHelper::XFGHasher::add_function_type+B9 ; --------------------------------------------------------------
XFGHelper::XFGHasher::add_function_type+B9
XFGHelper::XFGHasher::add_function_type+B9 loc_180105541:
XFGHelper::XFGHasher::add_function_type+B9 mov edx, 8C0h ; discards qualifiers 0x800 (const) | 0x80 | 0x40 (volatile)
XFGHelper::XFGHasher::add_function_type+BE call Type_t::clearModifiersAndQualifiers(mod_t)
XFGHelper::XFGHasher::add_function_type+C3
XFGHelper::XFGHasher::add_function_type+C3 loc_18010554B:
XFGHelper::XFGHasher::add_function_type+C3 ; XFGHelper::XFGHasher::add_function_type+B7↑j
XFGHelper::XFGHasher::add_function_type+C3 mov rcx, rax
XFGHelper::XFGHasher::add_function_type+C6
XFGHelper::XFGHasher::add_function_type+C6 loc_18010554E:
XFGHelper::XFGHasher::add_function_type+C6 mov rdx, rcx ; struct Type_t *
XFGHelper::XFGHasher::add_function_type+C9 mov rcx, rbx ; this
XFGHelper::XFGHasher::add_function_type+CC call XFGHelper::XFGHasher::add_type(Type_t const *) ; adds hash of params[i] type
XFGHelper::XFGHasher::add_function_type+CC ; [step 2]
XFGHelper::XFGHasher::add_function_type+D1 inc rdi
XFGHelper::XFGHasher::add_function_type+D4 cmp rdi, rbp ; counter < number_of_params ?
XFGHelper::XFGHasher::add_function_type+D7 jb short loc_1801054F6 ; if so, loop
component 3:可变参函数
下一步是向std::vector添加一个字节,表示该函数是否接受可变数量的参数。在大多数情况下,当函数不包含来自__declspec的virtual信息时,将采用以下代码路径:
XFGHelper::XFGHasher::add_function_type+D9 mov rcx, rsi ; this = functioninfo
XFGHelper::XFGHasher::add_function_type+DC call FunctionTypeInfo_t::IsVarArgsFunction(void)
XFGHelper::XFGHasher::add_function_type+E1 mov r8b, al ; r8b = is_var_args_function
XFGHelper::XFGHasher::add_function_type+E4 test r14b, r14b ; contains virtual info from __declspec?
XFGHelper::XFGHasher::add_function_type+E7 jz short loc_1801055EB
[...]
XFGHelper::XFGHasher::add_function_type+163 loc_1801055EB:
XFGHelper::XFGHasher::add_function_type+163 mov rdx, [rbx+8]
XFGHelper::XFGHasher::add_function_type+167 lea r9, [rsp+48h+arg_10+1]
XFGHelper::XFGHasher::add_function_type+16C mov byte ptr [rsp+48h+arg_10], r8b ; value to add = is_var_args_function (byte)
XFGHelper::XFGHasher::add_function_type+16C ; [step 3]
XFGHelper::XFGHasher::add_function_type+171 mov rcx, rbx
XFGHelper::XFGHasher::add_function_type+174 lea r8, [rsp+48h+arg_10]
XFGHelper::XFGHasher::add_function_type+179 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
component 4:调用约定
最后,XFGHelper::XFGHasher::add_function_type将一个4字节的值添加到std::vector,表示该函数使用的调用约定。Intel x64体系结构上没有较多的调用约定(与x86体系结构不同):默认的x64调用约定在寄存器RCX,RDX,R8和R9中传递整数参数,而浮点参数则通过XMM0-XMM3传递。该默认调用约定在内部由值0x201表示,但是由于在将其保存到std :: vector之前,它会用&0x0F进行掩码,因此您很可能会看到一个值为0x00000001的DWORD作为调用约定。
记录下来,尽管MSVC x64编译器通常会忽略例如cdecl和stdcall之类的说明符,但至少有一种方法可以获取与调用约定不同的值0x201:__vectorcall调用约定内部由值0x208表示,也就是用&0x0F掩码,将将值为0x00000008的DWORD写入std::vector。
下面显示了负责将调用约定数据添加到std::vector中的代码。
XFGHelper::XFGHasher::add_function_type+17E mov eax, [r15+4] ; eax = function_info->calling_convention
XFGHelper::XFGHasher::add_function_type+182 lea r9, [rsp+48h+arg_14]
XFGHelper::XFGHasher::add_function_type+187 mov rdx, [rbx+8]
XFGHelper::XFGHasher::add_function_type+18B lea r8, [rsp+48h+arg_10]
XFGHelper::XFGHasher::add_function_type+190 and eax, 0Fh ; eax = calling_convention & 0xF
XFGHelper::XFGHasher::add_function_type+193 mov rcx, rbx
XFGHelper::XFGHasher::add_function_type+196 mov [rsp+48h+arg_10], eax ; value to add = calling_convention & 0xF (size = dword)
XFGHelper::XFGHasher::add_function_type+196 ; [step 4]
XFGHelper::XFGHasher::add_function_type+19A call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
component 5 :返回类型的哈希
在XFGHelper::XFGHasher::add_function_type中未检索将用于获取函数原型哈希的数据的第五个也是最后一个组成部分;相反,它是在返回后立即添加的。如下面的代码所示,它调用XFGHelper::XFGHasher::add_type,该函数为表示返回类型的Type_t计算一个8字节的哈希值,并将哈希值的8字节添加到std::vector中。
XFGHelper__ComputeHash_1+BE call XFGHelper::XFGHasher::add_function_type(Type_t const *,XFGHelper::VirtualInfoFromDeclspec)
XFGHelper__ComputeHash_1+C3 mov rdx, rsi ; rdx = function->return_type (struct Type_t *)
XFGHelper__ComputeHash_1+C6 mov rcx, rbp ; this
XFGHelper__ComputeHash_1+C9 call XFGHelper::XFGHasher::add_type(Type_t const *) ; (step 5)
最后一步:哈希收集到的原型数据
如果该函数包含来自__declspec的virtual信息,则从该信息中生成一个额外的8字节类型哈希并添加到std::vector中。然而,在测试期间,我无法达到这种特殊情况。如前所述,virtual信息可能不适用于C代码。
无论是否存在来自declspec的virtual信息,XFGHelperComputeHash_1函数都将通过调用XFGHelper::XFGHasher::get_hash函数来完成:
XFGHelper__ComputeHash_1+CE test rbx, rbx ; contains virtual info from __declspec?
XFGHelper__ComputeHash_1+D1 jz short loc_1801052EF
[...]
XFGHelper__ComputeHash_1+103 loc_1801052EF:
XFGHelper__ComputeHash_1+103 mov rcx, rbp ; this
XFGHelper__ComputeHash_1+106 mov rbx, [rsp+38h+arg_0]
XFGHelper__ComputeHash_1+10B mov rbp, [rsp+38h+arg_8]
XFGHelper__ComputeHash_1+110 mov rsi, [rsp+38h+arg_10]
XFGHelper__ComputeHash_1+115 add rsp, 30h
XFGHelper__ComputeHash_1+119 pop rdi
XFGHelper__ComputeHash_1+11A jmp XFGHelper::XFGHasher::get_hash(void)
XFGHelper__ComputeHash_1+11A XFGHelper__ComputeHash_1 endp
对std::vector中收集的类型数据进行哈希处理。所选择的哈希算法是SHA256,我们可以在下面的XFGHelper::XFGHasher::get_hash+5F中看到,它仅返回生成的SHA256摘要的前8个字节:
XFGHelper::XFGHasher::get_hash(void) public: unsigned __int64 XFGHelper::XFGHasher::get_hash(void)const proc near
[...]
XFGHelper::XFGHasher::get_hash(void)+18 mov dl, 3 ; algorithm_ids[3] == CALG_SHA_256
XFGHelper::XFGHasher::get_hash(void)+1A lea rcx, [rsp+58h+hHash] ; phHash
XFGHelper::XFGHasher::get_hash(void)+1F call HashAPIWrapper::HashAPIWrapper(uchar)
XFGHelper::XFGHasher::get_hash(void)+24 nop
XFGHelper::XFGHasher::get_hash(void)+25 mov r8, [rbx+8]
XFGHelper::XFGHasher::get_hash(void)+29 sub r8, [rbx] ; dwDataLen
XFGHelper::XFGHasher::get_hash(void)+2C xor r9d, r9d ; dwFlags
XFGHelper::XFGHasher::get_hash(void)+2F mov rdx, [rbx] ; pbData
XFGHelper::XFGHasher::get_hash(void)+32 mov rcx, [rsp+58h+hHash] ; hHash
XFGHelper::XFGHasher::get_hash(void)+37 call cs:__imp_CryptHashData
XFGHelper::XFGHasher::get_hash(void)+3D test eax, eax
XFGHelper::XFGHasher::get_hash(void)+3F jnz short loc_180105822
[...]
XFGHelper::XFGHasher::get_hash(void)+4A loc_180105822:
XFGHelper::XFGHasher::get_hash(void)+4A mov r8d, 20h ; ' ' ; unsigned int
XFGHelper::XFGHasher::get_hash(void)+50 lea rdx, [rsp+58h+sha256_digest] ; unsigned __int8 *
XFGHelper::XFGHasher::get_hash(void)+55 lea rcx, [rsp+58h+hHash] ; this
XFGHelper::XFGHasher::get_hash(void)+5A call HashAPIWrapper::GetHash(uchar *,ulong)
XFGHelper::XFGHasher::get_hash(void)+5F mov rbx, qword ptr [rsp+58h+sha256_digest] ; *** only returns first 8 bytes of SHA256 hash
XFGHelper::XFGHasher::get_hash(void)+64 mov rcx, [rsp+58h+hHash] ; hHash
XFGHelper::XFGHasher::get_hash(void)+69 call cs:__imp_CryptDestroyHash
XFGHelper::XFGHasher::get_hash(void)+6F test eax, eax
XFGHelper::XFGHasher::get_hash(void)+71 jnz short loc_180105854
[...]
XFGHelper::XFGHasher::get_hash(void)+7C loc_180105854:
XFGHelper::XFGHasher::get_hash(void)+7C mov rax, rbx
XFGHelper::XFGHasher::get_hash(void)+7F mov rcx, [rsp+58h+var_10]
XFGHelper::XFGHasher::get_hash(void)+84 xor rcx, rsp ; StackCookie
XFGHelper::XFGHasher::get_hash(void)+87 call __security_check_cookie
XFGHelper::XFGHasher::get_hash(void)+8C add rsp, 50h
XFGHelper::XFGHasher::get_hash(void)+90 pop rbx
XFGHelper::XFGHasher::get_hash(void)+91 retn
哈希类型
到目前为止,我们知道函数原型哈希是基于5条信息构建的。其中三个是普通值(参数数量,一个布尔值,表示函数是否可变参数,以及一个数字,表示正在使用的调用约定),而其他两个本身就是类型哈希(每个函数参数的类型哈希,以及返回类型的哈希值)。在本节中,我们将看到如何对类型(由编译器内部使用Type_t对象表示)进行哈希处理。
类型是在XFGHelper::XFGHasher::add_type函数中哈希的。它调用XFGHelper__GetHashForType,该函数返回该类型的8字节哈希,然后通过调用std::vector::_Insert_range(),将该8字节哈希存储在std::vector中。
.text:00000001801056A0 public: void XFGHelper::XFGHasher::add_type(class Type_t const *) proc near
.text:00000001801056A0 arg_0 = qword ptr 8
.text:00000001801056A0 arg_8 = byte ptr 10h
.text:00000001801056A0
.text:00000001801056A0 push rbx
.text:00000001801056A2 sub rsp, 30h
.text:00000001801056A6 mov rbx, rcx
.text:00000001801056A9 mov rcx, rdx ; rcx = Type_t
.text:00000001801056AC call XFGHelper__GetHashForType
.text:00000001801056B1 mov rdx, [rbx+8]
.text:00000001801056B5 lea r9, [rsp+38h+arg_8]
.text:00000001801056BA lea r8, [rsp+38h+arg_0]
.text:00000001801056BF mov [rsp+38h+arg_0], rax ; value to add = hash (qword)
.text:00000001801056C4 mov rcx, rbx
.text:00000001801056C7 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
.text:00000001801056CC add rsp, 30h
.text:00000001801056D0 pop rbx
.text:00000001801056D1 retn
让我们看看XFGHelperGetHashForType如何为指定的Type_t生成一个8字节的哈希。首先,它通过对std::Tree ::emplace()的调用来检查指定类型的哈希是否已存在于它所保存的缓存中,在XFGHelperGetHashForType + AF上可以看到该调用。如果是这种情况,它只返回缓存的类型哈希;这样,它避免了一遍又一遍地计算已经计算出的类型的哈希值。
另一方面,如果在缓存中未找到类型哈希,它将继续通过调用XFGHelper::XFGTypeHasher::compute_hash从头开始计算哈希,该哈希将使用要哈希的类型数据构建std::vector,最后调用XFGHelper::XFGHasher::get_hash,正如我们在上一节中介绍,它会生成SHA256摘要数据包含在std::vector中,并仅返回摘要的前8个字节。
XFGHelper__GetHashForType XFGHelper__GetHashForType proc near
[...]
XFGHelper__GetHashForType+A3 lea r9, [rbp+arg_8]
XFGHelper__GetHashForType+A7 lea r8, [rbp+Type_t]
XFGHelper__GetHashForType+AB lea rdx, [rbp+xfg_type_hasher]
XFGHelper__GetHashForType+AF call std::_Tree<std::_Tmap_traits<Type_t const *,unsigned __int64,std::less<Type_t const *>,std::allocator<std::pair<Type_t const * const,unsigned __int64>>,0>>::_Emplace<Type_t const * &,int>(Type_t const * &,int &&)
XFGHelper__GetHashForType+B4 mov rbx, qword ptr [rbp+xfg_type_hasher]
XFGHelper__GetHashForType+B8 cmp byte ptr [rbp+xfg_type_hasher+8], 0 ; hash for type was found in cache?
XFGHelper__GetHashForType+BC jz short loc_18010544D ; if so, just return the cached hash
XFGHelper__GetHashForType+BE xor edi, edi ; otherwise, compute the hash of the type
XFGHelper__GetHashForType+C0 xorps xmm0, xmm0
XFGHelper__GetHashForType+C3 movdqu [rbp+xfg_type_hasher], xmm0
XFGHelper__GetHashForType+C8 and [rbp+var_10], rdi
XFGHelper__GetHashForType+CC mov [rbp+var_8], 1
XFGHelper__GetHashForType+D0 mov rdx, [rbp+Type_t] ; struct Type_t *
XFGHelper__GetHashForType+D4 lea rcx, [rbp+xfg_type_hasher] ; this
XFGHelper__GetHashForType+D8 call XFGHelper::XFGTypeHasher::compute_hash(Type_t const *)
XFGHelper__GetHashForType+DD nop
XFGHelper__GetHashForType+DE cmp [rbp+var_8], dil
XFGHelper__GetHashForType+E2 jz short loc_180105434
XFGHelper__GetHashForType+E4 lea rcx, [rbp+xfg_type_hasher] ; this
XFGHelper__GetHashForType+E8 call XFGHelper::XFGHasher::get_hash(void)
[...]
以下是XFGHelper::XFGTypeHasher::compute_hash收集的关于指定类型的信息:
- 1.从类型限定符获得的1字节值(从Type_t对象的偏移量4获取);
- 2.1个字节表示类型(指针、联合/结构体/枚举或原始类型);
- 3.某些特定类型的数据,取决于2中提到的三种类型中的哪一种(指针、联合/结构体/枚举或原始类型)属于该类型。
我们将在下面的小节中深入研究这三个信息的细节。
component 1:类型限定符
关于类型的第一个信息是它的限定符,它作为一个DWORD存储在Type_t对象的偏移量4处。具体来说,关于const (0x800)和volatile (0x40)限定符的信息被组合成一个字节,写入std::vector。这个新字节的第一个位表示const限定符是否存在,第二个位表示volatile限定符是否存在。
XFGHelper::XFGTypeHasher::compute_hash+1B call Type_t::getFirstNonArrayType(void)
XFGHelper::XFGTypeHasher::compute_hash+20 mov rcx, rdi ; this
XFGHelper::XFGTypeHasher::compute_hash+23 mov r8d, [rax+4] ; r8d = Type_t->qualifiers
XFGHelper::XFGTypeHasher::compute_hash+27 shr r8d, 0Bh
XFGHelper::XFGTypeHasher::compute_hash+2B and r8b, 1
XFGHelper::XFGTypeHasher::compute_hash+2F movzx r9d, r8b ; r9d = (Type_t->qualifiers >> 0xB) & 1 (has_const_qualifier)
XFGHelper::XFGTypeHasher::compute_hash+33 call Type_t::getFirstNonArrayType(void)
XFGHelper::XFGTypeHasher::compute_hash+38 lea r8, [rbp+arg_0]
XFGHelper::XFGTypeHasher::compute_hash+3C mov edx, [rax+4] ; edx = Type_t->qualifiers
XFGHelper::XFGTypeHasher::compute_hash+3F mov al, r9b ; al = has_const_qualifier
XFGHelper::XFGTypeHasher::compute_hash+42 or al, 2 ; al = has_const_qualifier | 2
XFGHelper::XFGTypeHasher::compute_hash+44 and dl, 40h ; dl = Type_t->qualifiers & 0x40 (has_volatile_qualifier)
XFGHelper::XFGTypeHasher::compute_hash+47 movzx ecx, al ; qualifiers_info = has_const_qualifier | 2
XFGHelper::XFGTypeHasher::compute_hash+4A mov rdx, [rbx+8]
XFGHelper::XFGTypeHasher::compute_hash+4E cmovz ecx, r9d ; if it doesn't have volatile qualifier, then
XFGHelper::XFGTypeHasher::compute_hash+4E ; qualifiers_info = has_const_qualifier
XFGHelper::XFGTypeHasher::compute_hash+52 lea r9, [rbp+arg_1]
XFGHelper::XFGTypeHasher::compute_hash+56 mov [rbp+arg_0], cl ; value to insert (size = byte)
XFGHelper::XFGTypeHasher::compute_hash+59 mov rcx, rbx
XFGHelper::XFGTypeHasher::compute_hash+5C call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
Component 2: 类型组
如果存储在Type_t中的类型值设置了0x100,那么它是一个指针。这是通过向std::vector写入一个值为3的字节来表示的。
XFGHelper::XFGTypeHasher::compute_hash+61 test dword ptr [rdi], 100h ; *Type_t & 0x100 == 0 ?
XFGHelper::XFGTypeHasher::compute_hash+67 jz short loc_180105762
XFGHelper::XFGTypeHasher::compute_hash+69 mov rdx, [rbx+8] ; if not, it's a pointer
XFGHelper::XFGTypeHasher::compute_hash+6D lea r9, [rbp+arg_1]
XFGHelper::XFGTypeHasher::compute_hash+71 lea r8, [rbp+arg_0]
XFGHelper::XFGTypeHasher::compute_hash+75 mov [rbp+arg_0], 3 ; value to insert: POINTER_TYPE (3)
XFGHelper::XFGTypeHasher::compute_hash+79 mov rcx, rbx
XFGHelper::XFGTypeHasher::compute_hash+7C call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
如果该类型不是指针,则通过检查Type_t & 0x600中存储的类型值是否不为0来检查该类型是联合、结构还是枚举。注意,0x600是建立在0x200 | 0x400之上的,其中0x200标识枚举类型,0x400标识结构和联合。如果是这种情况,一个值为2的字节被写入std::vector。
XFGHelper::XFGTypeHasher::compute_hash+8E loc_180105762:
XFGHelper::XFGTypeHasher::compute_hash+8E test dword ptr [rdi], 600h ; *Type_t & (0x400 | 0x200) == 0 ?
XFGHelper::XFGTypeHasher::compute_hash+94 jz short loc_180105790
XFGHelper::XFGTypeHasher::compute_hash+96 mov rdx, [rbx+8] ; if not, it's a union/struct/enum
XFGHelper::XFGTypeHasher::compute_hash+9A lea r9, [rbp+arg_1]
XFGHelper::XFGTypeHasher::compute_hash+9E lea r8, [rbp+arg_0]
XFGHelper::XFGTypeHasher::compute_hash+A2 mov [rbp+arg_0], 2 ; value to insert: UNION_STRUCT_OR_ENUM_TYPE (2)
XFGHelper::XFGTypeHasher::compute_hash+A6 mov rcx, rbx
XFGHelper::XFGTypeHasher::compute_hash+A9 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
最后,如果类型不是指针,也不是union/struct/enum,则采用默认情况。如果该类型是泛型,那么不会向std::vector写入任何内容(但这是一种边界情况,只影响设置为0x1000的类型和标识为0x8103的类型)。否则,对于绝大多数基本类型,值为1的字节被添加到std::vector中。
XFGHelper::XFGTypeHasher::compute_hash+BC loc_180105790:
XFGHelper::XFGTypeHasher::compute_hash+BC mov rcx, rdi ; this
XFGHelper::XFGTypeHasher::compute_hash+BF call Type_t::isGeneric(void)
XFGHelper::XFGTypeHasher::compute_hash+C4 test al, al
XFGHelper::XFGTypeHasher::compute_hash+C6 jz short loc_1801057A2
XFGHelper::XFGTypeHasher::compute_hash+C8 mov byte ptr [rbx+18h], 0
XFGHelper::XFGTypeHasher::compute_hash+CC jmp short epilog
XFGHelper::XFGTypeHasher::compute_hash+CE loc_1801057A2:
XFGHelper::XFGTypeHasher::compute_hash+CE mov rdx, [rbx+8]
XFGHelper::XFGTypeHasher::compute_hash+D2 lea r9, [rbp+arg_1]
XFGHelper::XFGTypeHasher::compute_hash+D6 lea r8, [rbp+arg_0]
XFGHelper::XFGTypeHasher::compute_hash+DA mov [rbp+arg_0], 1 ; value to insert: PRIMITIVE_TYPE (1)
XFGHelper::XFGTypeHasher::compute_hash+DE mov rcx, rbx
XFGHelper::XFGTypeHasher::compute_hash+E1 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
Component 3: 指针类型的哈希
对于指针类型,在将值为3的字节写入std::vector后,将调用XFGHelper::XFGTypeHasher::hash_indirection函数。记住,这里的指针定义要广泛一些,因为它包含了所有那些值为0x100的Type_t对象。除了常规C指针外,它还包括一种内部函数对象(由函数指针引用)和数组。
XFGHelper::XFGTypeHasher::compute_hash+81 mov rdx, rdi ; struct Type_t *
XFGHelper::XFGTypeHasher::compute_hash+84 mov rcx, rbx ; this
XFGHelper::XFGTypeHasher::compute_hash+87 call XFGHelper::XFGTypeHasher::hash_indirection
XFGHelper::XFGTypeHasher::compute_hash+8C jmp short epilog
顾名思义,函数XFGHelper::XFGTypeHasher::hash_indirection将指针引用的类型的哈希值添加到std::vector。它的行为取决于它所处理的指针的类型:
- 如果它是一个函数指针(Type_t值为0x106)或普通指针Type_t值为0x102(用于大多数类型的指针,函数指针除外),它添加的哈希Type_t通过调用指针引用XFGHelper::XFGHasher::add_type,外加一个值为2的字节。在函数指针的情况下,指针引用的Type_t是一种Type_t值为0x101的内部函数对象,也就是说它也在XFGHelper::XFGTypeHasher::hash_indirection中处理。
XFGHelper::XFGTypeHasher::hash_indirection+15 mov ecx, [rdx] ; ecx = *Type_t XFGHelper::XFGTypeHasher::hash_indirection+17 mov eax, ecx XFGHelper::XFGTypeHasher::hash_indirection+19 and eax, 10Fh [...] XFGHelper::XFGTypeHasher::hash_indirection+25 sub eax, 1 ; case 0x102 (general pointer): XFGHelper::XFGTypeHasher::hash_indirection+28 jz short loc_1801058E3 [...] XFGHelper::XFGTypeHasher::hash_indirection+2F cmp eax, 3 ; case 0x106 (function pointer): XFGHelper::XFGTypeHasher::hash_indirection+32 jz short loc_1801058E3 [...] XFGHelper::XFGTypeHasher::hash_indirection+6B loc_1801058E3: XFGHelper::XFGTypeHasher::hash_indirection+6B mov dil, 2 ; will be written to std::vector XFGHelper::XFGTypeHasher::hash_indirection+6E jmp short loc_1801058F6 [...] XFGHelper::XFGTypeHasher::hash_indirection+7E loc_1801058F6: XFGHelper::XFGTypeHasher::hash_indirection+7E mov rdx, [rsi+8] ; rdx = ptr to the Type_t referenced by the pointer XFGHelper::XFGTypeHasher::hash_indirection+7E ; (return type in the case of functions) XFGHelper::XFGTypeHasher::hash_indirection+82 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::hash_indirection+85 call XFGHelper::XFGHasher::add_type XFGHelper::XFGTypeHasher::hash_indirection+8A mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::hash_indirection+8E lea r9, [rsp+38h+arg_8+1] XFGHelper::XFGTypeHasher::hash_indirection+93 lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_indirection+98 mov byte ptr [rsp+38h+arg_8], dil ; value to insert (size = byte) XFGHelper::XFGTypeHasher::hash_indirection+9D mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+A0 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
如果它是一个函数对象(由Type_t值为0x101标识,通常由Type_t值为0x106的函数指针引用),则通过调用XFGHelper::XFGHasher::add_function_type函数来添加函数原型的哈希,其内部工作原理我们已经剖析了函数的返回类型的哈希值,加一个字节值为1。
XFGHelper::XFGTypeHasher::hash_indirection+17 mov eax, ecx XFGHelper::XFGTypeHasher::hash_indirection+19 and eax, 10Fh XFGHelper::XFGTypeHasher::hash_indirection+1E sub eax, 101h ; case 0x101 (function): XFGHelper::XFGTypeHasher::hash_indirection+23 jz short loc_1801058E8 [...] XFGHelper::XFGTypeHasher::hash_indirection+70 xor r8d, r8d XFGHelper::XFGTypeHasher::hash_indirection+73 mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+76 mov dil, 1 ; this is written to std::vector at the end of this function XFGHelper::XFGTypeHasher::hash_indirection+79 call XFGHelper::XFGHasher::add_function_type(Type_t const *,XFGHelper::VirtualInfoFromDeclspec) XFGHelper::XFGTypeHasher::hash_indirection+7E XFGHelper::XFGTypeHasher::hash_indirection+7E loc_1801058F6: XFGHelper::XFGTypeHasher::hash_indirection+7E ; XFGHelper::XFGTypeHasher::hash_indirection+6E↑j XFGHelper::XFGTypeHasher::hash_indirection+7E mov rdx, [rsi+8] ; rdx = ptr to the Type_t referenced by the pointer XFGHelper::XFGTypeHasher::hash_indirection+7E ; (return type in the case of functions) XFGHelper::XFGTypeHasher::hash_indirection+82 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::hash_indirection+85 call XFGHelper::XFGHasher::add_type XFGHelper::XFGTypeHasher::hash_indirection+8A mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::hash_indirection+8E lea r9, [rsp+38h+arg_8+1] XFGHelper::XFGTypeHasher::hash_indirection+93 lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_indirection+98 mov byte ptr [rsp+38h+arg_8], dil ; value to insert (size = byte) XFGHelper::XFGTypeHasher::hash_indirection+9D mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+A0 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
最后,如果它是一个数组(由Type_t值0x103标识),它将写入一个包含数组中元素数量的QWORD,加上数组元素类型的散列,再加上一个字节值为6。
XFGHelper::XFGTypeHasher::hash_indirection+15 mov ecx, [rdx] ; ecx = *Type_t
XFGHelper::XFGTypeHasher::hash_indirection+17 mov eax, ecx
XFGHelper::XFGTypeHasher::hash_indirection+19 and eax, 10Fh
[...]
XFGHelper::XFGTypeHasher::hash_indirection+2A sub eax, 1 ; case 0x103 (array passed by pointer):
XFGHelper::XFGTypeHasher::hash_indirection+2D jz short loc_1801058B2
[...]
XFGHelper::XFGTypeHasher::hash_indirection+3A loc_1801058B2:
XFGHelper::XFGTypeHasher::hash_indirection+3A lea eax, [rcx-4103h]
XFGHelper::XFGTypeHasher::hash_indirection+40 mov dil, 6 ; will be written to std::vector
XFGHelper::XFGTypeHasher::hash_indirection+43 test eax, 0FFFFBFFFh
XFGHelper::XFGTypeHasher::hash_indirection+48 jz short loc_1801058AC
XFGHelper::XFGTypeHasher::hash_indirection+4A mov rax, [rdx+10h] ; rax = number of elems in array
XFGHelper::XFGTypeHasher::hash_indirection+4E lea r9, [rsp+38h+arg_10]
XFGHelper::XFGTypeHasher::hash_indirection+53 mov rdx, [rbx+8]
XFGHelper::XFGTypeHasher::hash_indirection+57 lea r8, [rsp+38h+arg_8]
XFGHelper::XFGTypeHasher::hash_indirection+5C mov rcx, rbx
XFGHelper::XFGTypeHasher::hash_indirection+5F mov [rsp+38h+arg_8], rax ; value to insert: number of elems in array (size = qword)
XFGHelper::XFGTypeHasher::hash_indirection+64 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
XFGHelper::XFGTypeHasher::hash_indirection+69 jmp short loc_1801058F6
[...]
XFGHelper::XFGTypeHasher::hash_indirection+7E loc_1801058F6
XFGHelper::XFGTypeHasher::hash_indirection+7E mov rdx, [rsi+8] ; rdx = ptr to the Type_t referenced by the pointer
XFGHelper::XFGTypeHasher::hash_indirection+7E ; (return type in the case of functions)
XFGHelper::XFGTypeHasher::hash_indirection+82 mov rcx, rbx ; this
XFGHelper::XFGTypeHasher::hash_indirection+85 call XFGHelper::XFGHasher::add_type
XFGHelper::XFGTypeHasher::hash_indirection+8A mov rdx, [rbx+8]
XFGHelper::XFGTypeHasher::hash_indirection+8E lea r9, [rsp+38h+arg_8+1]
XFGHelper::XFGTypeHasher::hash_indirection+93 lea r8, [rsp+38h+arg_8]
XFGHelper::XFGTypeHasher::hash_indirection+98 mov byte ptr [rsp+38h+arg_8], dil ; value to insert (size = byte)
XFGHelper::XFGTypeHasher::hash_indirection+9D mov rcx, rbx
XFGHelper::XFGTypeHasher::hash_indirection+A0 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
union/struct/enum类型的哈希
当处理union/struct/enum后写一个字节值为2的std::vector,函数XFGHelper:: XFGTypeHasher::compute_hash调用XFGHelper::XFGTypeHasher::hash_tag,在RDX指针作为参数传递给Symbol_t对象包含可读名称union/struct/enum类型。
XFGHelper::XFGTypeHasher::compute_hash+AE mov rdx, [rdi+10h] ; struct Symbol_t *
XFGHelper::XFGTypeHasher::compute_hash+B2 mov rcx, rbx ; this
XFGHelper::XFGTypeHasher::compute_hash+B5 call XFGHelper::XFGTypeHasher::hash_tag(Symbol_t *)
XFGHelper::XFGTypeHasher::hash_tag调用XFGHelper::XFGHasher::add_string,它将union/struct/enum的名称添加到std::vector对象中(如果union/struct/enum是一个命名的)。相反,如果union/struct/enum是匿名的,它会将字符串”<unnamed>“添加到std::vector中。
XFGHelper::XFGHasher::add_string public: void XFGHelper::XFGHasher::add_string(class Symbol_t *) proc near
XFGHelper::XFGHasher::add_string sub rsp, 38h
XFGHelper::XFGHasher::add_string+4 cmp byte ptr [rdx+11h], 4
XFGHelper::XFGHasher::add_string+8 jnz short loc_18010568B
XFGHelper::XFGHasher::add_string+A mov r8, [rdx]
XFGHelper::XFGHasher::add_string+D mov eax, [r8+10h]
XFGHelper::XFGHasher::add_string+11 shr eax, 16h
XFGHelper::XFGHasher::add_string+14 test al, 1 ; union/struct/enum is named?
XFGHelper::XFGHasher::add_string+16 jz short loc_180105674
XFGHelper::XFGHasher::add_string+18 lea r9, aUnnamed+9 ; ""
XFGHelper::XFGHasher::add_string+1F lea r8, aUnnamed ; "<unnamed>"
XFGHelper::XFGHasher::add_string+26
XFGHelper::XFGHasher::add_string+26 loc_180105666:
XFGHelper::XFGHasher::add_string+26 mov rdx, [rcx+8]
XFGHelper::XFGHasher::add_string+2A call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
XFGHelper::XFGHasher::add_string+2F add rsp, 38h
XFGHelper::XFGHasher::add_string+33 retn
XFGHelper::XFGHasher::add_string+34 ; ---------------------------------------------------------------------------
XFGHelper::XFGHasher::add_string+34
XFGHelper::XFGHasher::add_string+34 loc_180105674:
XFGHelper::XFGHasher::add_string+34 mov r8, [r8+8] ; r8 = union/struct/enum name
XFGHelper::XFGHasher::add_string+38 or r9, 0FFFFFFFFFFFFFFFFh
XFGHelper::XFGHasher::add_string+3C
XFGHelper::XFGHasher::add_string+3C loc_18010567C:
XFGHelper::XFGHasher::add_string+3C inc r9
XFGHelper::XFGHasher::add_string+3F cmp byte ptr [r8+r9], 0
XFGHelper::XFGHasher::add_string+44 jnz short loc_18010567C
XFGHelper::XFGHasher::add_string+46 add r9, r8 ; r9 points to end of string
XFGHelper::XFGHasher::add_string+49 jmp short loc_180105666
之后,函数XFGHelper::XFGTypeHasher::hash_tag中有一个分支代码,可以在某些情况下将字符串“<local>”添加到要哈希的数据中。我对此没有进行太多研究,但它可能处理了局部范围的union/struct/enum的情况。
XFGHelper::XFGTypeHasher::hash_tag+4D mov rbx, [rbx+18h]
XFGHelper::XFGTypeHasher::hash_tag+51 test rbx, rbx
XFGHelper::XFGTypeHasher::hash_tag+54 jnz short loc_180105A16
XFGHelper::XFGTypeHasher::hash_tag+56 jmp short loc_180105A76
XFGHelper::XFGTypeHasher::hash_tag+58 ; ---------------------------------------------------------------------------
XFGHelper::XFGTypeHasher::hash_tag+58
XFGHelper::XFGTypeHasher::hash_tag+58 loc_180105A5C:
XFGHelper::XFGTypeHasher::hash_tag+58 mov rdx, [rdi+8]
XFGHelper::XFGTypeHasher::hash_tag+5C lea r9, aLocal+7 ; ""
XFGHelper::XFGTypeHasher::hash_tag+63 lea r8, aLocal ; "<local>"
XFGHelper::XFGTypeHasher::hash_tag+6A mov rcx, rdi
XFGHelper::XFGTypeHasher::hash_tag+6D call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
原始类型的哈希
在处理原始类型(Type_t值中没有0x100、0x200或0x400的类型)时,在将值为1的字节写入std::vector后,XFGHelper::XFGTypeHasher::compute_hash函数调用XFGHelper::XFGTypeHasher::hash_primitive函数。
XFGHelper::XFGTypeHasher::hash_primitive基本上是一个大的switch语句,它把Type_t值映射到另一组表示primitive类型的常量。得到的常量(一个字节)然后被添加到std::vector中。例如,对于由Type_t 0x26表示的浮点类型,该函数将一个值为0x0B的字节添加到std::vector。
XFGHelper::XFGTypeHasher::hash_primitive private: void XFGHelper::XFGTypeHasher::hash_primitive(class Type_t const *) proc near
XFGHelper::XFGTypeHasher::hash_primitive sub rsp, 38h
XFGHelper::XFGTypeHasher::hash_primitive+4 mov eax, [rdx]
XFGHelper::XFGTypeHasher::hash_primitive+6 mov r10, rcx
XFGHelper::XFGTypeHasher::hash_primitive+9 and eax, 1FFFh
XFGHelper::XFGTypeHasher::hash_primitive+E cmp eax, 40h ; '@'
XFGHelper::XFGTypeHasher::hash_primitive+11 ja loc_1801059D4
XFGHelper::XFGTypeHasher::hash_primitive+17 jz loc_1801059D0 ; case 0x40:
XFGHelper::XFGTypeHasher::hash_primitive+1D cmp eax, 1Ah
XFGHelper::XFGTypeHasher::hash_primitive+20 ja short loc_18010599E
[...]
XFGHelper::XFGTypeHasher::hash_primitive+6E loc_18010599E:
XFGHelper::XFGTypeHasher::hash_primitive+6E sub eax, 1Bh ; case 0x1B:
XFGHelper::XFGTypeHasher::hash_primitive+71 jz short loc_1801059CC
XFGHelper::XFGTypeHasher::hash_primitive+73 sub eax, 1 ; case 0x1C:
XFGHelper::XFGTypeHasher::hash_primitive+76 jz short loc_1801059C8
XFGHelper::XFGTypeHasher::hash_primitive+78 sub eax, 2 ; case 0x1E:
XFGHelper::XFGTypeHasher::hash_primitive+7B jz short loc_1801059C4
XFGHelper::XFGTypeHasher::hash_primitive+7D sub eax, 8 ; case 0x26 (float):
XFGHelper::XFGTypeHasher::hash_primitive+80 jz short loc_1801059C0
[...]
XFGHelper::XFGTypeHasher::hash_primitive+90 loc_1801059C0:
XFGHelper::XFGTypeHasher::hash_primitive+90 mov cl, 0Bh ; primitive_type = 0xB (float)
XFGHelper::XFGTypeHasher::hash_primitive+92 jmp short loc_1801059DE
[...]
XFGHelper::XFGTypeHasher::hash_primitive+AE loc_1801059DE:
XFGHelper::XFGTypeHasher::hash_primitive+AE mov rdx, [r10+8]
XFGHelper::XFGTypeHasher::hash_primitive+B2 lea r9, [rsp+38h+arg_9]
XFGHelper::XFGTypeHasher::hash_primitive+B7 mov [rsp+38h+arg_8], cl ; value to add: primitive_type
XFGHelper::XFGTypeHasher::hash_primitive+BB lea r8, [rsp+38h+arg_8]
XFGHelper::XFGTypeHasher::hash_primitive+C0 mov rcx, r10
XFGHelper::XFGTypeHasher::hash_primitive+C3 call std::vector<uchar>::_Insert_range<uchar const *>(std::_Vector_const_iterator<std::_Vector_val<std::_Simple_types<uchar>>>,uchar const *,uchar const *,std::forward_iterator_tag)
哈希的最终转换
到目前为止,我们已经深入描述了C编译器前端如何为XFG计算函数原型的哈希。如果我们必须用一些类似于python的伪代码来总结它,我们可以说函数的哈希是这样构建的:
hash = sha256(number_of_params +
type_hash(params[0]) +
type_hash(params[...]) +
type_hash(params[n]) +
is_variadic +
calling_convention +
type_hash(return_type)
)[0:8]
XFG函数哈希是SHA256摘要的截断版本(仅保留了前8个字节),因此与完整的SHA256散列相比,它们的抗冲突性降低了,但是我们可以预计不同的XFG哈希可以合理地哈希函数的雪崩效应看起来不相关的,对吧?
但是,如果在给定的二进制文件上检查了一组XFG哈希(我选择了ntdll.dll),您会注意到它们似乎没有64位熵:
function 0x180001a30 -> prototype hash: 0x8d952e0d365aa071
function 0x180001b50 -> prototype hash: 0xe2198f4a3c515871
function 0x180001dc0 -> prototype hash: 0xbeac2e06165fc871
function 0x180001de0 -> prototype hash: 0xfaec0e7f70d92371
function 0x180001fc0 -> prototype hash: 0xc5d11eb750d75871
function 0x180002030 -> prototype hash: 0xe8bcaf9a10586871
function 0x180002040 -> prototype hash: 0xc3110f087e584871
function 0x1800020b0 -> prototype hash: 0xdbc1261858d2f871
function 0x1800023a0 -> prototype hash: 0xda690f3e36531a71
这背后的原因是编译器前端(c1.dll)生成截断的SHA256哈希在实际写入结果文件对象之前接受编译器后端(c2.dll)的最终转换。更准确地说,c2.dll中的XfgIlVisitor::visit_I_XFG_HASH函数对截断的SHA256哈希应用两个掩码:
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+5B mov rcx, 8000060010500070h
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+65 mov r13, 0FFFDBFFF7EDFFB70h
[...]
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+E9 mov rdx, [rax] ; rdx = 8 bytes of SHA256 hash
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+EC add rax, 8
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F0 and rdx, r13 ; hash &= 0FFFDBFFF7EDFFB70h
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F3 mov [rbx], rax
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F6 or rdx, rcx ; hash |= 8000060010500070h
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F9 mov ecx, r9d ; this
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+FC call XFG::TiSetHash(ulong,unsigned __int64,tagMOD *)
这就是为什么XFG哈希尽管是基于SHA256看起来也不完全随机的原因。不过,我不知道为什么要使用这些掩码。
手动哈希计算练习
为了验证我们已经正确理解了如何生成XFG哈希,让我们尝试手动计算XFG哈希。假设我们要使用以下原型计算函数的哈希值:
void * memcpy (
void * dest ,
const void * src ,
size_t count
);
我们需要找出构成函数原型的5条数据:
- 1.参数数量;
- 2.为每个参数输入哈希值;
- 3.是否具有可变参函数?
- 4.调用约定;
- 5.返回类型的哈希值。
1、3和4都很简单:
- 1.参数数量-> DWORD,值为3;
- 3.是可变函数吗?->值为0的字节;
- 4.调用约定->默认值(DWORD值为0x201&0xF == 0x1)。
因此,让我们计算更复杂的部分:每个参数类型的哈希,以及返回类型的哈希。
参数1的类型哈希
第一个参数的类型为void*。该类型由以下内容的Type_t表示:
00000102 00000200 [+ pointer to referenced Type_t]
我们需要找出3个数据来产生类型哈希:
- 类型限定符->值为0的字节;
- 类型组:它是一个指针->byte,值为3;
- 特定类型的数据:这是一个“通用”指针->引用类型的哈希(在这里我们有递归)+值为2的byte。
为了递归计算引用类型(void)的哈希,该类型由Type_t表示,其内容如下:
00000040 00000000
我们需要的数据构造如下:
- 类型限定符->值为0的byte;
- 类型组:它是原始类型->byte,值为1;
- 类型特定的数据:对于Type_t 0x40(void),XFGHelper::XFGTypeHasher::hash_primitive写入一个值0x0E的byte。
参数2的类型哈希
第二个参数的类型为const void*。该类型由以下内容的Type_t表示:
00000102 00000200 [+ pointer to referenced Type_t]
我们需要的数据构造如下:
- 类型限定符->值为0的byte;
- 类型组:它是一个指针->byte,值为3;
- 特定类型的数据:这是一个“通用”指针->引用类型的哈希(在这里我们有递归)+值为2的byte。
为了递归计算引用类型(const void)的哈希,该类型由Type_t表示,其内容如下:00000040 00000800
我们需要的数据构建如下:
- 类型限定符:它具有const限定符->编码为值1的字节;
- 类型组:它是原始类型->字节,值为1;
- 类型特定的数据:对于Type_t 0x40(void)-> XFGHelper::XFGTypeHasher::hash_primitive写入一个值0x0E的byte。
参数3的类型哈希
参数的类型为size_t。该类型由以下内容的Type_t表示:
00004019 00000000
我们需要的数据构造如下:
- 类型限定符->值为0的byte;
- 类型组:它是原始类型->byte,值为1;
- 类型特定的数据:对于Type_t 0x4019(无符号long long)-> XFGHelper::XFGTypeHasher::hash_primitive写入一个值0x88的byte。
返回类型的类型哈希
返回类型为void *,与该函数的第一个参数相同,因此在这里我们只重复之前获取的内容。
- 类型限定符->值为0的byte;
- 类型组:它是一个指针->byte,值为3;
- 特定类型的数据:这是一个“通用”指针->引用类型的哈希(在这里我们有递归)+值为2的byte。
对于引用类型(void)的哈希的递归计算:
- 类型限定符->值为0的byte;
- 类型组:它是原始类型->byte,值为1;
- 类型特定的数据:对于Type_t 0x40(void),XFGHelper::XFGTypeHasher::hash_primitive写入一个值0x0E的byte。
组合在一起
让我们将所有数据组合在一起:
# Number of params
03 00 00 00
# type hash of param 1 (void *)
SHA256(
00 #qualifiers
03 # type group: pointer
# type hash of referenced type (void)
SHA256(
00 # qualifiers
01 # type group: primitive type
0E # hash of primitive type: void -> 0x0E
)[0:8]
02 # regular pointer
)[0:8]
# type hash of param 2 (const void *)
SHA256(
00 # qualifiers
03 # type group: pointer
# type hash of referenced type (const void)
SHA256(
01 # qualifiers: const
01 # type group: primitive type
0E # hash of primitive type: void -> 0x0E
)[0:8]
02 # regular pointer
)[0:8]
# type hash of param 3 (size_t)
SHA256(
00 # qualifiers
01 # type group: primitive type
88 # hash of primitive type: unsigned long long -> 0x88
)[0:8]
# is variadic
00
# calling convention
01 00 00 00
# type hash of return value (void *)
SHA256(
00 # qualifiers
03 # type group: pointer
# type hash of referenced type (void)
SHA256(
00 # qualifiers
01 # type group: primitive type
0E # hash of primitive type: void -> 0x0E
)[0:8]
02 # regular pointer
)[0:8]
以下Python代码获取该数据的SHA256摘要,并将其截断为前8个字节,以获取与编译器前端发出的哈希相同的哈希。最后,它将编译器后端的两个掩码应用于最终形成的XFG哈希:
import struct
import hashlib
def truncated_hash(data):
return hashlib.sha256(data).digest()[0:8]
def apply_backend_masks(hash):
hash = hash & 0xFFFDBFFF7EDFFB70
hash = hash | 0x8000060010500070
return hash
def main():
# number of params
data = struct.pack('<L', 3)
# type hash of first param (void *)
data += truncated_hash(b'\x00\x03' + truncated_hash(b'\x00\x01\x0e') + b'\x02')
# type hash of second param (const void *)
data += truncated_hash(b'\x00\x03' + truncated_hash(b'\x01\x01\x0e') + b'\x02')
# type hash of third param (size_t)
data += truncated_hash(b'\x00\x01\x88')
# is variadic
data += struct.pack('<B', 0x0)
# calling convention (default)
data += struct.pack('<L', 0x201 & 0x0F)
# type hash of return type (void *)
data += truncated_hash(b'\x00\x03' + truncated_hash(b'\x00\x01\x0e') + b'\x02')
print(f'Data to be hashed: {data} ({len(data)} bytes)')
frontend_hash = struct.unpack('<Q', truncated_hash(data))[0]
print(f'Hash generated by the frontend: 0x{frontend_hash:x}')
final_hash = apply_backend_masks(frontend_hash)
print(f'[*] Final XFG hash: 0x{final_hash:x}')
该Python代码的输出如下:
> python test.py
Data to be hashed: b'\x03\x00\x00\x00\xf5\x97x>[J`\xb0\x17\x80\xb8\xc0[\x1b\xd0\xd8#\x14\xb4\xba\x91\xc7\xf6j\x00\x01\x00\x00\x00\xf5\x97x>[J`\xb0' (41 bytes)
Hash generated by the frontend: 0x1da7d393d6b63a72
[*] Final XFG hash: 0x9da5979356d63a70
如果我们使用函数指针编译一些代码以调用其原型与本节中讨论的原型相匹配的函数,则可以看到,我们手动计算的XFG哈希与MSVC生成的哈希完全匹配。请参考在下面的反汇编中的main + 0x8E处寄存器R10的值:
main+1C lea rax, my_memcpy
main+23 mov [rsp+78h+var_50], rax
[...]
main+6A lea rcx, aCallingFunctio ; "Calling function pointer...\n"
main+71 call printf
main+76 lea rcx, Str ; "a test"
main+7D call strlen
main+82 cdqe
main+84 mov rcx, [rsp+78h+var_50]
main+89 mov [rsp+78h+var_48], rcx
main+8E mov r10, 9DA5979356D63A70h
main+98 mov r8, rax
main+9B lea rdx, aATest_0 ; "a test"
main+A2 lea rcx, [rsp+78h+var_28]
main+A7 mov rax, [rsp+78h+var_48]
main+AC call cs:__guard_xfg_dispatch_icall_fptr
总结
在这篇博文中,我想分享MSVC编译器如何为C程序生成XFG哈希的所有细节。除了讨论即将到来的漏洞攻击缓解的细节之外,本文还允许深入研究编译器内部。
目前XFG只在Windows Insider Preview版本中找到,所以在CFI解决方案成为Windows 10的官方发行版之前,我们在这里介绍的内容可能会发生变化。
目前尚无答案,例如为什么编译器后端对前端生成的哈希应用两个位掩码,以及为什么哈希存储在函数启动之前设置了0位,但在XFG指令的调用位置中保留了0位。
最后,看看C++编译器前端(c1xx.dll)计算XFG哈希的方式有什么不同是很有趣的。快速浏览一下这个二进制文件就会发现,哈希算法看起来与C语言中使用的算法非常相似,但是它很可能会被修改,以考虑继承和C++类型限定符和修饰符等c++概念。