Alloca实施
如何在D,C和C ++等语言中使用内联x86汇编程序实现alloca()? 我想创建一个稍微修改过的版本,但首先我需要知道标准版本是如何实现的。 从编译器中读取反汇编并没有帮助,因为它们执行了很多优化,我只想要规范forms。
编辑:我想困难的部分是我希望它具有正常的函数调用语法,即使用裸函数或其他东西,使它看起来像普通的alloca()。
编辑#2:啊,到底是什么,你可以假设我们没有省略帧指针。
实现alloca
实际上需要编译器帮助 。 这里的一些人说这很简单:
sub esp,
不幸的是,这只是图片的一半。 是的,将“在堆栈上分配空间”,但有几个陷阱。
-
如果编译器发出的代码引用了相对于
esp
而不是ebp
其他变量(如果没有帧指针编译则典型)。 然后需要调整这些参考。 即使使用帧指针,编译器有时也会这样做。 -
更重要的是,根据定义,当函数退出时,必须“释放”分配了
alloca
空间。
最重要的是第2点。 因为您需要编译器发出代码以在函数的每个出口点对称地将
添加到esp
。
最可能的情况是编译器提供了一些内在函数,允许库编写者向编译器询问所需的帮助。
编辑:
实际上,在glibc(GNU的libc实现)中。 alloca
的实现就是这样:
#ifdef __GNUC__ # define __alloca(size) __builtin_alloca (size) #endif /* GCC. */
编辑:
在考虑之后,我认为需要的最小值是编译器在任何使用alloca
函数中始终使用帧指针,而不管优化设置如何。 这将允许所有本地人安全地通过ebp
引用,并且通过将帧指针恢复到esp
来处理帧清理。
编辑:
所以我做了一些像这样的事情的实验:
#include #include #include #define __alloca(p, N) \ do { \ __asm__ __volatile__( \ "sub %1, %%esp \n" \ "mov %%esp, %0 \n" \ : "=m"(p) \ : "i"(N) \ : "esp"); \ } while(0) int func() { char *p; __alloca(p, 100); memset(p, 0, 100); strcpy(p, "hello world\n"); printf("%s\n", p); } int main() { func(); }
遗憾的是,它无法正常工作 。 在通过gcc分析assembly输出之后。 似乎优化会妨碍。 问题似乎是因为编译器的优化器完全没有意识到我的内联汇编,所以它习惯于以意想不到的顺序执行操作并仍然通过esp
引用事物。
这是由此产生的ASM:
8048454: push ebp 8048455: mov ebp,esp 8048457: sub esp,0x28 804845a: sub esp,0x64 ; <- this and the line below are our "alloc" 804845d: mov DWORD PTR [ebp-0x4],esp 8048460: mov eax,DWORD PTR [ebp-0x4] 8048463: mov DWORD PTR [esp+0x8],0x64 ; <- whoops! compiler still referencing via esp 804846b: mov DWORD PTR [esp+0x4],0x0 ; <- whoops! compiler still referencing via esp 8048473: mov DWORD PTR [esp],eax ; <- whoops! compiler still referencing via esp 8048476: call 8048338 804847b: mov eax,DWORD PTR [ebp-0x4] 804847e: mov DWORD PTR [esp+0x8],0xd ; <- whoops! compiler still referencing via esp 8048486: mov DWORD PTR [esp+0x4],0x80485a8 ; <- whoops! compiler still referencing via esp 804848e: mov DWORD PTR [esp],eax ; <- whoops! compiler still referencing via esp 8048491: call 8048358 8048496: mov eax,DWORD PTR [ebp-0x4] 8048499: mov DWORD PTR [esp],eax ; <- whoops! compiler still referencing via esp 804849c: call 8048368 80484a1: leave 80484a2: ret
如您所见,它并非如此简单。 不幸的是,我坚持我最初的断言,你需要编译器帮助。
这样做很棘手 – 实际上,除非你对编译器的代码生成有足够的控制权,否则它无法完全安全地完成。 你的例程必须操纵堆栈,这样当它返回时,所有东西都被清理干净,但是堆栈指针仍然处于这样的位置,即内存块保留在那个位置。
问题是,除非你可以通知编译器已经在函数调用中修改了堆栈指针,它可能会决定它可以通过堆栈指针继续引用其他本地(或其他) – 但是偏移量将是不正确。
对于D编程语言,alloca()的源代码随附下载 。 它的工作原理得到了很好的评论。 对于dmd1,它位于/dmd/src/phobos/internal/alloca.d中。 对于dmd2,它位于/dmd/src/druntime/src/compiler/dmd/alloca.d中。
C和C ++标准没有规定alloca()
必须使用堆栈,因为alloca()
不在C或C ++标准(或POSIX)中。
编译器也可以使用堆实现alloca()
。 例如,ARM RealView(RVCT)编译器的alloca()
使用malloc()
来分配缓冲区( 在此处在其网站上引用 ),并且还使编译器发出代码,以便在函数返回时释放缓冲区。 这不需要使用堆栈指针,但仍需要编译器支持。
Microsoft Visual C ++有一个_malloca()
函数,如果堆栈上没有足够的空间,它会使用堆,但它需要调用者使用_freea()
,这与_alloca()
不同,后者不需要/想要显式释放。
(使用C ++析构函数,显然可以在没有编译器支持的情况下进行清理,但是你不能在任意表达式中声明局部变量,所以我认为你不能写一个使用RAII的alloca()
宏。 ,显然你不能在某些表达式(如函数参数 )中使用alloca()
。)
¹是的,编写一个简单地调用system("/usr/games/nethack")
的alloca()
是合法的。
alloca直接在汇编代码中实现。 那是因为你无法直接从高级语言控制堆栈布局。
另请注意,大多数实现都会执行一些额外的优化,例如出于性能原因而对齐堆栈。 在X86上分配堆栈空间的标准方法如下所示:
sub esp, XXX
而XXX是allcoate的字节数
编辑:
如果您想查看实现(并且您正在使用MSVC),请参阅alloca16.asm和chkstk.asm。
第一个文件中的代码基本上将所需的分配大小与16字节边界对齐。 第二个文件中的代码实际上遍历属于新堆栈区域的所有页面并触及它们。 这可能会触发操作系统用来增加堆栈的PAGE_GAURDexception。
延续传球风格Alloca
纯ISO C ++中的可变长度数组。 概念validation实施。
用法
void foo(unsigned n) { cps_alloca(n,[](Payload *first,Payload *last) { fill(first,last,something); }); }
核心理念
template auto cps_alloca_static(F &&f) -> decltype(f(nullptr,nullptr)) { T data[N]; return f(&data[0],&data[0]+N); } template auto cps_alloca_dynamic(unsigned n,F &&f) -> decltype(f(nullptr,nullptr)) { vector data(n); return f(&data[0],&data[0]+n); } template auto cps_alloca(unsigned n,F &&f) -> decltype(f(nullptr,nullptr)) { switch(n) { case 1: return cps_alloca_static(f); case 2: return cps_alloca_static(f); case 3: return cps_alloca_static(f); case 4: return cps_alloca_static(f); case 0: return f(nullptr,nullptr); default: return cps_alloca_dynamic(n,f); }; // mpl::for_each / array / index pack / recursive bsearch / etc variacion }
现场演示
github上的cps_alloca
您可以检查开源C编译器的源代码,例如Open Watcom ,并自行查找
如果你不能使用c99的可变长度数组,你可以使用复合文字强制转换为void指针。
#define ALLOCA(sz) ((void*)((char[sz]){0}))
这也适用于-ansi(作为gcc扩展),甚至当它是一个函数参数时;
some_func(&useful_return, ALLOCA(sizeof(struct useless_return)));
缺点是当编译为c ++时,g ++> 4.6会给你一个错误:获取临时数组的地址 … clang和icc虽然不抱怨
我们想要做的是这样的:
void* alloca(size_t size) { -= size; return ; }
在Assembly(Visual Studio 2017,64bit)中,它看起来像:
;alloca.asm _TEXT SEGMENT PUBLIC alloca alloca PROC sub rsp, rcx ; -= size mov rax, rsp ;return ; ret alloca ENDP _TEXT ENDS END
不幸的是,我们的返回指针是堆栈中的最后一项,我们不想覆盖它。 另外,我们需要注意对齐,即。 圆形大小可达8的倍数。所以我们必须这样做:
;alloca.asm _TEXT SEGMENT PUBLIC alloca alloca PROC ;round up to multiple of 8 mov rax, rcx mov rbx, 8 xor rdx, rdx div rbx sub rbx, rdx mov rax, rbx mov rbx, 8 xor rdx, rdx div rbx add rcx, rdx ;increase stack pointer pop rbx sub rsp, rcx mov rax, rsp push rbx ret alloca ENDP _TEXT ENDS END
Alloca很简单,只需向上移动堆栈指针; 然后生成所有读/写指向这个新块
sub esp, 4
我推荐“输入”指令。 可以在286和更新的处理器上使用( 也可能在186上可用,我不记得,但不管怎么说都没有广泛使用)。