什么是逃脱(\)角色背后的魔法

C / C ++编译器如何操作源代码中的转义字符[“\”]? 如何编写用于处理该字符的编译器语法? 编译器遇到该字符后会做什么?

大多数编译器分为几部分:编译器前端称为词法分析器或扫描器。 编译器的这一部分读取实际字符并创建令牌。 它有一个状态机,它在看到转义字符时决定它是否是真的(例如当它出现在字符串中时)或者它修改下一个字符。 令牌相应地作为转义字符或一些其他标记(例如制表符或换行符)输出到编译器的下一部分( 解析器 )。 状态机可以将多个字符组合成一个令牌。

关于这一主题的一个有趣的说明是On Trusting Trust [PDF链接] 。

本文描述了编译器可以准确处理此问题的一种方法,显示了c-written-in-c编译器如何将代码显式转换为ASCII值; 以及如何将新的转义代码引导到编译器中,以便了解新代码的ASCII值也是隐含的。

它通常会逃脱以下字符:

  • 在字符串文字或字符文字中,它表示转义下一个字符。 \a表示’警告’(闪烁终端,哔哔声或其他), \n表示’换行’, \xNUM表示例如hex数。
  • 如果它在换行符之前显示为最后一个可见字符,无论是否在字符串中(甚至在行范围的注释中!),它都将作为一个行继续:以下换行符被忽略,下一行是与当前行合并。

具有以下字符的转义字符(如\n )是C编译器的单个字符 – 扫描程序将其作为字符标记呈现给解析器,因此解析器中不需要特殊的语法规则来转义字符。