是否可以使用Unicode“argv”？

我正在为一个使用文件作为参数的应用程序编写一个小包装器。

包装器需要是Unicode，所以我使用wchar_t作为我拥有的字符和字符串。现在我发现自己遇到了问题，我需要在wchar_t和wchar_t字符串数组中包含程序的参数。

可能吗？我将mainfunction定义为

 int main(int argc, char *argv[])

我应该将wchar_t用于argv吗？

非常感谢，我似乎没有找到有关如何在C中正确使用Unicode的有用信息。

一般来说，没有。它取决于O / S，但C标准说’main（）’的参数必须是’main（int argc，char ** argv）’或等价，所以除非char和wchar_t是相同的基本类型，你不能这样做。

话虽如此，你可以在程序中获得UTF-8参数字符串，将它们转换为UTF-16或UTF-32，然后继续生活。

在Mac（10.5.8，Leopard）上，我得到了：

 Osiris JL: echo "ï€" | odx 0x0000: C3 AF E2 82 AC 0A ...... 0x0006: Osiris JL:

这都是UTF-8编码的。（odx是一个hex转储程序）。

另请参阅：为什么在与UNIX / Linux环境交互时使用UTF-8编码

便携式代码不支持它。 Windows（例如）支持使用wmain而不是main ，在这种情况下，argv作为宽字符传递。

在Windows上，您可以使用GetCommandLineW()和CommandLineToArgvW()生成argv样式的wchar_t[]数组，即使该应用程序未针对Unicode进行编译也是如此。

无论如何，在Windows上，您可以拥有一个用于UNICODE构建的wmain() 。虽然不便携。如果GCC或Unix / Linux平台提供类似的东西，我不知道。

假设您的Linux环境使用UTF-8编码，那么以下代码将准备您的程序，以便在C ++中轻松进行Unicode处理：

  int main(int argc, char * argv[]) { std::setlocale(LC_CTYPE, ""); // ... }

接下来，wchar_t类型在Linux中是32位，这意味着它可以保存单独的Unicode代码点，并且您可以安全地使用wstring类型进行C ++中的经典字符串处理（逐个字符）。使用上面的setlocale调用，插入wcout将自动将输出转换为UTF-8，从wcin中提取将自动将UTF-8输入转换为UTF-32（1个字符= 1个代码点）。唯一的问题是argv [i]字符串仍然是UTF-8编码的。

您可以使用以下函数将UTF-8解码为UTF-32。如果输入字符串已损坏，它将返回正确转换的字符，直到UTF-8规则被破坏的位置。如果您需要更多错误报告，可以改进它。但对于argv数据，可以安全地假设它是正确的UTF-8：

 #define ARR_LEN(x) (sizeof(x)/sizeof(x[0])) wstring Convert(const char * s) { typedef unsigned char byte; struct Level { byte Head, Data, Null; Level(byte h, byte d) { Head = h; // the head shifted to the right Data = d; // number of data bits Null = h << d; // encoded byte with zero data bits } bool encoded(byte b) { return b>>Data == Head; } }; // struct Level Level lev[] = { Level(2, 6), Level(6, 5), Level(14, 4), Level(30, 3), Level(62, 2), Level(126, 1) }; wchar_t wc = 0; const char * p = s; wstring result; while (*p != 0) { byte b = *p++; if (b>>7 == 0) { // deal with ASCII wc = b; result.push_back(wc); continue; } // ASCII bool found = false; for (int i = 1; i < ARR_LEN(lev); ++i) { if (lev[i].encoded(b)) { wc = b ^ lev[i].Null; // remove the head wc <<= lev[0].Data * i; for (int j = i; j > 0; --j) { // trailing bytes if (*p == 0) return result; // unexpected b = *p++; if (!lev[0].encoded(b)) // encoding corrupted return result; wchar_t tmp = b ^ lev[0].Null; wc |= tmp << lev[0].Data*(j-1); } // trailing bytes result.push_back(wc); found = true; break; } // lev[i] } // for lev if (!found) return result; // encoding incorrect } // while return result; } // wstring Convert

在Windows上，您可以使用tchar.h和_tmain，如果在编译时定义了_UNICODE符号，则将其转换为wmain，否则为main。如果定义了unicode，TCHAR * argv []将同样扩展为WCHAR * argv []，否则将扩展为char * argv []。

如果您希望主要方法跨平台工作，则可以将自己的宏定义为相同的效果。

TCHAR.h包含许多用于在wchar和char之间进行转换的便捷宏。

是否可以使用Unicode“argv”？

叉后的变量

feof（）和fscanf（）在将字节1b扫描为char后停止工作。是因为它在ascii中是’ESC’吗？我能做什么？

如何隐藏我的Windows Gtk应用程序的命令提示符？

在C中使用strsep（）和动态字符串数组

C传递可变大小的二维数组来起作用

简写typedef指向常量结构的指针

归零记忆

如何递归浏览文件夹并计算总文件大小

在函数内动态分配2D数组（使用指针返回已分配对象的地址）

为什么转换规范％lf对于printf中的Double不起作用

是否可以使用Unicode“argv”？

叉后的变量

feof（）和fscanf（）在将字节1b扫描为char后停止工作。 是因为它在ascii中是’ESC’吗？ 我能做什么？

如何隐藏我的Windows Gtk应用程序的命令提示符？

在C中使用strsep（）和动态字符串数组

C传递可变大小的二维数组来起作用

简写typedef指向常量结构的指针

归零记忆

如何递归浏览文件夹并计算总文件大小

在函数内动态分配2D数组（使用指针返回已分配对象的地址）

为什么转换规范％lf对于printf中的Double不起作用

feof（）和fscanf（）在将字节1b扫描为char后停止工作。是因为它在ascii中是’ESC’吗？我能做什么？