我有一个使用 boost 的 regex_search() 从 html 页面检索的字符串。然而不幸的是,页面中的日文字符被写为 \u 代码,并且这些被 regex_search 解释为字符串中的普通字符。
所以,我的问题是,如何将这些代码转换为普通的 Unicode 文本?(显然是UTF-8)
这是 fstream 完全不考虑 UTF-8 的一个基本问题。看起来 boost 有自己的 fstream 实现,但改成它对我的程序没有影响,而且我找不到任何额外的设置来配置 boost 的 fstream 以使用 UTF-8(尽管今天是我工作的第一天有了提升,我可能会错过它)。
最后一点:我在 linux 上运行它,但我肯定会喜欢一个可移植的解决方案,而不是特定于系统的解决方案。
谢谢大家,我真的很感激帮助:D