Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我知道有很多关于这个话题的讨论,其中之一是:HTML 编码问题 - “”字符出现而不是“ ”
我确实遵循了它,但我想在不向我的 html 添加任何“元字符集”标签的情况下解决这个问题,事实上,我正在从标题中删除所有标签(Nokogiri 对此有一些问题)。是否有任何可能的正则表达式可用于从输出中消除这些 Â?我将输出扔到“csv”,我可以在 csv 文件中看到这些 Â。
谢谢!
如果您打算解决 UTF-8 编码文档被解释为 ISO-8859-1 的问题,那么您只需要编写一个正则表达式,将 Unicode 字符的 UTF-8 编码形式(总共约 100,000 个)映射到正确的字符。显然,这从一开始就是一个坏主意。