我的一个项目从网上提取了一份文档并阅读了它。本文档由第三方提供,不会更改(内容会更改,但格式和其他内容不会更改)。问题是该文档包含从 Word 中复制和粘贴的内容,即 UTF-8,但是该文档以 ISO-8858-1 编码,因此这些字符作为“?”保存到数据库中。
如果我跳过文本,然后用 UTF-8 重新编码,而不是得到 smartquotes 和 em 破折号,我只会得到两个垃圾字符。
如何将此带有 UTF-8 字符的 ISO-8859-1 文档转换回 UTF-8,以便它可以像最初创建的那样显示?