11

将外部来源的文本粘贴到纯文本编辑器(例如 TextMate 或 Sublime Text 2)时,一个常见问题是特殊字符也经常被粘贴。其中一些字符呈现良好,但根据来源,有些可能无法正确显示(通常显示为一个问号,周围有一个框)。

所以这实际上是2个问题:

  1. 给定一个特殊字符(例如,' 或 ♥),我能否确定用于从我的文本编辑器中显示该字符的 UTF-8 字符代码,和/或将这些字符转换为它们的字符代码?

  2. 对于那些作为垃圾进入的“额外特殊”字符,有没有办法弄清楚在源文本中使用什么编码来显示该字符,并且这些字符可以以某种方式转换为 UTF-8?

4

2 回答 2

18

我最喜欢查找字符的网站是fileformat.info。他们有一个很棒的 Unicode 字符搜索,包括很多关于每个字符及其各种编码的有用信息。

如果您看到带方框的问号,则表示您粘贴了一些无法解释的内容,通常是因为它不是合法的 UTF-8(并非每个字节序列都是合法的 UTF-8)。一种可能性是它是 UTF-16,具有您的编辑器不期望的字节序模式。如果您可以将完整的原始源代码放入文件中,那么该file命令通常是确定编码的最佳工具。

于 2012-11-01T03:45:41.497 回答
8

&what我构建了一个专注于搜索角色的工具。它索引了所有的 Unicode 和 HTML 实体表,还补充了黑客词典和我收集的关键字数据库,因此您可以搜索诸如heartquotweatherumlaut、之类的词hashcloverleaf并得到您想要的。通过专注于搜索,它避免了在 Unicode 页面周围寻找,这可能会令人沮丧。试试看。

于 2013-08-06T16:28:41.650 回答