unicode - 搜索引擎将如何对不同的 unicode 做出反应？

Question

我正在开发一个格鲁吉亚语的网站。格鲁吉亚字母表有自己的 Unicode 范围，但也有一些特殊的字体，用格鲁吉亚字形代替英文字符，有点像“Symbol”和“Dingbats”字体。

例如，字符串“saqarTvelo”将使用这些字体呈现为“საქართველო”。所以现在我有两个选择，不知道该怎么做：

在我的网站上使用格鲁吉亚语 Unicode，但问题是所有字体都是为英语 Unicode 创建的，并且不适用于格鲁吉亚语 Unicode。
使用带有英文 Unicode 的格鲁吉亚字体。但我不知道搜索引擎会如何反应。

请告诉我该怎么做，我被堆积了！

score 2 · Accepted Answer

简短的回答是，使用您在选项 1 中的意思的方法，搜索引擎会将您的文本中的“საქართველო”一词视为“saqarTvelo”，因此正常搜索将失败。

这个问题似乎是指在网页上使用格鲁吉亚字母的两种不同方式：

使用 Unicode 编码，因此字符将使用 Unicode 编码字体（这是大多数字体，但大多数字体不包含格鲁吉亚字母）呈现。
使用非标准的“私有”编码，通常将 256 个不同的代码位置（8 位组合）映射到某些目的所需的任何字符。这假定文本是使用以相同方式编码的字体呈现的。

方法 2 可以说是一种错误的方法，但它从早期就已经在 Web 上使用（即使 CSS 不可用并且不得不求助于<font face=...>设置字体），尤其是在早期。除非用户的计算机具有特定的“私人”编码字体（或某些字体编码完全相同的方式），否则它确实不起作用。由于搜索引擎与字体无关，它们只看到 8 位代码并尝试以页面声明或隐含的编码来解释它们，而不是“私有”编码（无法声明，因为它没有公布的定义和没有标准名称，或任何名称）。

方法 1 的问题是，要使其工作，用户的计算机需要有一些（Unicode 编码的字体）支持所使用的字符。如今，使用可下载字体（网络字体）通过@font-face. 支持格鲁吉亚字母的字体包括一些有用的免费字体，如 DejaVu 字体、GNU Freefont 字体和 Quivira。有关此方法的更多信息，请参阅我在 HTML 中使用特殊字符的指南。

使用方法 1，搜索引擎将正确地看到格鲁吉亚字母，前提是文档的编码（通常为 UTF-8）已正确声明或可由搜索引擎推断。

unicode - 搜索引擎将如何对不同的 unicode 做出反应？

1 回答 1

Related

Reference