5

我可以像这样在我的 robots.txt 文件和 sitemap.xml 中使用非拉丁字符吗?

机器人.txt

User-agent: *
Disallow: /somefolder/

Sitemap: http://www.domainwithåäö.com/sitemap.xml

站点地图.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.domainwithåäö.com/</loc></url>
<url><loc>http://www.domainwithåäö.com/subpage1</loc></url>
<url><loc>http://www.domainwithåäö.com/subpage2</loc></url>
</urlset>

还是我应该这样做?

机器人.txt

User-agent: *
Disallow: /somefolder/

Sitemap: http://www.xn--domainwith-z5al6t.com/sitemap.xml

站点地图.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.xn--domainwith-z5al6t.com/</loc></url>
<url><loc>http://www.xn--domainwith-z5al6t.com/subpage1</loc></url>
<url><loc>http://www.xn--domainwith-z5al6t.com/subpage2</loc></url>
</urlset>
4

3 回答 3

1

https://support.google.com/webmasters/answer/183668上,谷歌写道:“确保你的 URL 遵循 URIs 的 RFC-3986 标准,IRIs 的 RFC-3987 标准”,所以我猜正确的答案是你必须遵循这两个标准。

我最好的猜测是这无关紧要,因为谷歌认为这两个 URL 是相同的。这也可能是标准中规定的内容,但我不擅长阅读这些内容,因此我无法确认或否认。

使用xn--格式有效。我还没有尝试使用 Unicode 字符来查看它是否也有效。

于 2016-08-24T06:33:58.597 回答
0

由于您的示例包含一个 URI,其字符不在 US-ASCII 表中,因此您需要对它们进行百分比编码。

必应示例:

Your URL:
http://www.domain.com/папка/ 

To Disallow: /папка/

Without Percent encoding (Not Compatible):
Disallow: /папка/

With Percent encoding (Compatile):
Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/

这篇Bing 博客文章可能会有所帮助。

对于 XML 站点地图,可以使用非 ASCII 字符,但必须对其进行编码以匹配服务器的编码可读性。有关示例的更详细说明,请参阅 Google 的本指南

于 2015-07-28T17:59:00.853 回答
0

它们必须按如下方式进行 ASCII 编码:

于 2019-10-16T06:08:02.490 回答