0

我正在开发 Web 应用程序,它允许用户依次创建自己的 webapp。对于我的应用程序创建的每个新 webapp,我分配一个新的 Subdomain。例如 subdomain1.xyzdomain.com、subdomain2.xyzdomain.com 等。

所有这些 Web 应用程序都存储在数据库中,并由 保存/var/www/. 到目前为止,我已经/var/www/使用robots.txt阻止了目录 ( ) 的搜索引擎索引。这基本上阻止了我所有脚本的索引,包括default_script.py以及使用该default_script.py脚本为多个 webapps 提供的内容。

但现在我希望这些子域中的一些应该被索引。

在搜索了一段时间后,我能够通过在robots.txt中明确指定脚本来找出阻止对脚本进行索引的方法

但我仍然怀疑以下几点:

  1. 将阻止 my default_script.py索引也阻止对 default_script.py 提供的所有内容的索引。如果是,那么如果我让它索引,default_script.py也会开始出现在搜索结果中。

  2. 如何允许选择性地对某些子域进行索引。

    例如:索引subdomain1.xyzdomain.com但不是subdomain2.xyzdomain.com

4

2 回答 2

1

不,搜索引擎不应该关心生成页面的脚本。只要将 webapps 生成的页面编入索引,就可以了。

第二个问题:

您应该为每个子域创建一个单独的 robots.txt。也就是说,当从特定子域获取 robots.txt 时,返回仅与该子域相关的 robots.txt 文件。因此,如果您希望子域被索引,该机器人文件是否允许所有。如果您不想将其编入索引,请让 robots 文件全部拒绝。

于 2012-08-06T13:38:41.663 回答
0

所以总结一下讨论,

这是保存在目录中的.htaccess文件的外观:/var/www/

Options +FollowSymlinks
RewriteEngine On
RewriteBase /

# Rule Below allows using different robots.txt for subdomain1.
RewriteCond     %{HTTP_HOST}           ^subdomain1.xyzdomain.com$ [NC]
RewriteRule     ^(.*)robots.txt        subdomain1-robots.txt [L]

# This rule is applicable on rest of subdomains and xyzdomain.com.
RewriteRule     ^robots.txt$           robots.txt [L]

# This rule allow serving content from default_script.py for files other then robots.txt
RewriteRule     .                      default_script.py
于 2012-08-08T13:48:03.623 回答