0

如果发生以下情况,网络爬虫是否能够找到 jpeg/图像?

  1. 页面使用php$_SESSION作为密码保护。
  2. 在页面加载之前,网页会检查密码是否正确$_SESSION
  3. 如果密码正确,页面加载,加载 .jpegs
  4. 如果页面中的密码不正确,$_SESSION则不会加载,而是METAREFRESH 使用 using语句if......因此爬虫无法访问.jpgs

我不希望图像能够出现在 google/yahoo/bing/etc 图像搜索中。我已经阅读了很多关于 SEO/机器人/爬虫的信息,但我对此不确定。

这是正确的吗?

4

3 回答 3

1

如果页面使用存储在会话中的密码保护,机器人/爬虫将找不到图像。

但这当然取决于您如何处理机器人,如果您说您不希望机器人窥探的会员区域,我建议您向未经授权的客户发送 302 响应并将其转移到登录页面之前传递其他内容。

于 2013-10-08T17:32:52.880 回答
1

Googlebot 无法抓取经过身份验证的页面,但最好的方法是保护您的内容免受任何 SE 的影响,它是在名为 robots.txt ( http://www.robotstxt.org/ ) 的文件中创建拒绝列表,该文件位于如果您的网站是根。在那里您可以指定不会抓取的页面。此外,将 rel="no follow" 放在任何链接中都会使 SE 不关注该链接。

于 2013-10-08T18:44:15.807 回答
1

我猜您的 PHP 密码保护页面只是“获取”这些图像的 url(可能是仲裁或数据库存储的)

但是如果有静态内容可以通过其他方式访问(提供链接),那么网络爬虫最终会找到它。

我建议您使用机器人文件指示网络爬虫忽略特定文件夹中的静态内容。

于 2013-10-09T05:07:22.407 回答