问题标签 [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sharepoint - Sharepoint 2013 站点返回 304 未修改
google bot 无法抓取 sharepoint 2013 网站之一。谷歌表示,他无法访问 Robots.txt。当我从 chrome 开发人员工具中查看时,似乎服务器返回 304 代码。
我怎么解决这个问题?
编辑:当我调用没有 "www."(xxxxx.com/robots.txt) 的 url 时,服务器返回 200 ok。
用户代理: *
seo - 防止谷歌索引动态错误页面(无 404)
我的网站上有一些404
无错误页面。阻止谷歌索引它们的最佳方法是什么?
选项1
如果内容没有消失怎么办?例如:the article does not exist.
或wrong parameter has been caught
选项 2
它只影响一页还是整个域?
选项 3
使用 404 会产生一些其他问题,我想避免。
机器人.txt
此选项将不起作用,因为错误将取决于数据库并且不是静态的。
sitemap - 如何在 Google 搜索结果中查看我上一个网站的所有内容(新闻)?
我有从在线报纸和网站收集新闻的新闻杂志网站。网站内容和首页每 2-5 分钟更改一次(因为查找新新闻并且我的第一页显示最后的新闻列表)。Google 查找我的网站内容的 2-3 岁新闻。出了什么问题,我该怎么办。
谢谢
.htaccess - 更新有关目录结构更改的爬虫信息
在我们的旧网站上,我们有一些已被弃用的目录。我担心404
s 的涌入会损害我们的排名。
例如,曾经www.mysite.com/intranet/
在我们的服务器上不再存在的内容,但谷歌(我猜)正在更新该文件夹的旧记录并返回404
s. (我们使用插件404
通过 rss 报告 s)
我看到的选项是:
- 通过重定向这些网址
.htaccess
- 禁止通过
robots.txt
(令人困惑,因为没有这样的目录) - 通过网站管理员工具删除目录(可能不推荐这样做的原因)
如果有人能提供一些关于如何让谷歌不认为这些目录仍然是网站的一部分的见解,我将不胜感激。
xml - Google Webmaster Tools API 抓取问题 Feed 数据计数出现错误
我正在使用网站管理员工具 API 来解决抓取问题,但我不确定 XML 提要中的数据与网站管理员工具管理中的数据有何关系。
例如在Webmaster Tools > Crawl > Crawl Errors
中,它将 URL 错误分为 3 个部分,桌面、智能手机、功能手机,然后是每个部分中的其他部分。对于我正在测试的帐户,它显示以下内容:
但在crawlissues
API 提要中,我总共只得到 93 个条目结果,全部标记为web-crawl
(所以我猜这只是桌面)
如您所见,总数似乎不匹配。
请有人向我解释一下,我还检查了昨天和前一天的值,它们在网站管理员工具中的值大致相同,但与此提要中的值总计不一样。
我尝试在谷歌群组中发布此内容,但到目前为止还没有任何回复,在谷歌和群组内部搜索后,我找不到任何有用的东西。
ajax - 谷歌爬虫不翻译#!到 _escaped_fragment_ 在 ajax 应用程序中的映射
我有一个单页应用程序,应该使用#!
(哈希爆炸)进行导航。我现在阅读了 Google 关于使 AJAX 应用程序可抓取的规范。如何测试我的应用程序是否以所需的方式工作?
我在google plus 调试器中输入了我的应用程序,例如http://www.mysite.org/de#!foo=bar。但是,apache 的访问日志告诉我 google 爬虫不会转换#!
为_escaped_fragment_
,因此 google 调试器仍然/de
在没有哈希爆炸的情况下检索:
(注意:仍然GET /de
没有 _escaped_fragment_ hash
片段)。我希望谷歌能检索到这样的东西:
ajax - 当链接重定向到 ajax 链接时,google 爬虫会使用 ajax _escaped_fragment_ 格式吗?
我知道我可以做相反的事情并且可以server.com/#!/mystuff
进行 ajax 抓取,但我想知道是否可以反过来。如果我有server.com/mystuff
并且发送重定向到server.com/#!/mystuff
,那么谷歌爬虫是否会通过它的重命名过程运行该 url,以便它遵循重定向到server.com/?escaped_fragment=mystuff
?
php - Googlebot 无法抓取此网址,因为它指向一个不存在的网页
Googlebot 无法抓取此网址,因为它指向一个不存在的网页。通常,404 不会损害您网站的搜索性能,但您可以使用它们来帮助改善用户体验。此错误发生在以下网址中。
我怎样才能解决它..
ajax - Google 如何处理相对 _escaped_fragment_ URL-s?
我正在尝试了解 Google AJAX 抓取。
说,我有一个这样的 HTML 页面example.com
:
抓取#!foo=bar
链接时,谷歌会抓取example.com?_escaped_fragment=foo=bar
. 作为对此的回应,我将提供以下 HTML:
现在的问题是,谷歌会怎么看这个#!blah=zap
链接?我看到两种可能性:
Google 会将 URL 视为
example.com?_escaped_fragment=blah=zap
并成功获取该页面。Google 会看到这个相对 URL 确实解析到
example.com?_escaped_fragment=foo=bar#!blah=zap
并且无法获取我希望他访问的页面。
那么它可能是哪种方式?
PS。有什么方法可以测试吗?我一直在使用“Fetch as Google”服务,但它没有告诉我它将如何抓取它在页面上找到的链接。
googlebot - How to prevent bot/googlebot indexing promotional home page?
We have an e-commerce website. Due to some marketing and promotional campaign we are showing app download page/banner/promotion/big image (and nothing else) on our home page if the user is visiting the site for the first time which is cookie based.
But I don't want bots/crawler to see this content(big image) instead they should see the real content which comes after setting up the cookie. URL is same for both the content.
I can clarify more on this. How can I avoid the bots seeing the promotional content?