问题标签 [google-crawlers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
938 浏览

html - HTML5 页面结构如何影响 W3C 验证和 SEO

如果我们将页面声明为 HTML5,是否必须遵循 HTML5 页面结构?. 下面是两个示例,显示了理想的 HTML5 页面和不遵循 HTML5 结构的页面。

但是当我使用 w3c 验证器验证这两个页面时,这些页面成功地检查为 HTML5,没有错误。

前任:

我的页面:

  1. 如果我们将 doctype 指定为 html5,我们是否需要使网站特定于 html5/我们是否必须维护 html5 结构?
  2. 当我们用 HTML4 构建网站时,验证反对 HTML5 是否是个好主意
  3. 当我们指定 html5 时,为什么会减少这么多错误?
  4. 页面应该被验证到什么程度?
  5. html5页面如何影响SEO
0 投票
1 回答
583 浏览

ajax - 为 Google 爬虫提供专用的 HTML 页面,而无需更改 URL 以生成动态内容

我的网站是在 javascript 中,在固定的 HTML 框架之上动态生成的内容。为了让 Google 了解内容,我在服务器端使用_escaped_fragment_ 技巧和跟踪何时提供固定内容而不是动态内容。只要子页面与 链接#!,这一切都适用于子页面,除主页外的所有页面都是如此。

我显然希望主页#!在 URL 的末尾没有丑陋。

到目前为止,我能想到的唯一解决方案是为主页提供固定内容,而不是 Ajax 为每个人生成一个。

我宁愿将 Google 专用版本分支与通用版本分开,因为我不怎么维护它,尤其是在 CSS 和导航方面,这并不重要。

有没有办法确定是谷歌在抓取网站并提供静态版本?

0 投票
3 回答
9484 浏览

javascript - 为什么搜索引擎爬虫不运行 javascript?

我一直在使用一些高级 javascript 应用程序,使用大量 ajax 请求来呈现我的页面。为了使应用程序可抓取(通过谷歌),我必须遵循https://developers.google.com/webmasters/ajax-crawling/?hl=fr。这告诉我们做一些类似的事情:重新设计我们的链接,创建 html 快照,......以使站点可搜索。

我想知道为什么爬虫不运行 javascript 来获取呈现的页面并在其上建立索引。这背后有什么原因吗?或者它是未来可能出现的搜索引擎的缺失功能?

0 投票
2 回答
3849 浏览

angularjs - 如果缺少哈希前缀,请在配置阶段添加

我现在正在我的基于 Angularjs 的 Web 应用程序中集成 phantom。

这篇好文章说我应该调用将$locationProvider.hashPrefix()前缀设置为“!”的方法 来自 SEO 的原因(允许爬虫拦截_escaped_fragmentURL 的组成部分)。

问题是我之前没有,我的一些 URL 如下所示: #/home.

我虽然也许有一种方法可以植入这个“!” char 在 APP 的配置功能中以编程方式(如果它不存在)请求 URL,而不必手动编辑大量标记。

0 投票
0 回答
331 浏览

python-2.7 - 错误:包目录“超金融”不存在

当我尝试在我的 Windows 8 中安装 google ultra Finance 时,我收到此错误

任何人请帮我解决这个问题。

先感谢您。

0 投票
1 回答
484 浏览

javascript - Google 可以抓取由 JavaScript 小部件附加的 HTML 内容吗?

我有一个嵌入在第三方网站上的小部件。该小部件加载一个 JavaScript 文件,该文件通过 ajax 检索 HTML 内容并将其附加到第三方页面。附加到页面的 HTML 内容包含两种类型的链接:

第一种链接是标准的:

第二种类型的链接回调到添加一些参数然后使用 window.open 执行链接的 JavaScript 文件:

我的问题是:当 Google 抓取第三方网站时,它会从我的网站中抓取 JavaScript 文件附加的内容吗?而且,它会识别上面列出的两种类型的链接中的任何一种作为我网站的反向链接吗?

感谢您的输入。

0 投票
1 回答
855 浏览

robots.txt - GoogleBot 和 MSNBot 的抓取频率是否会随着响应时间的延长而增加?

我们在 AWS EC2 实例上设置了网络输入/输出警报。当实例热运行时(响应时间较慢 - CPU 徘徊在 85% 左右),我注意到我们的网络输入/输出低于 2.0E7 字节。

当我们升级和转移东西并将我们的 CPU 降低到 30% 左右时,我们现在似乎更频繁地被爬网。

每当我们修改实例类型时,我都会注意到一些重要的短期峰值。我怀疑爬虫会做这样的事情,检测响应时间,从而决定它们的爬取频率。

我确实意识到我可以在 robots.txt 中设置抓取速度 - 但我没有在那里设置任何限制。

当然可能还有其他因素,但我想知道这是否有意义?

0 投票
1 回答
423 浏览

c# - Google Crawler 会看到我页面上的动态内容吗?

我已经在我的公司网站上工作了大约 10 天,以完全将我的网页通过 $.ajax 提供内容并通过 jquery 构建内容。现在我发现谷歌不会看到我的页面内容,因为它是通过 javascript 生成的。我已经验证了在 chrome 中,当我去查看源代码时,我看不到我通过 Jquery 创建的任何 html 元素。

如何让谷歌抓取这些 DIV 或说 HTML?

前任:

谷歌抓取.productDIV吗?

0 投票
1 回答
187 浏览

wordpress - 如何在 wordpress 中允许机器人/爬虫和仅注册用户?

如何让机器人抓取我的网站并为所有访问者关闭它?当访问者从谷歌访问任何网址时,他应该会看到注册表,而谷歌机器人应该会看到所有内容。我可以这样做吗?

我找到了这个插件:http ://wordpress.org/plugins/registered-users-only/

我现在可以通过 robots.txt 允许 google bot 吗?如何?

0 投票
1 回答
317 浏览

.htaccess - Google Webmaster Tool Crawl Site Errors 在未找到的 404 错误中增加

Google 检测到返回 404(未找到页面)错误的 URL 数量显着增加。调查这些错误并在适当的情况下进行修复可确保 Google 能够成功抓取您网站的网页。

并让我知道为什么谷歌在抓取该网站时会出现此类错误。我想保留通知,因为我已经重写了 .php 页面的规则

页面和内容之间的内部链接在哪里做错了?因为我在从网站管理员团队收到此消息后更新并更正了链接。

请检查并调查内部链接并确认我是否再次错过了什么?

友善的建议。

我会感激的。