问题标签 [google-crawlers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
42 浏览

meta-tags - js生成的meta能被google收录吗

这个问题就像标题一样。如果我使用js生成一个元标记,并将其附加到头部标记。元内容可以被谷歌索引吗?

0 投票
2 回答
3552 浏览

ajax - 为什么我的 ajax 内容没有被谷歌索引

我已尝试根据此处列出的指南设置我的网站( http://www.diablo3values.com ): https ://developers.google.com/webmasters/ajax-crawling/ 但是,谷歌似乎已经更新了他们的索引(因为我看到了对元描述标签的修订),但是 ajax 内容没有出现在索引中。

我正在尝试使用“处理没有散列片段的页面”选项。

如果您查看以下任一情况:

http://www.diablo3values.com/?_escaped_fragment_=

http://www.diablo3values.com/about?_escaped_fragment_=

您将正确地看到包含我的内容的 HTML 快照。(这是我最关心的两页)。

有任何想法吗?难道我做错了什么?你如何让谷歌正确识别标签。

0 投票
1 回答
1573 浏览

robots.txt - 授权权限错误增加 - Google 网站管理员工具

“授权许可错误增加”

在过去的两个晚上,我在我的一个网站的网站管理员工具中遇到了这个错误,我认为可能导致这个错误的唯一更改是我的 robots.txt 文件。

就是这个:

这个机器人文件验证并在网站管理员中我运行了一个测试,看看谷歌是否可以抓取页面,它说谷歌机器人在第 5 行是允许的(这是正确的)但我只是想知道如果

底部是否覆盖了 Googlebots 的命令?

在我开始收到此错误之前,我放置了

最重要的是机器人特定的命令 - 但它没有验证,而且 - 我没有收到“授权权限错误增加”错误。

谢谢你的帮助。

0 投票
1 回答
180 浏览

seo - 选项卡中的内容不可抓取。磷酸盐

我在我的网页上创建了多个标签,但只有默认标签中的内容被谷歌爬虫抓取。当我在缓存副本的纯文本版本中检查其他选项卡中的内容时,谷歌爬虫不会抓取其他选项卡中的内容。任何人都可以查看代码并指导我应该怎么做才能使其可抓取?

网页是:http ://www.itdevicesonline.com/SDX1-25C-BULK.php

0 投票
1 回答
1446 浏览

javascript - Backbone.js 中的 SEO - 如何在页面呈现后让谷歌索引页面?

我正在使用主干 js 应用程序框架构建我的网站,并且正在使用 html5 推送状态更改 url。所有的内容都是通过js渲染的,基本上dom在页面渲染方法之前或多或少是空的(只有一个核心结构,没有任何内容)。我认为这对搜索引擎非常不利,因为机器人不会抓取网站的实际内容。

那么是否有任何解决方法,或者我将不得不在第一次初始化时使用一些服务器端技术来呈现内容?我真的希望这不是唯一的选择,因为我已经拥有完整的逻辑、模型、模板和用 js 编写的所有内容......

我听说 phantom.js 可以做这个工作?使用 node.js 进行服务器端脚本编写会更容易吗?

0 投票
1 回答
741 浏览

web-crawler - 爬虫不会从网站根目录获取 Robots.txt 文件,而是从网络根目录获取

我已经阻止爬虫使用 robots.txt 爬取我的网络根目录(在我的例子中是 /var/www/)。我在 /var/www/ 中有 robots.txt,其中包含以下行: Disallow /

现在我需要我的 Web 根目录 (/var/www/mysite.com) 的一个子目录来让爬虫爬取。我已在该目录中添加了 robots.txt,并在 apache 中添加了虚拟主机以允许抓取此 mysite.com。但是爬虫仍然从我的网络根目录(/var/www)而不是(/var/www/mysite.com)获取robots.txt。

提前感谢您的帮助。

0 投票
1 回答
277 浏览

url - GSite Crawler 停止工作

我使用 GSite Crawler v1.23 并且直到一周前都可以正常工作,但现在不行。我曾经在办公室执行该程序,现在我试图在家里运行它,但它并没有开始爬行。除了 ISP,我没有更改任何设置。任何人都可以帮助我如何解决这个问题?

谢谢

0 投票
1 回答
855 浏览

java - 如何使 javascript 生成的 HTML 可被谷歌爬虫索引?

我有一个带有标题导航的网络表单。

为了生成这个标题导航,我对Java类进行了AJAX调用并获取 JSON 字符串作为响应。

我解析字符串并在 jQuery 中创建 HTML。下面是一个例子:

上面的示例显示了通过 jQuery 添加到页面的锚标记。

现在问题来了。此锚点在页面源中看不到,因此不可抓取。

我想让这个组件可以爬行。

我已经阅读了关于 _escape_fragment_ 的信息,但无论我在网上找到什么,我都无法理解它。

有人可以告诉我如何以更易于理解的方式使用此方法吗?

下面是我使用 jsp struts2 迭代器的另一种方法。即使在这种方法中,我也没有得到源代码。该代码适用于 DOM,但不适用于源代码。

0 投票
1 回答
203 浏览

http - 协议相对 URL 是否会影响搜索爬虫的行为,以及如何影响?

我们正在开发一个具有预览环境 (https) 和实时 (http) 的 Web 应用程序。现在考虑到将涉及两种不同的模式,我们将 HTML 页面中的链接使用 href 作为协议相对 URL,因为我们想对链接使用绝对 URL,并且我们不想在 url 中打扰 HTTP/HTTPS。

现在我们想了解它如何影响搜索爬虫的行为(如果有的话)。

0 投票
2 回答
17869 浏览

seo - 包含对带有 hashbang 的页面有害吗?

谷歌说这个元标签:

以下重要限制适用:

  1. 元标记只能出现在没有散列片段的页面中。
  2. 仅有的 ”!” 可能会出现在内容字段中。
  3. 元标记必须出现在文档的头部。

来源:https ://developers.google.com/webmasters/ajax-crawling/docs/specification?hl=fr-FR

我知道只有包含 hashbang 但仍应提供快照的页面才需要它。但这通常只是主页。

假设我们有:

www.foo.com

www.foo.com/#!/jobs

第二个将被提取为:

www.foo.com?_escaped_fragment_=/jobs

只是因为hashbang。

但是根页面没有 hashbang,所以它需要在头部有这个特殊的元标记。

但是由于<head>到目前为止我所有的单页应用程序都使用相同的,我想知道为所有其他包含 hashbang的页面保留元标记是否真的有害。

实际会发生什么?