问题标签 [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-ec2 - 在 AWS EC2 实例上创建 HTML 快照以进行 Google 渲染
如何在服务器端创建 HTML 快照,以将其提供给 Google 进行渲染(爬行),我必须在无头服务器 AWS EC2 实例上执行此操作。那么我该怎么做呢?
web-crawler - Googlebot 会抓取元素的属性标签吗?
有谁知道谷歌是否会重视元素属性标签中的内容?
是否有任何文件支持或反驳这一点?还是内容需要可见?
例如,是否不推荐这样做(属性中的数据将在稍后使用 javascript 显示在页面上):
amazon-s3 - 如何确保网络爬虫适用于托管在 AWS S3 上并使用 AJAX 的站点
谷歌站长指南解释说,网络服务器应该处理包含 _escaped_fragment_ 的 url 请求(爬虫将 www.example.com/ajax.html#!mystate 修改为 www.example.com/ajax.html?_escaped_fragment_=mystate)
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=174992
我的站点位于 AWS S3 上,我没有 Web 服务器来处理此类请求。如何确保爬虫获取提要并且我的网站获取索引?
php - 如何抓取 jquery 驱动的网站?
我正在构建一个单页 javascript 驱动的网站。我在主页上使用 php 作为 json 对象回显了所有页面的所有必要数据。然后我使用为每个页面制作的自定义插件初始化页面,它使用相关的 json 数据动态构建 dom,我将这些数据传递给插件,所以我没有任何 ajax 请求。我网站上的链接采用以下格式!#about、!#home 等...目前插件的 init 方法在hashchange上调用。我应该怎么做才能使这些页面可以被谷歌机器人抓取,以及如何为每个页面制作不同的标题和描述元标记?
我尝试了在谷歌文档和许多其他网站上找到的各种东西。我已将链接从 #mylink 更改为 #!mylink ,因此谷歌应该将其解释为 get _escape_fragment_ 变量,然后我尝试添加这段 php 代码:
其中 project.php 是一个包含相关信息的 html 快照,我希望对其进行抓取。基本上只是核心信息。但据我所知,没有任何反应...... :( 毕竟有没有办法在没有 AJAX 请求的情况下实现这一点?
html - 避免使用“googleoff”和“googleon”抓取页面的一部分
我试图告诉 Google 和其他搜索引擎不要抓取我网页的某些部分。
我要做的是:
上传页面后,我注意到搜索引擎仍在 googleoff 标记中呈现元素。
难道我做错了什么?
php - 如何抓取 PHP 生成的图像
我有一个网站 textscloud.com
在这个网站上,我使用 PHP GD 库制作图像。这是演示的链接:
在此页面中,我允许用户下载将在其上打印文本的图像。下载链接就像
这个 download.php 文件有一个标题,用于使用 PHP GD 库制作图像并像这样下载文件
但谷歌并没有抓取这些图片。有谁知道解决方案?我无法将这些图像存储在服务器中。
jquery - google如何索引通过jquery动态加载的页面
可能重复:
Google 是否抓取 AJAX 内容?
所以我有一个论坛 - 链接是以下 URL 格式的课程页面 - http://www.example.com/course/course-feed/course_id/1
现在这个页面有一堆问题,每个问题都是一个链接,点击后会带您进入问题详细页面,其中显示了该问题的所有答案 -
详细问题页面 url QUESTION PAGE 的示例格式 - http://www.example.com/course/question-feed/course_question_id/636
因此,如果我有 5000 个问题,我就有 5000 个带有答案的问题页。
现在我的问题是 COURSE PAGE,显然没有显示所有 5000 个问题。相反,它显示 50 个问题链接,并在底部有一个“更多”按钮。
当用户点击“更多”时——接下来的 50 个问题通过 JQUERY 调用获取并显示在下方。现在当这个操作发生时——URL 显然没有改变。
当我最近查看有多少页面在 Google 中被索引时 - 它只有前 50 个问题页面,因为索引的 COURSE PAGE 仅显示 50 个问题链接。
我的问题是如何让爬虫浏览所有“更多”链接并索引所有 5000 个页面。
php - .htaccess / php 重定向 301 302 专门用于网络爬虫
是否只重定向来自网络爬虫(主要是谷歌)的流量,同时保持“正常”用户流量不变?
我的情况如下:
客户在他出售的域 (www.domain-1.com) 上拥有一个网站(该域)。该网站现在正在移动到第二个域 (www.domain-2.com)。
有没有办法告诉爬虫 SAME 网站已从 domain-1 移动到 domain-2 而不会忘记 domain-1 现在拥有不同的内容?(从而以某种方式维护旧的域 2 索引链接和排名?)
通常,我知道在 PHP 中我会执行正常的永久重定向发送标头,例如:
但在上述情况下,我不确定是否应该使用:
- 一种 。302 / 302 / 其他一些我不知道的
- B .php / .htaccess
这甚至可能吗?
请任何建议都会非常有帮助。
ajax - 谷歌爬取 ajax / 动态生成的内容 - SEO
我有一个非常独特的情况,我认为这里的任何其他主题都无法与之相关。
我有一个动态加载/嵌入到第三方网站的电子商务模块,没有将 iframe 直接 JSON 到 Web 客户端的内容。我根本无法访问这些第三方网站,除了从他们的页面加载我的 javascript 文件并动态生成内容。
我知道#! 方法,但这在这里不好,我的 JS 确实在嵌入式平台内生成“url”,但它们是假的,仅用于地址栏,我不相信谷歌爬虫可以达到这么远。
所以我的问题是,是否有一个元数据我们可以设置为指向 url 之外,即返回到我的服务器并带有静态可抓取内容。即,将规范指向我的服务器......但我再次认为这行不通。
seo - 有没有办法用 php 识别谷歌机器人?
我刚做了一个酒精饮料网站。他们需要对所有链接进行年龄验证。这是一个单页网站,我使用主干路由系统。我已经使用 SESSION 对象创建了检查,因此如果未设置 SESSION 对象,我将加载介绍视图(年龄验证视图)。这一切都按预期工作,但问题是谷歌机器人。当他们试图抓取我的页面时,应用程序总是在加载介绍(年龄验证)视图。这是该网站的链接,但我认为它不会很有用,因为我想这更像是一个合乎逻辑的技术问题......所以..我的问题是如何只重定向访问者并让谷歌机器人看到页面的实际内容?我应该使用 cookie 还是有办法通过 php 实现这一点?