问题标签 [search-engine-bots]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
529 浏览

angularjs - Angular & SEO - 最新的最佳实践是什么?

我有一个角度应用程序,现在正在考虑为 SEO 目的进行微调。

看了很多文档和教程,我很困惑!我了解过去您必须使用预渲染服务。但随后谷歌更新了它的机器人来更好地抓取 JavaScript。鉴于此,我看不到什么是改进爬虫和索引的最佳实践?

我目前的设置是我有一个站点地图并将我的 URL 转换为#!from !.,而且我还没有启用 html5 模式。

0 投票
1 回答
561 浏览

apache - 如何阻止内容热链接,除了使用 htaccess 规则的谷歌索引

我准备了一个.htaccess文件,并将其放在一个包含 pdf 文件的目录中,以防止盗链,但我的站点除外,如下所示:

此规则按预期工作。如果链接来自外部文件,则请求将重定向到我的搜索页面,平台会在该页面搜索该(和类似的)文件。

所以,当我在谷歌搜索时,谷歌显示的结果(已经被索引)被重定向到我的搜索页面(很好)。现在,我担心下次 Google 会为我的网站编制索引。因此,我添加了一条新规则,如下所示:

但是,我不确定该规则是否有效,以及检查它的方法是什么。如果我尝试从 google 搜索结果访问文件,我仍然会被重定向到我的搜索页面,因此它不会影响 google 搜索结果。

此规则是否允许谷歌索引我的新 pdf 文件,但阻止从谷歌搜索结果页面直接访问?如果不是,那么实现这一目标的正确方法是什么?

0 投票
1 回答
41 浏览

indexing - 阻止某些地址被抓取 Robots.txt

我被要求(为了改善 SEO 结果)从 Robots.txt 中删除某个网址。

我正在努力(搜索引擎优化不是我的强项)弄清楚如何阻止某个域,即使两个地址都指向同一个网站。

例如:

http://foo.example.com -- 我需要停止被索引的
网址 http://www.examplefoo.com -- 我想被索引的网址

据我所知,使用 disallow / 只会阻止两者(因为它们是同一个站点)

有什么帮助吗?!对不起,如果这是一个愚蠢的问题..

0 投票
1 回答
58 浏览

curl - 搜索机器人通过 curl 在 Web 服务调用中创建问题

当任何用户打开产品详细信息页面时,我实现了 curl 代码以从供应商 Web 服务获取实时库存。

但是搜索引擎机器人正在访问该页面,这导致 curl 每秒调用 Web 服务 1000 次。

如何纠正这个问题。我搜索了谷歌,但还没有找到准确的答案。

0 投票
1 回答
1524 浏览

seo - 禁止 robots.txt 中仅针对一个 url 的查询字符串

所以我有一个 url,chickens.com/hatching它有可能被索引的查询字符串,即chickens.com/hatching?type=fast. 我肯定想保留基本 url,chickens.com/hatching索引,但没有查询参数。我想要在其他页面上索引的查询参数,而不是这个,所以所有页面的包罗万象将不起作用。其次,我正在重写 url 以删除尾部斜杠,这会chickens.com/hatching/?type=fastchickens.com/hatching?type=fast??

这可以解决我的问题吗?

我听说这仅适用于谷歌爬虫......是否有适用于所有爬虫的更强大的解决方案?

谢谢你的帮助!非常感谢。

0 投票
2 回答
35 浏览

seo - 我是否需要同时为“Web Design [city-name]”和“Website Design [city-name]”创建一个页面,或者我可以使用“Website Design [city-name]”对两者进行排名吗?

如果 Google 的关键字规划器向我显示关键字“Web Design [city-name]”的搜索量约为 880 次,而“Website Design [city-name]”的搜索量约为 620 次,我能否通过使用“Website Design”获得这两个关键字的排名? [城市名]”?或者我需要一个专门用于“Web Design [city-name]”和“Website Design [city-name]”的页面吗?

0 投票
1 回答
51 浏览

https - 如何阻止搜索引擎链接到 HTTPS?

背景

我管理着几个没有 SSL 证书的网站,它们托管在 LAMP 共享环境中,还有一些网站。

共享环境具有适用于所有站点的 SSL 证书,但它是无效域,除非使用托管服务提供商提供的特定 URL 连接。

这造成了令人不安的环境,任何没有 SSL 的站点仍然可以通过 HTTPS 连接,并获得无效的证书(而不是没有证书/没有响应)。

出于某种原因,尽管提供了无效证书,但谷歌最近开始使用 https:// 而不是 http:// 链接到这些非 SSL 站点。点击它会引发安全警告,并且可能会吓跑 99% 的潜在点击。

问题

我的问题是,鉴于服务器访问受限,除非安装了有效的 SSL 证书,否则我能做些什么来防止搜索引擎链接到网站的 HTTPS 版本?

0 投票
1 回答
83 浏览

javascript - 如何在不验证 Javascript 代码的情况下向 Googlebot 提交 URL

有没有办法或 api 在 Google 上注册 Url?例如,在项目中创建页面时,其地址将自动提交给Googlebot

0 投票
1 回答
185 浏览

amazon-cloudfront - Google 未将 CloudFront 分发的地理限制页面编入索引

我有一个使用 CloudFront 在 AWS 上托管的网站,由于某些法律限制,该网站只能在英国和爱尔兰访问。

在 CloudFront 中设置地理限制并通过网站管理员工具(上周初 - 1 月 2 日)将域提交给谷歌后,我注意到该网站尚未被谷歌索引甚至识别(搜索域或site:mysite.co.uk 不会产生任何结果)。

我的想法是,这是因为谷歌爬虫试图从美国服务器访问该页面,被重定向到通用错误页面,说该站点仅适用于英国和爱尔兰,然后拒绝将其编入索引这似乎是一个质量非常低的网站。

有没有人遇到过类似的问题并找到了解决方案?

我计划向 Google Webmaster Tools 提交站点地图,看看是否有帮助,但我也在考虑 robots.txt 文件是否有助于解决这个问题。

如果你同意,对我应该放在那里的规则有什么建议吗?我一直使用这个文件来简单地让爬虫知道网站的哪些部分从索引中排除。

任何建议都会非常有帮助。

先感谢您,

亚当

0 投票
1 回答
479 浏览

search - 禁用谷歌索引网站电话号码

我接到了向 Google 隐藏电话号码的任务——这意味着,我们希望在网站上显示它们并让它们可点击href="tel:...",但要确保 Google 不会将其编入索引并且不会将其与搜索结果一起显示。

有谁知道任何有效的技术?我正在考虑编写 VueJs 组件,它将给定的数字与一些字母字符混合在一起,但这仅适用于演示文稿/标签,tel:...仍然必须有一个有效的电话号码,我不确定谷歌是否不会选择它形成了href属性。