问题标签 [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 我的 wordpress 网站未在 google 中列出
那是我的网站 www.shapestudios.de
我已经有一年多的时间遇到这个问题了,我尝试了所有可能的事情。 内容 SEO 优化、媒体 SEO 优化、XML 站点地图提交给 Google 网站管理员工具。 我还使用 bing 网站管理员工具、alexa 并使用 yoast 优化了 url。元日期是完美的!它只是永远不会出现。
如果我在谷歌搜索(链接:shapestudios.de),唯一出现的是来自某些插件的愚蠢自述文本,而不是实际网站。我有一种感觉,它以某种方式与 php 有关,因为唯一出现的是文本文件。但是图像呢?
我在德国使用 1&1的服务器 .. 我感觉服务器正在阻止 google bot 抓取网站。但我无法确定,因为我在服务器仪表板中没有找到允许或阻止机器人的选项。
有人可以帮帮我吗!!!:)
ajax - 如何验证我的 AJAX 抓取设置是否正常工作
我尝试使用此 URL /54.86.51.30/search-space-for-rent/Houston# 以 Google 的身份进行获取!我从结果中得到了这个
在服务器日志上,我看到谷歌使用此 URL“/54.86.51.30/search-space-for-rent/Houston”而不是“/54.86.51.30/search-space-for-rent/Houston?_escaped_fragment_=”访问了我的网站"
但是,如果我确实以 Google 的身份获取此 url /54.86.51.30/search-space-for-rent/Houston?_escaped_fragment_= ,那么我会得到我页面的 HTML 快照。
为什么我没有收到 /54.86.51.30/search-space-for-rent/Houston# 的 HTML 快照!因为它确实有“#!” 在最后
c# - 年龄验证页面阻止网站 - 需要允许谷歌吗?
我在 .net 中为一家酒类公司创建了一个网络应用程序。
客户要求拒绝对网站的所有访问,除非用户同意他们在所在县已达到年龄并且同意条款。
为了实现这个功能,我只需将所有流量重定向到一个验证页面,他们可以在其中设置一个新会话来表示他们已经同意(在这次访问中)这些条款。设置会话后,该站点将完全可访问。
我的问题是,我希望 google et al 抓取网站上的所有页面并将其编入索引。如何确保机器人不会在年龄验证页面中被捕获,这里确保我的整个网站被抓取的最佳做法是什么。
php - 设计一个搜索友好(即可抓取)的小部件
我向我的客户提供了一个小部件,当部署在他们的网页上时,它会显示定价数据。该小部件是用 PHP 编写的,并使用 iframe 进行部署,如下所示
在小部件内,我有一个锚标记,它链接回我的网站
我希望它被 Googlebot 等抓取,这样我就可以从中获取 SERPS 链接。
我的几个客户已经部署了这个小部件,但看起来 iframe 内容并没有被 Google 抓取。基本上我没有看到这些网站的链接。部署小部件的网页在谷歌(PR 2,3)中排名很高,并且具有良好的域权限 - 所以我知道那不是问题。
有没有更好的方法来部署小部件(而不是 iframe)以使其可被谷歌抓取?
web-crawler - 禁用爬取子域谷歌爬虫
我想知道如何禁止谷歌抓取我的子域?
我拍了一张我的网络空间文件夹的照片。awesom media 文件夹是主站点 www.awesom-media.de 所在的文件夹。文件夹
另一个是子域。我想要的是谷歌不应该抓取这个但我不知道如何。
我在 awesom 媒体文件夹中没有 robots.txt,但正如您在 / 部分中看到的那样。robots.txt 的内容是User-agent: *
Disallow:
就是这样。
我怎么能告诉谷歌不要抓取子域
html - 如何停止 Google 抓取网络服务 URL?
我发现 GoogleBot 正在抓取 JavaScript/AJAX 代码中引用的 Web 服务 URL。该 URL 已经在 robots.txt 中作为排除项,但在确定要抓取的内容时,Google 似乎不再遵守 robots.txt - 它似乎只是使用它来知道不索引的内容。
值得庆幸的是,这些服务 URL 只返回数据而不是执行操作,但它会弄乱我们收集的统计数据,这是非常不可取的。我个人无法看到 Google 是如何找到 Web 服务的 URL 的,除非它在 Javascript 代码中抓取任意字符串(这似乎不太可能?)。
对于某些 URL,这也会导致我从网站上收到很多 Elmah 错误消息,这些消息说:
System.InvalidOperationException:无法识别 URL 意外以“/GetShortlists”结尾的请求格式。“......因为谷歌试图在它只支持POST时获取URL 。
它在其中查找 URL 的代码如下:
那么我应该通过替换斜杠以某种方式混淆 URL,还是有更好的方法来阻止这些被抓取?
php - php 让 google 和 facebook 访问我的网站
我只想从我的国家访问我的网站,我想通过谷歌和 Facebook 访问我的网站。所以我查看了这些页面:
https://developers.facebook.com/docs/sharing/best-practices#crawl https://support.google.com/webmasters/answer/1061943?hl=en 我写了这个 php 代码:
它适用于脸书。但是当我想用谷歌获得我的页面速度结果时,我得到“对不起,我们只能为阿塞拜疆服务!” 错误
web - 如何在谷歌图片中获取大图片
我想从谷歌图片搜索中收集图片。但是,我经常收到错误通知。
例如,https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch
我的浏览器中的 URL 很好,但在网络收获中它报告说:对实体“gws_rd”的引用必须以 ';' 结尾 分隔符。
我猜 '&' 是 webharvest 中的一个特殊字符,但我找不到有关它的信息。你能弄清楚为什么吗?
这是代码:
wordpress - 更改内容类型导致谷歌错误抓取
在我们基于 WordPress 构建的网站中,我们将自定义帖子类型之一的名称从“A”更改为“B”,并更改了几个类别的层次结构。
现在,问题是 google 正在索引/抓取旧的“A”CPT 名称以及旧的类别结构,这会导致随机页面(因为 WordPress 会猜测并在 URL 中显示带有这些关键字的页面)或 404 错误。
我们可以做些什么(通过网站管理员工具)让谷歌重新索引我们的整个网站并开始尊重我们的新结构?谢谢。
seo - 在不丢失搜索排名的情况下提高加载速度
我有一个网页,其中有许多区域的可见性可以由用户切换。这些区域的默认可见性状态是隐藏的(css,显示:无)。我无法控制里面要放什么,但它可能是很多图像。
我用 Firefox 的网络观察器看到了所有加载页面的图像。这是相当浪费带宽的,因为用户可能选择不显示每个区域。
我来到了一个工作区,我将所有内容放在 a<script type="late-rendering"></script>
中,为了避免任何潜在的冲突(例如:内容中的“”),我将所有“<”替换为“8691jQfdtxm”(随机选择的字符串)。然后当用户想要使一个区域可见时,我只需在用“<”替换 8691jQfdtxm 后用该内容填充该区域。
它工作正常,但我认为这样的操作会让爬虫(例如:谷歌)认为我的网页是纯粹的垃圾。我怎么能避免呢?