问题标签 [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - 如何设置仅允许站点默认页面的robot.txt
假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是任何其他页面都需要阻止,因为它对蜘蛛毫无意义。换句话说
http://example.com和http://example.com/应该被允许,但 http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。
此外,如果我可以允许某些查询字符串传递到主页,那就太好了: http ://example.com?okparam=true
apache-flex - 如何让 Google 等搜索引擎可以访问 Flex RIA 内容?
您将如何使 Google 可以访问 Flex RIA 应用程序的内容,以便 Google 可以索引内容并显示指向您的 Flex RIA 中正确项目的链接。考虑一个在 Flex 中创建的在线商店,其中提供的商品应由 Google 编制索引。然后 Google 上的链接应该会在 RIA 中打开相应的产品。
seo - 如何让 Googlebot 相信两个以前使用别名的网站现在是分开的?
这将需要一些设置。相信我,这是为了一个好的事业。
的背景
我的一个朋友经营一个非营利性公益网站已经两年了。该网站旨在消除有关某个公众人物的错误信息。当然,在过去的两年里,我们这些支持他所做事情的人不断地链接到该网站,以便在 Google 中推广它,以便在您搜索这个公众人物的名字时,它会显得非常高。(事实上,它是#2 结果,就在公众自己的网站下方)。他没有这个公众人物的支持,但他所做的一切都是为了公共利益和利益。
朋友最近中风了。巧合的是,当他在医院时,域名就被更新了,而他的妻子却错过了有关它的电子邮件。一个域名抢注者抢购了该域名,并发布了与他的意图截然相反的内容。这个擅自占地者现在受益于他的谷歌展示位置和页面排名。
幸运的是,他拥有的其他域被别名指向该域,即他们使用 DNS 映射或 HTTP 301 重定向(我不确定哪个)将人们发送到正确的站点。我们重新配置了一个别名域以直接指向原始内容。
我们已经为该站点公布了这个新名称,社区现在已经创建了数千个指向新域的链接,并且正在修复所有旧链接。从缓存中我们可以看出,谷歌实际上已经爬取了新地址的原站点,并且重新爬取了冒名顶替的站点。
问题
即使 Google 已经抓取了这两个网站,您也无法让该网站出现在新 URL 下的相关搜索中!
在我看来,Google 记得这两个名称之间的旧重定向(可能是因为当它是别名时有人链接到新域)。它在所有结果中将这两个站点视为同一个站点。站点名称的结果以及使用“链接:”运算符查找链接到该站点的站点与 Google 确信它们是同一个站点的结果完全一致。
请记住,我们无法控制旧域的内容,也没有与这些网站相关的人的合作。
我们如何才能让 Googlebot 相信域“a”和域“b”现在是两个不同的站点,并且应该在结果中这样对待?
编辑:转发可能是 DNS,而不是基于 HTTP。
googlebot - PageRank 有什么意义吗?
它是对开发人员甚至经理可以查看并从中获得意义的任何事物的衡量标准吗?我知道有一次,这都是关于 7、8、9 和 10 PageRank 的。但它仍然是衡量任何事物的有效方法吗?如果是这样,您可以从 PageRank 中学到什么?
请注意,我假设您有其他可以分析的测量值。
robots.txt - Googlebots 忽略 robots.txt?
我在根目录中有一个包含以下 robots.txt 的站点:
Googlebots 全天都在扫描此站点中的页面。我的文件或 Google 有问题吗?
web-crawler - How would someone download a website from Google Cache?
A friend accidentally deleted his forum database. Which wouldn't normally be a huge issue, except for the fact that he neglected to perform backups. 2 years of content is just plain gone. Obviously, he's learned his lesson.
The good news, however, is that Google keeps backups, even if individual site owners are idiots. The bad news is, that traditional crawling robots would choke on the Google Cache version of the website.
Is there anything existing that would help trawl the Google Cache, or how would I go about rolling my own?
robots.txt - Googlebot 不尊重 Robots.txt
出于某种原因,当我查看 Google 网站管理员工具的“分析 robots.txt”以查看我们的 robots.txt 文件阻止了哪些网址时,这不是我所期望的。这是我们文件开头的片段:
对于 Googlebot 和 Mediapartners-Google,scripts 文件夹中的任何内容都会被正确阻止。我可以看到这两个机器人看到了正确的指令,因为 Googlebot 说脚本从第 7 行被阻止,而 Mediapartners-Google 从第 4 行被阻止。但是我从第二个用户下的不允许的 url 中输入的任何其他 url -agent 指令未被阻止!
我想知道我的评论或使用绝对网址是否把事情搞砸了......
任何见解都值得赞赏。谢谢。
seo - 这是黑帽SEO技术吗?
我有一个完全用 Flash 开发的网站。现在网站所有者不想转向更多基于文本/html 的网站。因此,我计划创建一个替代的基于 html/text 的站点,googlebot 将被重定向到该站点。(通过检查用户代理)。我的问题是,这是谷歌官方允许的吗?
如果不是,那么与用户相比,为什么有许多基于订阅的网站向谷歌显示不同的数据集?这是允许的吗?
非常感谢你。
robots.txt - googlebot 会将我的网站编入索引吗?
在我的 robots.txt 文件中,我有以下行
用户代理:Googlebot-Mobile 禁止:/
用户代理:GoogleBot 禁止:/
站点地图: http: //mydomain.com/sitemapindex.xml
我知道如果我放前 4 行,googlebot 不会索引网站,但是如果我放最后一行Sitemap: http://mydomain.com/sitemapindex.xml,googlebot 能索引网站吗?
谢谢,
seo - 如果 googlebot 尝试将营销 URL 编入索引,我应该担心吗?
我最近开始使用Google Webmaster Tools。
看到谷歌试图索引多少链接,我感到非常惊讶。
这些都是作为来自合作伙伴网站的链接而存在的广告系列。
目前他们都被我的机器人文件拒绝,直到网站完成 - 就像网站上的每个页面一样。
我想知道处理此类链接的最佳方法是什么 - 在我减少 robots.txt 文件的限制之前。
我担心它们会被视为不同的 URL 并开始出现在谷歌的搜索结果中。它们都对应于同一页面 - 给予或接受。我不希望人们按原样找到它们并单击它们。
到目前为止,最好的想法是呈现一个包含查询字符串的页面,如下所示:
我需要这样做吗?这是最好的方法吗?
编辑:事实证明这不是一个好方法。事实证明,Google 在与另一个没有 NOINDEX 的页面具有相同内容的页面上看到了 NOINDEX。显然它认为它们是同一件事,并且 NOINDEX 优先。结果,我的网站完全从 Google 中消失了。警告:这可能是我同时做的其他事情,但我不会冒险使用这种方法。