问题标签 [google-crawlers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
337 浏览

php - 秘密查询字符串是限制对非安全站点的访问和隐藏内容的合理方法吗?

所以我会直接说,显然我知道这实际上并不安全,不要因此而责备我。我只是从懒惰的角度对这个问题感兴趣。

我有一个网站,其中包含一些我想对公众“隐藏”的信息。没有什么重要或脆弱的;我只是不希望人们找到它并弄乱它。我已经有一个 robots.txt 文件禁止所有爬行。页面上没有链接(或将没有从其他站点到此站点的链接)。

设置

example.com 会将您带到“不允许访问”页面,而example.com?real=fun实际上会为您提供内容。除非查询键/值对正确,否则 PHP 不会实际运行页面。那么我是否可以合理地假设没有人会偶然找到此页面,并且如果他们这样做,他们将无法进入内容?

是的,我很懒,但我还是想知道。

编辑• 我不是在寻找“如何做到这一点”。我已经做到了。如果一个人有其他基本方法可以进入使用这种技术的页面,正确的答案将是解决。

0 投票
0 回答
1696 浏览

android - Android Marketplace 爬虫?

我正在做一个项目。我需要帮助爬取 android 市场并尽可能检索一切。我发现许多第三方爬虫 api 对此有所帮助。然而,有一个约束市场强制执行,您只能为任何请求获得 200 个结果。所以我将我的请求分解为多个请求,一次检索 200 个项目。我按发布者搜索(发布超过 200 个应用程序的发布者并不多)。困难在于我需要获得所有出版商的名单。我希望列表是最新的。

以下是我查看的一些 API:

http://code.google.com/p/android-market-api/

http://code.google.com/p/android-marketplace-crawler/

如果您有其他建议,那就太好了。此外,我愿意为这些服务付费。

0 投票
1 回答
353 浏览

google-search - 谷歌丰富片段未显示在谷歌搜索上,但显示在测试工具上

有一个奇怪的问题,我按照中的说明进行了每一步

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=146897

实施了审查部分,hreview 聚合,在 richsnippets 收费上对其进行了测试,即使这显示正确:

测试工具正确结果

但是当我去谷歌搜索这个页面时,没有任何变化,现在问题是:

1)有什么问题?

2)谷歌需要多长时间才能显示这些变化?

最好的祝福

0 投票
4 回答
890 浏览

ajax - 什么是隐身

首先,我想我了解伪装是什么,但具体是什么?

我的问题:我有一个使用 wavemaker 创建的 web 应用程序,所以它充满了 javascript 和 ajax 调用。因此,谷歌爬虫看不到我的任何内容。我现在的想法是为禁用 javascript 的用户和谷歌爬虫创建一个不同的简单 html 页面。此页面包含一个 javascript 块和一个重定向,如下所示:

重定向只会在用户浏览此站点并打开 javascript 时发生。谷歌爬虫永远不会被重定向。两个页面的内容相同,但 URL 不同。你认为这种技术是在伪装吗?

0 投票
1 回答
444 浏览

indexing - 谷歌将我的站点地图索引为网页

我有以下问题。我的站点地图的内容显示在 GOOGLE 搜索结果中。主页上有指向站点地图的链接。这可能会导致它。我已将此 URL 作为站点地图添加到 GOOGLE,我希望它仅被视为站点地图,而不是站点地图和网页。我如何告诉 GOOGLE 不要将其索引为网页?使用 robots.txt?

谢谢

0 投票
3 回答
154 浏览

web-crawler - 创建指令 robots.txt

我有一个我想要抓取的链接列表。我希望爬虫
自己发现的所有其他链接都不会被爬取。

我调查的方向:创建一个 robots.txt 将禁止所有页面期望那些存在于我的站点地图中的页面。我看到了有关如何创建这样一个文件的信息,其中指出我可以通过以下方式禁止网站的某些部分:
Allow: /folder1/myfile.html
Disallow: /folder1/

但是我想要抓取的链接不在特定的文件夹中。我可以为他制作一个实际上是站点地图的休文件,但这似乎不合理。你会推荐什么?

0 投票
1 回答
921 浏览

jquery - 谷歌的#!Ajax 实现 - 不使用 jQuery

好吧,我把头撞在桌子上,显然错过了一些简单的事情。

试图让我的 Ajax 页面可被 google 抓取。但是,它不起作用。

顺便说一句,我调用的内容中有链接并用作主要导航。

提前致谢!


好的,谢谢你的帮助。这就是我的立场: 1.) 我的页面已经用 #! 并且 AJAX 工作正常 2.)我进入 firefox 并复制并保存了文件的 HTML 版本 3.)我在我的 php 文件顶部放置了一些脚本来检测“?_escaped_fragment_ =”并重定向到 html 文件.

但是,当我查看 Google 的 fetchbot 时,它不会显示任何 AJAX 生成的内容。我什至已经将“?_escaped_fragment_=”加载到地址栏中,以确认它加载了正确的 html 副本,并且确实如此。

这是页面顶部的代码:

最后几行不起作用。我试图按照http://code.google.com/web/ajaxcrawling/docs/html-snapshot.html的描述动态生成 HTML 快照

再次感谢你的帮助!

0 投票
1 回答
5890 浏览

html - 在 Google 搜索结果中显示文章评分

我正在写一个社区评价帖子的评论网站。我注意到谷歌可以获取这些评级并将其显示在搜索结果中。有谁知道这是如何实现的?

一个例子是像 IGN 这样的评论网站,他们在下面的屏幕截图中表示他们的评论评分为 9.3/10。

在此处输入图像描述

我如何向 Google 表明我自己的评论评级?也许某种自定义元标记或其他东西。

0 投票
1 回答
1169 浏览

seo - SEO:可以抓取动态生成的链接吗?

我有一个包含<div>带有 onclick="" 代码的标签的页面,该代码调用 ajax 请求以获取 json 数据,然后遍历结果以形成链接 ( <a />) 以附加到页面。这些链接在我网站上的任何其他地方都不存在。如何使这些动态生成的链接可抓取?

我最初的想法是将<div>标签变成<a>带有 href="#" 的标签,但由于我对典型爬虫如何工作的了解有限,我认为这不会解决我的问题,因为 "#" 将是爬虫,不一定是动态生成的输出。除此之外,我根本不希望滚动定位被改变,这也将排除给<a>标签一个 id 并让它引用自己。

除了创建一个包含我需要抓取的所有链接的新页面之外,我还有其他选择吗?谢谢。

0 投票
2 回答
2235 浏览

javascript - 谷歌的爬虫索引异步加载的元素吗?

我为页面加载后异步加载的网站构建了一些小部件:

无论如何,只有在页面完全加载后(在异步 JavaScript 修改 HTML 之后)才通知 Google 的爬虫为页面编制索引?