0

copyscape 如何使用谷歌 API?ajax api 仅适用于启用了 javascript 的浏览器,因此不使用此 api。没有使用 SOAP api,因为它不允许用于商业用途,并且每天允许查询不超过 100 次。

4

2 回答 2

2

Copyscape 不使用 Google api,而是使用 Google 搜索,它向http://www.google.com/search?q=Search Keywords here 发出一个简单的 curl 请求。然后使用正则表达式模式来查找标题、描述和链接并显示给用户。但这严重违反了谷歌的服务条款,这也可能让他们被禁止,所以他们使用代理(或任何其他 ip 隐藏方法)来隐藏他们每次搜索的 ip

于 2011-01-08T07:07:18.090 回答
1

从他们的常见问题解答中,他们解释了他们是如何做到的。


Copyscape 从哪里得到它的结果?

Copyscape 使用谷歌和雅虎!作为搜索提供商,根据商定的条款。这些搜索提供程序将标准搜索结果发送到 Copyscape,无需任何后处理。Copyscape 使用复杂的专有算法来修改这些搜索结果,以提供剽窃检查服务。任何费用均针对 Copyscape 的增值服务,而不是针对搜索提供商提供的搜索结果。

http://www.copyscape.com/faqs.php#providers


分析

CopyScape 让我们 100% 确信谷歌和雅虎有特殊协议。我有 80% 的把握 CopyScape 正在使用与搜索引擎提供的Google Enterprise Search类似的搜索解决方案(可能未公开但类似) 。

CopyScape 不会抓取结果,而是获取基于 API 的格式,例如 json 和 xml。这对提供商(谷歌和雅虎)来说有利于带宽和响应时间的改进。由于我之前尝试通过 python 通过短语搜索(“短语匹配”)来抓取 google 搜索结果,因此我想出了这一部分。您的抓取机器人不能也没有已知的方法可以绕过 503,谷歌将在数百个结果(100 个搜索间隔或 50 个搜索间隔)后做出响应。

他们显然没有做一些浏览器自动化,然后在 Web 驱动程序和 Python 等编程语言之间获取数据。我已经尝试过这样做,它给出了类似的结果,除了自动搜索器需要对验证码进行一些手动干预,然后让你继续抓取。我还尝试使用一些最新的绕过方法,只需几分钟/几秒钟即可完成补丁。当然,他们没有从搜索引擎中进行任何自动抓取,如果他们正在这样做的话。它不会长期有效。

他们如何使用他们的特权?

由于他们已经付清/有特殊条款,他们现在可以通过特殊 API 实现自动化。他们要么使用 Google Search Enterprise 和 Yahoo Search Marketing Enterprise,要么拥有更特殊的解决方案。

不使用列表

  • 常规/免费 API(不确定 google 和 yahoo 是否为他们免费提供)
  • 刮板(刮板、美汤、硒等)

使用列表

  • 企业级 API
  • 服务器 Bash 脚本 / Python 脚本 / Ruby 脚本 / PHP 脚本用于可扩展性等。

希望

我希望 CopyScape 的某个人可以泄露信息,这样人们就不会猜测了,CopyScape 应该有更多的竞争,因为那里只有一些高度可靠和受重视的抄袭检查器(可能只有 1-10 个)。

于 2013-10-18T06:43:26.003 回答