php - copyscape 如何使用谷歌 API

Question

copyscape 如何使用谷歌 API？ajax api 仅适用于启用了 javascript 的浏览器，因此不使用此 api。没有使用 SOAP api，因为它不允许用于商业用途，并且每天允许查询不超过 100 次。

score 2 · Accepted Answer

Copyscape 不使用 Google api，而是使用 Google 搜索，它向http://www.google.com/search?q=Search Keywords here 发出一个简单的 curl 请求。然后使用正则表达式模式来查找标题、描述和链接并显示给用户。但这严重违反了谷歌的服务条款，这也可能让他们被禁止，所以他们使用代理（或任何其他 ip 隐藏方法）来隐藏他们每次搜索的 ip

score 1 · Accepted Answer

从他们的常见问题解答中，他们解释了他们是如何做到的。

Copyscape 从哪里得到它的结果？

Copyscape 使用谷歌和雅虎！作为搜索提供商，根据商定的条款。这些搜索提供程序将标准搜索结果发送到 Copyscape，无需任何后处理。Copyscape 使用复杂的专有算法来修改这些搜索结果，以提供剽窃检查服务。任何费用均针对 Copyscape 的增值服务，而不是针对搜索提供商提供的搜索结果。

http://www.copyscape.com/faqs.php#providers

分析

CopyScape 让我们 100% 确信谷歌和雅虎有特殊协议。我有 80% 的把握 CopyScape 正在使用与搜索引擎提供的Google Enterprise Search类似的搜索解决方案（可能未公开但类似）。

CopyScape 不会抓取结果，而是获取基于 API 的格式，例如 json 和 xml。这对提供商（谷歌和雅虎）来说有利于带宽和响应时间的改进。由于我之前尝试通过 python 通过短语搜索（“短语匹配”）来抓取 google 搜索结果，因此我想出了这一部分。您的抓取机器人不能也没有已知的方法可以绕过 503，谷歌将在数百个结果（100 个搜索间隔或 50 个搜索间隔）后做出响应。

他们显然没有做一些浏览器自动化，然后在 Web 驱动程序和 Python 等编程语言之间获取数据。我已经尝试过这样做，它给出了类似的结果，除了自动搜索器需要对验证码进行一些手动干预，然后让你继续抓取。我还尝试使用一些最新的绕过方法，只需几分钟/几秒钟即可完成补丁。当然，他们没有从搜索引擎中进行任何自动抓取，如果他们正在这样做的话。它不会长期有效。

他们如何使用他们的特权？

由于他们已经付清/有特殊条款，他们现在可以通过特殊 API 实现自动化。他们要么使用 Google Search Enterprise 和 Yahoo Search Marketing Enterprise，要么拥有更特殊的解决方案。

不使用列表

常规/免费 API（不确定 google 和 yahoo 是否为他们免费提供）
刮板（刮板、美汤、硒等）

使用列表

企业级 API
服务器 Bash 脚本 / Python 脚本 / Ruby 脚本 / PHP 脚本用于可扩展性等。

希望

我希望 CopyScape 的某个人可以泄露信息，这样人们就不会猜测了，CopyScape 应该有更多的竞争，因为那里只有一些高度可靠和受重视的抄袭检查器（可能只有 1-10 个）。

php - copyscape 如何使用谷歌 API

2 回答 2

Related

Reference