copyscape 如何使用谷歌 API?ajax api 仅适用于启用了 javascript 的浏览器,因此不使用此 api。没有使用 SOAP api,因为它不允许用于商业用途,并且每天允许查询不超过 100 次。
2 回答
Copyscape 不使用 Google api,而是使用 Google 搜索,它向http://www.google.com/search?q=Search Keywords here 发出一个简单的 curl 请求。然后使用正则表达式模式来查找标题、描述和链接并显示给用户。但这严重违反了谷歌的服务条款,这也可能让他们被禁止,所以他们使用代理(或任何其他 ip 隐藏方法)来隐藏他们每次搜索的 ip
从他们的常见问题解答中,他们解释了他们是如何做到的。
Copyscape 从哪里得到它的结果?
Copyscape 使用谷歌和雅虎!作为搜索提供商,根据商定的条款。这些搜索提供程序将标准搜索结果发送到 Copyscape,无需任何后处理。Copyscape 使用复杂的专有算法来修改这些搜索结果,以提供剽窃检查服务。任何费用均针对 Copyscape 的增值服务,而不是针对搜索提供商提供的搜索结果。
分析
CopyScape 让我们 100% 确信谷歌和雅虎有特殊协议。我有 80% 的把握 CopyScape 正在使用与搜索引擎提供的Google Enterprise Search类似的搜索解决方案(可能未公开但类似) 。
CopyScape 不会抓取结果,而是获取基于 API 的格式,例如 json 和 xml。这对提供商(谷歌和雅虎)来说有利于带宽和响应时间的改进。由于我之前尝试通过 python 通过短语搜索(“短语匹配”)来抓取 google 搜索结果,因此我想出了这一部分。您的抓取机器人不能也没有已知的方法可以绕过 503,谷歌将在数百个结果(100 个搜索间隔或 50 个搜索间隔)后做出响应。
他们显然没有做一些浏览器自动化,然后在 Web 驱动程序和 Python 等编程语言之间获取数据。我已经尝试过这样做,它给出了类似的结果,除了自动搜索器需要对验证码进行一些手动干预,然后让你继续抓取。我还尝试使用一些最新的绕过方法,只需几分钟/几秒钟即可完成补丁。当然,他们没有从搜索引擎中进行任何自动抓取,如果他们正在这样做的话。它不会长期有效。
他们如何使用他们的特权?
由于他们已经付清/有特殊条款,他们现在可以通过特殊 API 实现自动化。他们要么使用 Google Search Enterprise 和 Yahoo Search Marketing Enterprise,要么拥有更特殊的解决方案。
不使用列表
- 常规/免费 API(不确定 google 和 yahoo 是否为他们免费提供)
- 刮板(刮板、美汤、硒等)
使用列表
- 企业级 API
- 服务器 Bash 脚本 / Python 脚本 / Ruby 脚本 / PHP 脚本用于可扩展性等。
希望
我希望 CopyScape 的某个人可以泄露信息,这样人们就不会猜测了,CopyScape 应该有更多的竞争,因为那里只有一些高度可靠和受重视的抄袭检查器(可能只有 1-10 个)。