我正在用php构建一个小型抄袭检测系统以供练习。好吧,我对谷歌做了一些研究,发现我可以使用谷歌 API(自定义搜索 API)来构建一个抄袭检测软件。
好吧,我发现这个问题非常有帮助 [你将如何编写一个反剽窃网站?]
我已经设法使用以下代码从 google api 获取搜索结果
<?php
ini_set('max_execution_time',300);
require_once '../../src/Google_Client.php';
require_once '../../src/contrib/Google_CustomsearchService.php';
session_start();
$client = new Google_Client();
$client->setApplicationName('Google CustomSearch PHP Starter Application');
$client->setDeveloperKey('MY_DEVELOPER_KEY');
$search = new Google_CustomsearchService($client);
$to_search="This is the text that should be searched in google so that the result that I obtain can be used by my codes to perform plagarism analysis";
$result = $search->cse->listCse($to_search, array('cx' => 'MY_SEARCH_ENGINE_ID'));
for($i=0; $i<6; $i++)
{
print "<pre>" . print_r($result, true) . "</pre>";
}
?>
从 $result 变量我有从谷歌搜索获得的 [link]、[snippet] 和 [html snipped]。使用下面的代码
$result['items'][$i]['snippet'];
$result['items'][$i]['link'];
这里 $i 是从循环获得的整数值。
问题是 如您所知,我只能发送短关键字或几行用于在 google 中搜索,但不能发送大文本,所以我应该将大块文本分成小行,然后运行多个查询吗?还是我应该做点别的?可以分析我将获得的片段和链接值是否存在抄袭。这样做会导致大量查询超出每天一百个查询的限制。
请建议我做我应该做的事情的正确方法。我向谷歌查询的方式,然后用用户输入分析大量文本是否存在抄袭,这是正确的方式吗?