我的最终目标是在给定文本文件的情况下创建一个原始的抄袭检查器。我计划首先按句子拆分数据,在 Google 上搜索每个句子,最后搜索 Google 返回的前几个 URL 中的每一个,以查找句子/子字符串的出现。这最后一步是我遇到麻烦的一步。
在 for 循环中运行每个 URL 时,我首先使用 urllib.open() 读取 URL 的内容,但我不确定之后要做什么。代码附在下面,我尝试过的一些解决方案被注释掉了。我已经导入了googlesearch
、urllib.request
和re
库。
def plagCheck():
global inpFile
with open(inpFile) as data:
sentences = data.read().split(".")
for sentence in sentences:
for url in search(sentence, tld='com', lang='en', num=5, start=0, stop=5, pause=2.0):
content = urlopen(url).read()
# if sentence in content:
# print("yes")
# else:
# print("no")
# matches = findall(sentence, content)
# if len(matches) == 0:
# print("no")
# else:
# print("yes")