1

我正在开发一个需要剽窃检测的应用程序。我想知道是否可以以任何方式使用新的搜索 API 或应用程序引擎中的任何其他 API(如预期搜索)来完成数百万实体的这项任务?

如果没有,建议的 python 库是什么?

具体来说,我需要检测提交给课程作业的解决方案之间的相似性。它们可以是程序甚至文本,但通常不会超过几段。

我知道 Winnowing 算法(顺序散列),但这里的问题是搜索数百万提交的作业(不是少数)。

4

1 回答 1

3

您可以使用全文搜索 API 搜索文档语料库;这取决于全文搜索的常见注意事项:您可以搜索单个术语和确切的短语,但没有内置的“模糊性” - 不会返回接近匹配的内容(除非处理“短语”和“短语”和“短语”是同一个词)。

当然,抄袭检测比仅仅找到候选文档要复杂得多。您最好的选择可能是使用 TF-IDF 之类的东西来查找输入文本中最重要的单词,使用全文搜索 API 查找包含这些单词的一组候选文档,然后在对候选人的记忆。

于 2012-05-24T01:25:31.523 回答