我正在开发一个需要剽窃检测的应用程序。我想知道是否可以以任何方式使用新的搜索 API 或应用程序引擎中的任何其他 API(如预期搜索)来完成数百万实体的这项任务?
如果没有,建议的 python 库是什么?
具体来说,我需要检测提交给课程作业的解决方案之间的相似性。它们可以是程序甚至文本,但通常不会超过几段。
我知道 Winnowing 算法(顺序散列),但这里的问题是搜索数百万提交的作业(不是少数)。
我正在开发一个需要剽窃检测的应用程序。我想知道是否可以以任何方式使用新的搜索 API 或应用程序引擎中的任何其他 API(如预期搜索)来完成数百万实体的这项任务?
如果没有,建议的 python 库是什么?
具体来说,我需要检测提交给课程作业的解决方案之间的相似性。它们可以是程序甚至文本,但通常不会超过几段。
我知道 Winnowing 算法(顺序散列),但这里的问题是搜索数百万提交的作业(不是少数)。