问题标签 [plagiarism-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - 如何镜像 MOSS 抄袭检测的结果?
MOSS是用于检查软件抄袭的知名服务器。它允许教师发送作业提交,计算不同提交之间的相似度,并为非常相似的代码块着色。 下面是一个比较结果的例子。如您所见,它非常简单:它包含一个带有可疑文件索引的 HTML 文件,并包含指向特定 HTML 文件的链接以进行比较。
结果会在 MOSS 网站上保存两周。我想将所有结果下载到我的计算机中,以便以后查看。我在 Linux 上使用这个命令:
我得到的是以下内容:
如您所见,仅index.html
下载文件。不会下载从 链接到的其他文件,index.html
例如 match0.html和 match1.html。
我试图用不同的工具镜像同一个网站Web HTTrack
- 但得到完全相同的结果 - 只有索引文件被镜像,而不是match
文件。
HTML 看起来很简单,所以我无法弄清楚为什么镜像不起作用。我该怎么做才能正确反映结果?
PS 如果相关,robots.txt 文件包含以下内容:
python - 如何在网页中搜索单词/短语的出现?
我的最终目标是在给定文本文件的情况下创建一个原始的抄袭检查器。我计划首先按句子拆分数据,在 Google 上搜索每个句子,最后搜索 Google 返回的前几个 URL 中的每一个,以查找句子/子字符串的出现。这最后一步是我遇到麻烦的一步。
在 for 循环中运行每个 URL 时,我首先使用 urllib.open() 读取 URL 的内容,但我不确定之后要做什么。代码附在下面,我尝试过的一些解决方案被注释掉了。我已经导入了googlesearch
、urllib.request
和re
库。
java - 循环中有一些问题,如果可能,它会重复 12 次帮助
这是我在大学项目中所做的代码的一部分,所以基本上我正在使用两种字符串匹配算法并在主类中使用它进行简单的抄袭检测,因为我在循环中犯了一些错误,因此我的输出是重复 12 次并一次又一次地检查我的代码,但无法真正弄清楚我哪里出错了我真的需要有人帮助我解决这个问题我必须在本月底之前提交这个我附上我的输出照片输出
python - 如何让 python 忽略文件中的注释?(Zybooks抄袭检测器作业阅读文件)
作为我应该编写的程序的一部分,我需要帮助尝试让 Python 忽略文件中的某些字符串。该作业称为:“高级抄袭检测器”,以下是详细信息:
编写一个程序,作为更高级的剽窃检测器。为了欺骗剽窃检测软件,学生们经常在他们的工作代码中插入注释。您的程序应该从键盘读取两个文件名,并在忽略注释的情况下显示两个文件是否相同。(为简单起见,您无需担心文档字符串和空行)
例如,如果一个文件具有以下代码:
另一个文件有:
程序应该打印出这些文件是相同的。
所以这就是问题所在。下面是我到目前为止的代码,我只是卡住了:
我已经尝试了一些东西,尤其是使用 '.startswith("#")' ,但结果一无所获。感谢我能得到的任何帮助。如果这是一个愚蠢的问题,我很抱歉浪费您的时间。
python - 通过python检查mysql中文章之间的相似性/抄袭
我有一个 mysql 数据库,我在其中添加新闻文章,在添加之前,它会尝试将该文章与 100 篇最后一篇文章进行比较,如果它有任何相似之处。
因此,如果相似度为 95%,我可以将其标记为 与文章 122相同,或者如果相似度为 70-95%,我可以将其标记为与文章 133相似,
这是最好的方法:
有没有mysql可以做到的方法或功能
我是否需要使用 python 在while循环中将那篇文章与其他 100 篇文章进行比较
正如我在论坛中看到的那样,python 是最好的方法,但我尝试了一些库来比较 string1(article1) 和 string2(article2),即使它完全不同的文章告诉我它是 70% 相同
我认为这是因为一些相同的词,例如:and , he ,she, will, news,text,or,and, the, i
hash - 是否有任何散列函数可以为几乎相似的输入生成相同的结果?
我想实现一个问题解决方案,该解决方案需要一个散列函数,该函数为相似的输入返回相同的输出。输入将是一些代码,我希望散列函数忽略变量名称等。
如果没有这样的散列函数可用,那么我如何使用其他散列算法来实现它。请问有什么建议吗?