问题标签 [plagiarism-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
2711 浏览

latex - 如何从 LaTeX 文档中提取重要的文本内容

我需要从我用 LaTeX 编写的论文文档中提取纯文本内容,以进行自动反抄袭检查。我只知道“草稿”选项,这还不够。

我应该省略:

  • 图片,
  • 表格和其他数字,
  • 方程,
  • 标题和脚注。

删除所有引用也很好。输出应该是纯文本(UTF-8 编码)文本文件。

有没有直接的方法可以做到这一点?我真的不喜欢逐页手动复制它。

0 投票
4 回答
14062 浏览

c++ - 用于 C/C++ 剽窃检测的变量重命名

我有几个简单的 C++ 作业,我知道学生共享代码。这些都是聪明的学生,他们知道如何欺骗苔藓。我正在寻找一种可以根据变量的类型重命名变量的工具(第一个 int 类型的变量将是 int1,第一个 int 数组将是 intptr1 ...),或者做一些我现在想不到的类似事情。你知道一个快速的方法来做到这一点吗?

编辑:我需要使用 moss 并报告 90% 匹配

谢谢

0 投票
1 回答
1038 浏览

java - 显示抄袭结果

我正在开发一个抄袭检测框架。在那里,我们首先以词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。

在我们将预处理的文档输入到我们的抄袭函数后,它会返回相似的句子。

然后在我们的 GUI 中,我们必须通过高亮显示这两个文档和相似的句子。

要在 java 中突出显示,我们必须获取单词的索引并突出显示。

问题是预处理后的文本与原始文档不同,因此很难对原始文档中的相似句子进行索引。

谁能帮我解决这个问题??

0 投票
1 回答
346 浏览

haskell - 在 Haskell 中用同义词替换单词

我正在通过这个抄袭检测器并尝试在 Haskell 中编写一个程序,该程序将读取一个文件并用同义词替换其中的一些单词。Haskell 中是否有可用于此目的的字典?

此外,如果您有任何关于算法的输入或与此问题相关的任何其他输入,例如如何通过用同义词替换单词来避免更改语句的上下文,那么请发布。

0 投票
2 回答
791 浏览

ruby - 为 Ruby 中的抄袭检测引擎设计噪声过滤器

我一直在研究基于 MOSS(软件相似度测量)背后的学术论文的抄袭检测引擎的实现

链接到MOSS

为了为 C/C++/Java 等语言设计噪声过滤器,我需要做出一些决定。

关键字是否与检测剽窃相关或应该被删除?相同语言的源文件必须共享相同的关键字集。论文没有讨论如何处理它们。

如何处理标识符?用单个字符“V”替换所有关键字,使匹配独立于变量名是有意义的。

如何处理包导入和库包含?

空格、注释和标点符号一定要去掉。

我想知道在完成所有操作后,源文件将只是一堆“V”和其他一些乱码。

噪声滤波器应该执行哪些操作?

关于处理噪音的最佳方法的见解和意见?

0 投票
3 回答
10842 浏览

plagiarism-detection - 是否有任何工作/真正的开源抄袭检查器可用?

我想开发一个抄袭检查器来检查几个源代码,但我找不到任何合适的源代码,甚至找不到资源来了解它。我检查了没用的Boss2。他们声称他们使用 Sherlock 模块来检测抄袭,但似乎 boss2 中没有此类工具。

如果有任何开源检测工具可用于检查源代码,请告诉我。问候

0 投票
1 回答
776 浏览

ruby - Rabin Karp 在 Ruby 中的实现太慢了

我一直在研究一个使用MOSS的 Idea 的小型抄袭检测引擎。我需要一个滚动哈希函数,我的灵感来自 Rabin-Karp 算法。

我写的代码 -->

我正在使用值运行它-> calc_hash(text,5,101) 其中文本是字符串输入。

代码非常慢。我哪里错了?

0 投票
1 回答
581 浏览

ruby - Rabin Karp Rolling Hash 生成的散列不反映在文本上

注意:很多可能的重复项,但似乎没有解决我的问题。

我正在研究基于MOSS的抄袭检测。

在成功实现一个过滤器去除所有必要的细节(评论、标点符号等)后,我使用滚动哈希实现(Rabin Karp)对内容进行哈希处理

然而,在源代码的两个文本文件中匹配的哈希具有非常不同的底层文本(没有抄袭但相同的哈希)

我实现的算法(Ruby)->(部分片段)

我的实施有问题吗?或者我指定的参数可能有问题?

我取 radix=34 (我不确定它是否是正确的值,我假设删除的文本将只包含字母+一些特殊字符,如 '+'、'-'、'*'、'/' 所以粗略估计总共 34 个字符)

我将 q(prime) 设为 101

这是我正在处理的碰撞问题吗?关于如何解决问题的任何指示?

0 投票
5 回答
5929 浏览

c - Git 可以检测两个源文件是否本质上是彼此的副本?

抱歉,如果这是题外话,但这是您减少本网站上“家庭作业”问题数量的机会:-)

我正在教授一门 C 编程课程,学生们在其中使用 C 中的一个小型数字例程库。今年,来自几组学生的源文件中有大量的代码重复。

(下至同样拼错的printf调试语句。我的意思是,你能有多笨。)

我知道 Git 可以检测到两个源文件何时彼此相似超过某个阈值,但我从来没有管理过它来处理两个不在 Git 存储库中的源文件。

请记住,这些不是特别成熟的学生。他们不太可能会麻烦更改变量/函数名称。

有没有办法可以使用 Git 来检测重要的字面代码重复,也就是抄袭?或者您是否可以为此推荐其他一些工具

0 投票
1 回答
74 浏览

facebook - 在源代码中看不到输出/渲染的文本

由于所有 Facebook 社交插件都有此功能;

您的 Facebook 名称可以在网页上看到,但是当您在源代码中查找时,您看不到 Facebook 名称。

所以我需要知道为什么以及如何?

此功能可用于避免抄袭/文本内容解析器。

示例: https ://developers.facebook.com/docs/reference/plugins/comments/

源代码中不存在 Facebook 用户的姓名。

请详细赐教,谢谢...