问题标签 [plagiarism-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
latex - 如何从 LaTeX 文档中提取重要的文本内容
我需要从我用 LaTeX 编写的论文文档中提取纯文本内容,以进行自动反抄袭检查。我只知道“草稿”选项,这还不够。
我应该省略:
- 图片,
- 表格和其他数字,
- 方程,
- 标题和脚注。
删除所有引用也很好。输出应该是纯文本(UTF-8 编码)文本文件。
有没有直接的方法可以做到这一点?我真的不喜欢逐页手动复制它。
c++ - 用于 C/C++ 剽窃检测的变量重命名
我有几个简单的 C++ 作业,我知道学生共享代码。这些都是聪明的学生,他们知道如何欺骗苔藓。我正在寻找一种可以根据变量的类型重命名变量的工具(第一个 int 类型的变量将是 int1,第一个 int 数组将是 intptr1 ...),或者做一些我现在想不到的类似事情。你知道一个快速的方法来做到这一点吗?
编辑:我需要使用 moss 并报告 90% 匹配
谢谢
java - 显示抄袭结果
我正在开发一个抄袭检测框架。在那里,我们首先以词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。
在我们将预处理的文档输入到我们的抄袭函数后,它会返回相似的句子。
然后在我们的 GUI 中,我们必须通过高亮显示这两个文档和相似的句子。
要在 java 中突出显示,我们必须获取单词的索引并突出显示。
问题是预处理后的文本与原始文档不同,因此很难对原始文档中的相似句子进行索引。
谁能帮我解决这个问题??
haskell - 在 Haskell 中用同义词替换单词
我正在通过这个抄袭检测器并尝试在 Haskell 中编写一个程序,该程序将读取一个文件并用同义词替换其中的一些单词。Haskell 中是否有可用于此目的的字典?
此外,如果您有任何关于算法的输入或与此问题相关的任何其他输入,例如如何通过用同义词替换单词来避免更改语句的上下文,那么请发布。
ruby - 为 Ruby 中的抄袭检测引擎设计噪声过滤器
我一直在研究基于 MOSS(软件相似度测量)背后的学术论文的抄袭检测引擎的实现
链接到MOSS
为了为 C/C++/Java 等语言设计噪声过滤器,我需要做出一些决定。
关键字是否与检测剽窃相关或应该被删除?相同语言的源文件必须共享相同的关键字集。论文没有讨论如何处理它们。
如何处理标识符?用单个字符“V”替换所有关键字,使匹配独立于变量名是有意义的。
如何处理包导入和库包含?
空格、注释和标点符号一定要去掉。
我想知道在完成所有操作后,源文件将只是一堆“V”和其他一些乱码。
噪声滤波器应该执行哪些操作?
关于处理噪音的最佳方法的见解和意见?
plagiarism-detection - 是否有任何工作/真正的开源抄袭检查器可用?
我想开发一个抄袭检查器来检查几个源代码,但我找不到任何合适的源代码,甚至找不到资源来了解它。我检查了没用的Boss2。他们声称他们使用 Sherlock 模块来检测抄袭,但似乎 boss2 中没有此类工具。
如果有任何开源检测工具可用于检查源代码,请告诉我。问候
ruby - Rabin Karp 在 Ruby 中的实现太慢了
我一直在研究一个使用MOSS的 Idea 的小型抄袭检测引擎。我需要一个滚动哈希函数,我的灵感来自 Rabin-Karp 算法。
我写的代码 -->
我正在使用值运行它-> calc_hash(text,5,101) 其中文本是字符串输入。
代码非常慢。我哪里错了?
ruby - Rabin Karp Rolling Hash 生成的散列不反映在文本上
注意:很多可能的重复项,但似乎没有解决我的问题。
我正在研究基于MOSS的抄袭检测。
在成功实现一个过滤器去除所有必要的细节(评论、标点符号等)后,我使用滚动哈希实现(Rabin Karp)对内容进行哈希处理
然而,在源代码的两个文本文件中匹配的哈希具有非常不同的底层文本(没有抄袭但相同的哈希)
我实现的算法(Ruby)->(部分片段)
我的实施有问题吗?或者我指定的参数可能有问题?
我取 radix=34 (我不确定它是否是正确的值,我假设删除的文本将只包含字母+一些特殊字符,如 '+'、'-'、'*'、'/' 所以粗略估计总共 34 个字符)
我将 q(prime) 设为 101
这是我正在处理的碰撞问题吗?关于如何解决问题的任何指示?
c - Git 可以检测两个源文件是否本质上是彼此的副本?
抱歉,如果这是题外话,但这是您减少本网站上“家庭作业”问题数量的机会:-)
我正在教授一门 C 编程课程,学生们在其中使用 C 中的一个小型数字例程库。今年,来自几组学生的源文件中有大量的代码重复。
(下至同样拼错的printf
调试语句。我的意思是,你能有多笨。)
我知道 Git 可以检测到两个源文件何时彼此相似超过某个阈值,但我从来没有管理过它来处理两个不在 Git 存储库中的源文件。
请记住,这些不是特别成熟的学生。他们不太可能会麻烦更改变量/函数名称。
有没有办法可以使用 Git 来检测重要的字面代码重复,也就是抄袭?或者您是否可以为此推荐其他一些工具
facebook - 在源代码中看不到输出/渲染的文本
由于所有 Facebook 社交插件都有此功能;
您的 Facebook 名称可以在网页上看到,但是当您在源代码中查找时,您看不到 Facebook 名称。
所以我需要知道为什么以及如何?
此功能可用于避免抄袭/文本内容解析器。
示例: https ://developers.facebook.com/docs/reference/plugins/comments/
源代码中不存在 Facebook 用户的姓名。
请详细赐教,谢谢...