问题标签 [plagiarism-detection]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

66 问题

0 投票

5 回答

2711 浏览

latex - 如何从 LaTeX 文档中提取重要的文本内容

我需要从我用 LaTeX 编写的论文文档中提取纯文本内容，以进行自动反抄袭检查。我只知道“草稿”选项，这还不够。

我应该省略：

图片，
表格和其他数字，
方程，
标题和脚注。

删除所有引用也很好。输出应该是纯文本（UTF-8 编码）文本文件。

有没有直接的方法可以做到这一点？我真的不喜欢逐页手动复制它。

latex plagiarism-detection

2011-01-29T13:43:29.587

0 投票

4 回答

14062 浏览

c++ - 用于 C/C++ 剽窃检测的变量重命名

我有几个简单的 C++ 作业，我知道学生共享代码。这些都是聪明的学生，他们知道如何欺骗苔藓。我正在寻找一种可以根据变量的类型重命名变量的工具（第一个 int 类型的变量将是 int1，第一个 int 数组将是 intptr1 ...），或者做一些我现在想不到的类似事情。你知道一个快速的方法来做到这一点吗？

编辑：我需要使用 moss 并报告 90% 匹配

谢谢

c++refactoring plagiarism-detection

2011-05-03T22:42:44.933

0 投票

1 回答

1038 浏览

java - 显示抄袭结果

我正在开发一个抄袭检测框架。在那里，我们首先以词干提取、同义词替换和停用词删除的方式对文档进行预处理。所以预处理后的文档与原始文档有些不同。

在我们将预处理的文档输入到我们的抄袭函数后，它会返回相似的句子。

然后在我们的 GUI 中，我们必须通过高亮显示这两个文档和相似的句子。

要在 java 中突出显示，我们必须获取单词的索引并突出显示。

问题是预处理后的文本与原始文档不同，因此很难对原始文档中的相似句子进行索引。

谁能帮我解决这个问题？？

java preprocessor highlighting plagiarism-detection

2011-05-19T06:23:32.157

0 投票

1 回答

346 浏览

haskell - 在 Haskell 中用同义词替换单词

我正在通过这个抄袭检测器并尝试在 Haskell 中编写一个程序，该程序将读取一个文件并用同义词替换其中的一些单词。Haskell 中是否有可用于此目的的字典？

此外，如果您有任何关于算法的输入或与此问题相关的任何其他输入，例如如何通过用同义词替换单词来避免更改语句的上下文，那么请发布。

haskell dictionary plagiarism-detection

2011-10-03T14:36:42.260

0 投票

2 回答

791 浏览

ruby - 为 Ruby 中的抄袭检测引擎设计噪声过滤器

我一直在研究基于 MOSS（软件相似度测量）背后的学术论文的抄袭检测引擎的实现

链接到MOSS

为了为 C/C++/Java 等语言设计噪声过滤器，我需要做出一些决定。

关键字是否与检测剽窃相关或应该被删除？相同语言的源文件必须共享相同的关键字集。论文没有讨论如何处理它们。

如何处理标识符？用单个字符“V”替换所有关键字，使匹配独立于变量名是有意义的。

如何处理包导入和库包含？

空格、注释和标点符号一定要去掉。

我想知道在完成所有操作后，源文件将只是一堆“V”和其他一些乱码。

噪声滤波器应该执行哪些操作？

关于处理噪音的最佳方法的见解和意见？

ruby algorithm plagiarism-detection

2011-12-17T12:02:50.117

0 投票

3 回答

10842 浏览

plagiarism-detection - 是否有任何工作/真正的开源抄袭检查器可用？

我想开发一个抄袭检查器来检查几个源代码，但我找不到任何合适的源代码，甚至找不到资源来了解它。我检查了没用的Boss2。他们声称他们使用 Sherlock 模块来检测抄袭，但似乎 boss2 中没有此类工具。

如果有任何开源检测工具可用于检查源代码，请告诉我。问候

plagiarism-detection

2011-12-19T19:27:50.027

0 投票

1 回答

776 浏览

ruby - Rabin Karp 在 Ruby 中的实现太慢了

我一直在研究一个使用MOSS的 Idea 的小型抄袭检测引擎。我需要一个滚动哈希函数，我的灵感来自 Rabin-Karp 算法。

我写的代码 -->

我正在使用值运行它-> calc_hash(text,5,101) 其中文本是字符串输入。

代码非常慢。我哪里错了？

ruby algorithm plagiarism-detection rabin-karp

2011-12-30T17:47:16.783

0 投票

1 回答

581 浏览

ruby - Rabin Karp Rolling Hash 生成的散列不反映在文本上

注意：很多可能的重复项，但似乎没有解决我的问题。

我正在研究基于MOSS的抄袭检测。

在成功实现一个过滤器去除所有必要的细节（评论、标点符号等）后，我使用滚动哈希实现（Rabin Karp）对内容进行哈希处理

然而，在源代码的两个文本文件中匹配的哈希具有非常不同的底层文本（没有抄袭但相同的哈希）

我实现的算法（Ruby）->（部分片段）

我的实施有问题吗？或者我指定的参数可能有问题？

我取 radix=34 （我不确定它是否是正确的值，我假设删除的文本将只包含字母+一些特殊字符，如 '+'、'-'、'*'、'/' 所以粗略估计总共 34 个字符）

我将 q(prime) 设为 101

这是我正在处理的碰撞问题吗？关于如何解决问题的任何指示？

ruby algorithm plagiarism-detection rabin-karp

2012-01-15T07:09:22.463

0 投票

5 回答

5929 浏览

c - Git 可以检测两个源文件是否本质上是彼此的副本？

抱歉，如果这是题外话，但这是您减少本网站上“家庭作业”问题数量的机会:-)

我正在教授一门 C 编程课程，学生们在其中使用 C 中的一个小型数字例程库。今年，来自几组学生的源文件中有大量的代码重复。

（下至同样拼错的printf调试语句。我的意思是，你能有多笨。）

我知道 Git 可以检测到两个源文件何时彼此相似超过某个阈值，但我从来没有管理过它来处理两个不在 Git 存储库中的源文件。

请记住，这些不是特别成熟的学生。他们不太可能会麻烦更改变量/函数名称。

有没有办法可以使用 Git 来检测重要的字面代码重复，也就是抄袭？或者您是否可以为此推荐其他一些工具

c git plagiarism-detection

2012-01-21T05:46:29.970

0 投票

1 回答

74 浏览

facebook - 在源代码中看不到输出/渲染的文本

由于所有 Facebook 社交插件都有此功能；

您的 Facebook 名称可以在网页上看到，但是当您在源代码中查找时，您看不到 Facebook 名称。

所以我需要知道为什么以及如何？

此功能可用于避免抄袭/文本内容解析器。

示例： https ://developers.facebook.com/docs/reference/plugins/comments/

源代码中不存在 Facebook 用户的姓名。

请详细赐教，谢谢...

facebook scraper plagiarism-detection

2012-02-05T23:19:05.927

1 2 3 4 5 6 7 8 9 10

问题标签 [plagiarism-detection]

Reference