问题标签 [plagiarism-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
740 浏览

plagiarism-detection - 在我的网站上集成 Turnitin

我已经着手创建一个在线自由写作网站,该网站需要一个抄袭检查软件。它应该像这样工作:

  1. 专家处理客户任务
  2. 专家通过网站将完成的作业发布给客户
  3. 在客户收到作品之前,抄袭软件会检查作品的原创性,如果是原创的,则会发布作品。否则,该作品不会发布,专家将有机会再次对其进行处理

Turnitin 是否允许此类使用,如果允许,我该如何进行集成?如果不是,什么抄袭软件允许上述情况?谢谢

0 投票
0 回答
154 浏览

apache-beam - 使用 Apache Beam 过滤相似文本

我有大量短文本,我想过滤掉彼此非常相似(或完全相同)的文本。我想使用在 Google Cloud Dataflow 上运行的 Apache Beam 来实现这一点。

我希望使用MinHash LSH算法来判断两个文本的相似度是否超过了某个阈值。

MinHash LSH 算法生成一种哈希表形式来(概率地)找到相似的句子。我希望这个哈希表对于一百万条文本大约为 1 Gb,并随着文本数量线性增长。

我看到将此用例映射到 Apache Beam 编程模型的唯一方法是使用Combine转换为所有项目生成哈希表(累加器将是哈希表;我能够实现“合并累加器”)然后将它用作ParDo我在哈希表中查找每个文本以查看它是否与另一个文本冲突的侧面输入。

这似乎是一件合理的事情吗?具体来说,累加器可能有几 GB 大是一个问题吗?

0 投票
0 回答
201 浏览

algorithm - TF-IDF如何用于编程源代码抄袭检测?

我简要了解了 TF-IDF 的工作原理,用于检测文章中的抄袭,它确实有意义。

现在我被告知要对编程源代码使用它,这怎么能工作?文章中大部分单词都是自然语言单词说的英语,你可以数这些单词。现在在源代码中,每个人都可以定义各种奇怪的变量名,所以这种单词计数对我来说没有多大意义。

即使我只想计算函数名,我自己的函数名也可能很奇怪,而系统/库函数名对 TF 很有用。

任何人都可以帮助解释更多?谢谢 !

0 投票
2 回答
56 浏览

php - 在 PHP 中访问多维数组

我打印从 API 获得的多维数组,目标是遍历数组并检查字段 [Percents] 是否大于 20,但没有成功:这就是数组的样子: 多维数组

我如何获得出现在百分比之后的数字?

0 投票
0 回答
244 浏览

plagiarism-detection - 从谷歌搜索结果中阻止特定域(qaru.site)

最近,我开始在 google 的前 10 个搜索结果中看到来自 qaru.site 的结果。这有点烦人,因为我讨厌抄袭,它只是来自 StackOverflow 的机器翻译问题,例如

java jaxb 简单解析需要@XmlAccessorType(XmlAccessType.FIELD) 注释

http://qaru.site/questions/2080946/java-jaxb-simple-parsing-is-requiring-xmlaccessortypexmlaccesstypefield-annotation

所以,我有两个问题:

  1. 这完全合法吗?如果不能,我们可以做点什么吗?
  2. 我可以以某种方式至少从我的搜索结果中禁止这个域吗?

对不起,如果它应该在 StackExchange 的其他部分,我是按照问题中使用的域来指导的。

0 投票
0 回答
216 浏览

elasticsearch - Elasticsearch 比较大文本的最佳方式

我在 elasticsearch 中有几千个文本,我必须与文本段进行比较并检测抄袭(完全巧合)。我计划从检查文本的不同部分提取几个大段,然后在加载到 elasticsearch 的文档中找到它们。我正在尝试在弹性搜索中找到更好的方法。

0 投票
1 回答
136 浏览

java - 如何检查文件中的java代码重复

我正在通过一个项目,我必须检查两个文件之间的抄袭。在两个文件中有一些java 代码。这意味着如果有两个文件名为 a.java 和 b.java 并且在两个文件中有一些java代码是用.java 类编写的,我必须检查编写这两个文件的 java 代码之间的重复性。谁能告诉我如何解决这个问题?我是初学者。

0 投票
1 回答
33 浏览

nlp - 哪个 NLP 任务更容易开始?

以下 NLP 主题中的哪一个更容易使用?

  1. 问答
  2. 释义检测
  3. 短文对话
  4. 作者身份
0 投票
1 回答
567 浏览

github - 如果有人复制您的 github 存储库并创建了一个类似的存储库并声称它是由他们编码的。thst是否被视为抄袭?

有人复制了我的 github 存储库并创建了另一个类似于我自己的 github 存储库。那个人用他的代号改了我的名字。甚至没有放学分。

这算不算抄袭?如果不是,你能解释一下为什么吗?如果是的话,你能告诉我我应该怎么做吗?

0 投票
0 回答
405 浏览

c++ - MOSS错误-无法将目录下的所有文件上传到MOSS Server

我正在尝试对使用 MOSS 存储在目录中的所有 C++ 文件进行抄袭检查。

perl moss.pl -l cc -b pre.cpp *.cpp

上面的代码是我在 Windows 10 的命令行中使用的。所有 C++ 文件都存在于工作目录中。

但是我收到了错误

File *.cpp does not exist. Request not sent.

我究竟做错了什么?

如果我手动输入文件名,它工作正常。例如

perl moss.pl -l cc -b pre.cpp a.cpp b.cpp c.cpp

而且我可以检查这些代码中的抄袭

但是我有 200 多个 C++ 文件来检查是否存在抄袭。除了手动输入 200 个文件名之外,还有其他方法吗?