问题标签 [plagiarism-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
110 浏览

php - 我可以阻止人们以编程方式从我的网站获取内容吗?

假设我有一个包含许多博客文章的 WordPress 网站。我发现有人在那里复制我网站每个页面的内容并将其粘贴到他自己的网站上。我相信他不会手动操作,因为金额很大。我尝试复制他所做的事情,我发现实际上我很容易通过 curl 和一些 Dom Parsing 使用 php 来做同样的事情(让我知道有用文本所在的类名)。

我有什么方法可以防止它,或者至少让他们将来更难做到这一点?谢谢!

0 投票
0 回答
179 浏览

similarity - 分块文件以测试抄袭

我正在为文本文件构建一个抄袭检查器。我做了所有预处理(停用词删除、词干提取等)并建立我的索引。和过滤结果。系统差不多完成了。当我测试结果时,我按句子对语料库和用户文档进行了分块(句子分隔符是。?!)我注意到分块方法(按句子)并不强大,因为用户可能会更改标点符号来欺骗我的服务。我读了很多关于分块的文章,最好的方法是 K-words重叠,这意味着按照单词的数量进行分割,重叠。我的问题是,在这种情况下如何计算用户块和语料库块之间的相似度,因为重叠的单词会使相似度最大化。

示例:(忽略词干和停用词删除)这里的词数 = 4,重叠 = 1 个词(可能会更改)

用户句子= 我如何在您的语料库中找到类似的句子。

chunks = 我怎么能找到,我能找到相似的,我找到相似的句子,找到相似的句子,你的相似句子,你的语料库中的句子。

现在,当我针对语料库测试这些块时(让语料库有一个块说:我怎么能找到)你注意到用户块(我怎么能找到,我能找到相似的)与语料块有相似性,但两个用户块是多余的。那么我怎样才能消除这种冗余,抱歉解释太长了。

0 投票
1 回答
2164 浏览

plagiarism-detection - 不同语言的 Jplag 剽窃

我有一堆来自学生的代码用于编码问题。我正在使用 Jplag 来查找它们的代码之间的相似之处。

这种语法适用于单一语言。但我有多种语言的代码,如 c、c++、java、python、ruby。

有人可以建议我一种方法来处理所有不同语言的代码。

0 投票
1 回答
1379 浏览

perl - 因机构代理而运行 stanford moss

我在斯坦福跑苔藓。我正在使用斯坦福大学在注册时发送的 Perl 脚本。但它给出的错误是:

我也尝试在代码中添加研究所代理,如下所示:

但它给出了与上述相同的错误。一种可能的解决方案是设置虚拟环境并运行脚本。但是还有什么办法呢?

0 投票
0 回答
206 浏览

sorting - 抄袭通用代码

我现在是罗格斯大学的学生。我以前学过数据结构,现在我被分配了一个程序,该程序必须添加/乘以带有单链表的多项式。这真的很简单,现在我的问题是我必须使用排序技术(分配本身不需要,只是完成它的必要条件),我选择使用归并排序,因为它是最有效的(如果编写得当,也是最简单的) )。

我可以使用迭代重新编写它,并getMiddleNode通过迭代两次并仅使用计数器来编写方法,但我根本看不出这将如何帮助改进我的代码。老实说,我相信这是任何人都可以在不被允许使用导入的情况下编写的最佳实现。

这是我在之前的数据结构课程中基本上学过的代码。我很久以前在笔记中写过,并在我的程序中使用过。我的问题是我的大学会考虑这种剽窃行为吗?我没有想到任何代码,我只是写下文档,表明我了解代码本身是如何工作的。

0 投票
1 回答
41 浏览

html - 如何检测自动生成 html/css/javascript

我很想在学术界提出这个问题,但我认为这个问题在技术上过于具体。

对于指定学生创建网站的作业,您如何检测是否使用在线服务(如 Wix、simvoly 或 website.com)来创建这些网站?或者是否有一个特定的指令可以给出能够区分手写和模板的指令?

我曾考虑过要求在标记中插入特定的评论,但如果这些服务可以输出 html,那么没有什么能阻止某人事后添加这样的评论。虽然可以在线搜索真正特定的标记或代码以检测抄袭,但如果代码真的是通用的,这将变得相当困难。

0 投票
1 回答
72 浏览

java - 在java中跟踪转换字符串的原始位置

我正在研究源代码剽窃算法(风选算法)的实现,并且遇到了需要帮助的问题。

示例:我有一个字符串

并将此字符串转换为

并从这个字符串中构建公斤,例如 5 克

我将 kgrams 保存在字符串列表中,但也想从每个 kgram 的原始文本中保存开始和结束位置,因此我可以在最后将每个 kgram 引用回其原始文本位置。

编辑:

所以我的问题是我怎样才能得到一公斤的开始和结束位置有人能帮我吗?你有什么主意吗?提前致谢。

0 投票
1 回答
1424 浏览

algorithm - 大字符串的快速字符串搜索算法

我正在尝试使用模式匹配算法实现抄袭检测软件。我在这里遇到了KMP 算法并尝试了 c# 实现。我可以看到实际文档的速度并不快(不是字符串,我使用 iText 上传了两个 pdf 文档,并在这两篇论文中得到了检查抄袭的实现。大约 50 页)。

这真的很慢,我不知道该怎么做。我也看过Boyer MooreRabin Karp

我目前正在做的是获取文档中的每个句子(拆分为“。”)并扫描整个参考文档(第二个文档)以进行匹配。然后接下一句话,依此类推……我完全知道这可能非常昂贵。但我不知道如何在不使用这种方法的情况下实现字符串(模式)匹配。这是我最后一年的项目,我得到了一个主题,所以我必须使用字符串匹配。(不允许做基于引用的抄袭、语义或向量空间。)

文本和模式越大,算法越慢(非常慢,甚至不是相当慢)。还有另一种我不知道的方法吗?还是有更快的算法供我使用这种我的方法?

编辑

我的代码如下:`

0 投票
1 回答
982 浏览

nlp - Word2Vec 在基于文本的抄袭检测中会比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效吗?

我是学习Word2Vec的初学者,刚开始从网上做一些关于word2vec的研究。我已经完成了 Quora 和 StackOverflow 中的几乎所有问题,但没有从之前的问题中得到任何答案。所以我的问题是 - 1. 是否可以在抄袭检测中应用 word2vec?2. 如果没有。1 是可能的,那么 Word2Vec 在基于文本的抄袭检测中会比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效吗?提前致谢。

0 投票
0 回答
148 浏览

vb.net - 如何在 Google 中制作 BOT

我正在创建一个程序来使用 VB.NET 检测抄袭文章。在我创建的程序中,我使用 google 作为工具来检测它。例如有一篇文章是这样的:

计算机是当今非常流行的技术之一

所以我使用的算法是,我通过使用前两个引号和句子的结尾将句子输入到谷歌搜索中。所以我会用这样的关键字在谷歌上搜索。“计算机是当今相当流行的技术之一” 如果搜索google,发现有一个网站使用了这句话,可以确定该文章是抄袭的。

但是,我的程序必须检查数百篇文章。所以它会在短时间内自动打开google,搜索很多关键词。我创建的程序使用 webbrowser 打开了 google。

显然,因为程序我必须检查数百篇文章,然后网络浏览器逐渐引发这样的错误: 在此处输入图像描述 因为我确实正在制作一个用于在 google 上搜索的机器人。

那么,有什么建议可以克服/克服这个问题吗?

这是我的代码:(对不起,对我的代码的评论是印度尼西亚语)