问题标签 [plagiarism-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
437 浏览

information-retrieval - 模糊匹配大文本中的段落

我需要对短语进行非常复杂的匹配。我的文件中有大量文本,每个文件超过 1000 个单词。

我正在搜索的短语(搜索短语)是这样的:

投资并不意味着: i. 仅因以下原因产生的债权: 1. 一方的国民或企业向另一方境内的企业销售商品或服务的商业合同,或 2. 与商业交易,例如贸易融资,而不是先前涵盖的贷款或货币债权。

我想知道该短语是否出现在我拥有的每个文件中。但是,这些文件不会包含与该短语完全相同的内容。相反,文件(文本文件)将是一个带有如下段落的大文档:

但投资并不意味着对仅来自专门为缔约一方领土内的国民或法人向缔约另一方领土内的国民或法人销售商品或服务而设计的商业交易而获得的金钱的债权,为贸易融资等商业交易融资的信贷,以及期限少于三年的其他信贷,以及授予国家或国有企业的信贷。

如您所见,searchphrase 在实际含义上与文本文件中的这一段非常相似。关键词也有相当大的重叠。因此,我应该得到一场比赛。

我应该尝试使用哪种算法来编写代码?在任何地方都可以使用预编码模块吗?

0 投票
1 回答
11897 浏览

php - 如何在 php 中使用 Google API 进行抄袭检测

我正在用php构建一个小型抄袭检测系统以供练习。好吧,我对谷歌做了一些研究,发现我可以使用谷歌 API(自定义搜索 API)来构建一个抄袭检测软件。

好吧,我发现这个问题非常有帮助 [你将如何编写一个反剽窃网站?]

我已经设法使用以下代码从 google api 获取搜索结果

从 $result 变量我有从谷歌搜索获得的 [link]、[snippet] 和 [html snipped]。使用下面的代码

这里 $i 是从循环获得的整数值。

问题是 如您所知,我只能发送短关键字或几行用于在 google 中搜索,但不能发送大文本,所以我应该将大块文本分成小行,然后运行多个查询吗?还是我应该做点别的?可以分析我将获得的片段和链接值是否存在抄袭。这样做会导致大量查询超出每天一百个查询的限制。

请建议我做我应该做的事情的正确方法。我向谷歌查询的方式,然后用用户输入分析大量文本是否存在抄袭,这是正确的方式吗?

0 投票
3 回答
12433 浏览

github - 我应该将所有的计算机科学家庭作业提交到 GitHub 吗?

在阅读了Quora 上的社区 wiki后,我决定开始尝试使用 GitHub 会很好。我想,“有什么比计算机科学入门作业更好的实验方式呢?” 然而,这种做法打开了我对网络的解决方案,我担心其他学生可能会抄袭它。我在 StackOverflow 上阅读了有关版本控制和作业的其他问题

因此,当我考虑这种做法时,我想到了几个问题:

  1. 将作业代码放在 GitHub 上会打开它以供复制吗?
  2. 抄袭的人对 GitHub 熟悉吗?
  3. 我应该担心吗?
  4. 抄袭检测软件会扫描GitHub吗
0 投票
1 回答
999 浏览

algorithm - 抄袭检测机下的算法

我对抄袭检查器(例如 Turnitin 网站)的工作方式印象深刻。但是他们是怎么做到的呢?以一种非常有效的方式,我是这个领域的新手,因此是否有任何单词匹配算法或任何类似于用于检测相似句子的算法?
非常感谢。

0 投票
1 回答
191 浏览

string-comparison - 在批量文章中查找抄袭

我收集了 20,000 篇大师文章,我每天会收到大约 400,000 篇一两页的文章。现在,我想看看这 40 万篇文章中的每一篇是否都是我的大师文章集的副本或修改版本(抄袭率超过 60% 的阈值对我来说没问题)我应该使用哪些算法和技术来解决以非常有效和及时的方式解决问题。谢谢

0 投票
0 回答
334 浏览

php - 将文本与多个文本进行比较并找到具有匹配句子的文本

我希望能够将一个段落与多个(比如数千甚至更多)不同的段落进行比较,看看这些段落的任何部分是否在第一个段落中完全使用。

想象一下,您有一个名为的段落A,您想检查它是否包含其他数千个段落中的任何句子或句子的一部分。

我认为一种非常低效的方式,并且没有更好的答案出现在我的脑海中。我的方法是从输入段落 ( A) 中读取前三个单词。然后,检查所有数千个文本的数据库中是否有任何精确匹配。如果有任何匹配,列出它们,然后将第四个单词添加到字符串4-word中,并从匹配列表中找到与字符串匹配的字符串3-word。执行此操作,直到字符串不再匹配为止n-word。的列表(n-1)-word将作为此运行的结果保存。接下来,新的3-word字符串将是nth,单词(n+1)th(n+2)th一切都重新开始,直到文档结束。

对于大型输入文本和大型比较文本数据库,这将是非常低效的。有更好的算法吗?

0 投票
0 回答
454 浏览

google-custom-search - 使用google的抄袭系统

我正在创建一个阿拉伯抄袭检测器。我需要对照网络检查论文,我正在使用 Google 自定义搜索来检索结果。但是 Google 提供的查询数量有限(每天 100 个免费,或者您必须每天购买最多 10000 个,这还不够)。我想知道是否有任何方法可以在网上搜索某些内容。可能是 Google for business 或其他搜索引擎。还是应该创建自己的爬虫?我需要一个解决方案。有任何想法吗?

0 投票
1 回答
296 浏览

python - 使用sherlock通过python子进程模块检查抄袭

当我在终端上写:

有用

但是当我尝试使用 python 子进程做同样的事情时

这两个都不起作用,请帮忙。

0 投票
1 回答
1815 浏览

css - CSS 抄袭检查器

我出售一个著名的 php web 脚本的主题。我卖的主题只有 CSS,我写了这段 CSS 代码,大约有 700 行代码。

我开始怀疑人们非法使用我的主题所以我的问题是,是否有一个网站可以粘贴我的 CSS 代码,它会检查其他网站是否有相同的 CSS 代码?

例如,网站CopyScape.com将检查网站的匹配内容,但不检查 CSS。

如果有人可以提供帮助,那就太好了。谢谢!

0 投票
3 回答
97 浏览

javascript - 如何使用javascript从文本框中选择有限数量的单词?

我一直在尝试创建一个抄袭网页。它将从文本框中获取输入并在 Google 中搜索。如果找到它将显示结果。现在的问题是,它一次搜索整个文本,但我需要一次搜索 10 个单词,并且应该在 10 个单词的循环中搜索到最后。

这是我的代码: