问题标签 [plagiarism-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1336 浏览

search - 使用 iThenticate 服务进行内容比较的替代方法是什么?

使用iThenticate服务进行内容比较的替代方法是什么?

0 投票
2 回答
618 浏览

sql-server - 在 SQL Server 中搜索全文字段以检测抄袭

我将论文存储在 SQL Server 2005 中,并正在寻找一种粘贴论文文本的方法,然后在数据库中搜索潜在的抄袭(复制的内容)。

解决这个问题的最佳方法是什么?对于几段内容,有没有办法使用全文索引来衡量某事物与其他事物的相似程度?

0 投票
3 回答
487 浏览

text-processing - Google 图书的热门段落功能是如何开发的?

我很好奇是否有人理解、知道或可以向我指出有关 Google 如何创建其流行的段落块功能的综合文献或源代码。但是,如果您知道任何其他可以执行相同操作的应用程序,请也发布您的答案。

如果你不知道我在写什么,这里有一个通俗段落示例的链接。当您查看Modeling the legal decision process for information technology applications ... By Georgios N. Yannopoulos一书的概述时,您会看到如下内容:

热门段落

...方向,不确定。我们还没有解决,因为我们没有预料到意外情况发生时会引发的问题;公园里的某种程度的和平是要牺牲还是保护那些以使用这些东西为乐趣或兴趣的孩子。当未设想的情况确实出现时,我们会直面所涉及的问题,然后可以通过在相互竞争的利益中以最能满足我们的方式进行选择来解决问题。在做... ‎ 第86 页

出现在 1968-2003 年的 15 本书中

这将是一个适合“机械”法理学的世界。显然,这个世界不是我们的世界;人类立法者不可能对未来可能带来的所有可能的情况组合有这样的了解。这种无法预测的情况带来了目标的相对不确定性。当我们足够大胆地制定一些一般的行为规则(例如,禁止车辆进入公园的规则)时,在这种情况下使用的语言会确定任何事物都必须满足的必要条件...... ‎ 第86 页

出现在 1968-2000 年的 8 本书中

更多的

它必须是一个密集的模式匹配过程。我只能想到 n-gram 模型、文本语料库、自动抄袭检测。但是,有时 n-gram 是用于预测序列中下一个项目的概率模型,并且文本语料库(据我所知)是手动创建的。而且,在这种特殊情况下,流行的段落可能会有很多单词。

我真的迷路了。如果我想创建这样的功能,我应该如何或从哪里开始?此外,在您的回复中包括最适合这些东西的编程语言:F# 或任何其他功能语言、PERL、Python、Java...(我自己也成为 F# 粉丝)

PS:有人可以包含标签自动抄袭检测吗,因为我不能

0 投票
1 回答
1932 浏览

levenshtein-distance - 使用 damerau levenshtein 算法进行抄袭检测

我将如何模拟 damerau leveshtein 距离算法以检测文档中的抄袭?谢谢!

0 投票
3 回答
3803 浏览

java - 抄袭分析器(与 Web 内容相比)

嗨,全世界的每个人,

背景

我是计算机科学专业的最后一年学生。我提出了我的最终双模块项目,它是一个抄袭分析器,使用 Java 和 MySQL。

抄袭分析器将:

  1. 扫描上传文件的所有段落。分析从哪个网站复制的每个段落的百分比。
  2. 仅突出显示每个段落中完全从哪个网站复制的单词。

我的主要目标是开发像 Turnitin 这样的东西,如果可能的话会改进。

我有不到 6 个月的时间来开发这个程序。我已经确定了以下范围:

  1. 网络爬虫实现。可能会使用 Lucene API 或开发我自己的 Crawler(在时间开发和可用性方面哪个更好?)。
  2. 散列和索引。改进搜索和分析。

问题

以下是我的问题:

  1. MySQL可以存储那么多信息吗?
  2. 我错过了什么重要的话题吗?
  3. 你对这个项目有什么看法?
  4. 执行相似性分析的任何建议或技术?
  5. 可以散列段落以及单词吗?

提前感谢您的任何帮助和建议。^^

0 投票
2 回答
1047 浏览

c# - 比较网站的文本内容

我正在尝试一些文本比较/基本抄袭检测,并希望在网站到网站的基础上进行尝试。但是,我有点难以找到处理文本的正确方法。

您将如何处理和比较两个网站的抄袭内容?

我在想这样的伪代码:

我意识到这个解决方案可以很快地积累大量数据,所以它可能只适用于非常小的网站。

我还没有决定实际的文本比较算法,但现在我更感兴趣的是让实际的过程算法首先工作。

我认为将所有文本提取为单独的文本片段(从段落、表格、标题等)是一个好主意,因为文本可以在页面上移动。

我正在用 C#(也许是 ASP.NET)来实现它。

我对您可能有的任何意见或建议非常感兴趣,所以请拍摄!:)

0 投票
4 回答
13525 浏览

javascript - 使用 JavaScript 检查代码抄袭

我想知道如何使用 Javascript 检测代码抄袭。我想测试我要分发的作业提交的作业。

我看过使用MOSS,但是——据我所知——它对于 C 以外的任何东西都很差。不幸的是,我还不能测试它,因为我没有提交。

如何使用 JavaScript 检测代码抄袭?

0 投票
1 回答
377 浏览

flash - 网页设计如何防止水蛭。Flash防盗链方法

我正在设计一个包含 Flash 视频内容的网站。如果我将 .flv 文件的 URL 作为 Flash 参数传递给嵌入式视频播放器,则有人可以轻松提取 URL 并下载 flv 视频文件。我该如何防止这种情况?有人可以向我推荐我的网站(如 youtube)使用的反盗取技术。

0 投票
3 回答
1238 浏览

python - 解析器生成

我正在做一个关于软件剽窃检测的项目..我打算用语言 C..因为我应该创建一个令牌生成器和一个解析器..但我不知道从哪里开始..任何人都可以帮我解决这个..

我创建了一个令牌数据库,并将令牌从我的程序中分离出来。接下来我想做的是比较两个程序,看看它是否被抄袭。为此,我需要创建一个语法分析器。我不知道从哪里开始......

即我想为python中的c程序创建一个解析器

0 投票
5 回答
655 浏览

php - 版权内容 API

我正在寻找是否有我们可以使用的自动“版权内容”API。我知道 atrributor 有付费服务,但我想知道他们是否可以有效地在谷歌搜索部分内容,以检查是否从其他地方复制了整个句子。

基本上,我们有几个博客为我们写作,我们想检查是否有任何文章部分或完全从网络上的另一个来源复制。我会手动选择一些示例句子并将它们粘贴到谷歌(使用引号),看看我是否得到任何完全匹配。

你们知道有免费的 API / 服务吗?