2

MOSS是用于检查软件抄袭的知名服务器。它允许教师发送作业提交,计算不同提交之间的相似度,并为非常相似的代码块着色。 下面是一个比较结果的例子。如您所见,它非常简单:它包含一个带有可疑文件索引的 HTML 文件,并包含指向特定 HTML 文件的链接以进行比较。

结果会在 MOSS 网站上保存两周。我想将所有结果下载到我的计算机中,以便以后查看。我在 Linux 上使用这个命令

wget -mkEpnp http://moss.stanford.edu/results/5/7683916027631/index.html

我得到的是以下内容:

在此处输入图像描述

如您所见,仅index.html下载文件。不会下载从 链接到的其他文件,index.html例如 match0.html和 match1.html。

我试图用不同的工具镜像同一个网站Web HTTrack- 但得到完全相同的结果 - 只有索引文件被镜像,而不是match文件。

HTML 看起来很简单,所以我无法弄清楚为什么镜像不起作用。我该怎么做才能正确反映结果?

PS 如果相关,robots.txt 文件包含以下内容:

User-agent: *
Disallow: /
4

1 回答 1

1

您需要忽略 robots.txt 文件,例如

wget -r -l 1 -e robots=off http://moss.stanford.edu/results/1/XXXXXXXXXX/

于 2021-05-14T06:28:50.573 回答