“httrack”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

40 浏览

javascript - 如何使滑块在克隆的 HTML 页面上工作？

我已经通过 HTTrack 工具克隆了包含滑块的 html 页面。但它看起来静止不动。实际上，这是滑块当前状态的快照，尽管所有图像链接都可用，但无法更改其状态。我怎样才能让它工作？

2020-10-24T06:51:58.833

0 投票

0 回答

197 浏览

javascript - 如何解决使用 Httrack 下载站点的问题

我最近尝试使用 HTTRACK 捕获一个站点。不幸的是，捕获没有考虑到整个站点，特别是按钮（图标）和滑块级别的图标。对于滑块，我收到此错误：

！！加载 Slider Revolution 5.0 扩展时出错。检测到本地文件系统！把它放在你的标题中：

显然，我试图将这些标签放在我的标题中，它什么也没做。我也试过把它放在结束体标签之前，它没有用。谁能帮我？

javascript wordpress httrack

2020-11-19T09:54:20.507

0 投票

1 回答

33 浏览

wget - 如何导出使用 Dotcms 制作的网站？

我正在尝试将我的一个网站（及其所有文件）保存到我的电脑，以便我可以将其上传到另一台服务器。我尝试过使用 Httrack 和 wget，但我只得到了一小部分图像，其中大部分分散在一个名为 contentAsset 的新文件夹中。有人可以帮帮我吗？

wget dotcms httrack

2021-02-24T11:16:05.257

0 投票

0 回答

54 浏览

node.js - 如何完成网页资源抓取？

我想完全抓取一个包含所有资源（.css、.html、.favicon、.js 等）的网页

目前，我正在使用这个命令来做到这一点。

wget -E -H -k -K -e robots=off -p https://example.com -P ./myDir

但是，在某些页面上，下载的文件夹缺少文件。

例如，这是一个网站模板，没有 .html 文件。

wget -E -H -k -K -e robots=off -p https://nicepage.com/html-templates/preview/zero-waste-166766?device=desktop -P ./myDir

你知道抓取网页的更好方法吗？我正在使用 node.js，所以你也可以告诉我一些 node.js 包。

node.js linux web-scraping wget httrack

2021-03-17T15:41:16.580

0 投票

1 回答

330 浏览

wget - 在 cloudflare 上下载/镜像网站以进行存档

尝试备份（下载/镜像）网站以进行存档。该站点显然位于 Cloudflare 上。我通常的工具是wget，但它对我来说失败了（即使使用 cookie cfduid 标头）。不工作的wget命令示例：

wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" --mirror - -convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld

所以我想我会回到我可信赖的朋友那里httrack，但它也失败了（即使使用导出的 cookie）。不工作的httrack命令示例：

httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain.tld/ " "https://www.domain.tld/"

我不想破坏网站，所以限制连接和等待是完全可以的。我宁愿让它运行得更长/更慢，并在此过程中成为一个好网民。

目前我遇到了301（永久移动）或403（禁止）错误，我假设这是由于 Cloudflare 造成的。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站？

wget archive httrack

2021-03-23T10:18:09.637

0 投票

0 回答

128 浏览

web - 有没有办法将 HTTrack 或 wget 与“会话存储”一起使用？

我需要在本地下载一个网站的副本。问题是，要访问该站点的各个部分，我需要执行检查，单击按钮后，将在浏览器的会话存储中记录一个变量为 true（没有 cookie，也没有本地存储）。

有没有办法让这个工作与 HTTrack 或 wget 一起工作？

如果没有，还有其他方法吗？

web scripting wget httrack

2021-04-16T04:53:04.253

0 投票

1 回答

345 浏览

html - 如何镜像 MOSS 抄袭检测的结果？

MOSS是用于检查软件抄袭的知名服务器。它允许教师发送作业提交，计算不同提交之间的相似度，并为非常相似的代码块着色。下面是一个比较结果的例子。如您所见，它非常简单：它包含一个带有可疑文件索引的 HTML 文件，并包含指向特定 HTML 文件的链接以进行比较。

结果会在 MOSS 网站上保存两周。我想将所有结果下载到我的计算机中，以便以后查看。我在 Linux 上使用这个命令：

我得到的是以下内容：

如您所见，仅index.html下载文件。不会下载从链接到的其他文件，index.html例如 match0.html和 match1.html。

我试图用不同的工具镜像同一个网站Web HTTrack- 但得到完全相同的结果 - 只有索引文件被镜像，而不是match文件。

HTML 看起来很简单，所以我无法弄清楚为什么镜像不起作用。我该怎么做才能正确反映结果？

PS 如果相关，robots.txt 文件包含以下内容：

html wget mirroring plagiarism-detection httrack

2021-05-02T18:48:59.990

0 投票

0 回答

53 浏览

pdf - 使用HTTrack只在某个子域下下载pdf（外网）

我尝试下载一个网页上的 pdf，例如www.mypdfs.com，然后当我单击它们时，它们会重定向到其他网页，例如www.download.com，问题是当我复制时另一个网页的链接（www.download.com），然后尝试下载，他们拒绝我，就像他们生成一个一次性链接，一旦时间或其他事情发生，他们不允许下载 pdf。所以，因为我有数千个链接，所以可以告诉 HTTRACK 只是去外部网页（www.download.com）并只下载 pdf，没有别的，只是 pdf，不要去其他外部网页。因为我的英语不太好，所以我举个例子。你有这个链接：www.mypdfs.com/turito/thelive有一个链接可以重定向到 www.download/12548785.pdf。当我只是复制链接并尝试再次下载时，他们会阻止我。我希望它足够清楚。

谢谢。

pdf download httrack

2021-09-20T02:52:13.430

0 投票

4 回答

741 浏览

android - 如何在flutter mobile中保存网站以供离线使用

重要提示 - 我希望此功能仅适用于移动应用程序，而不适用于 Flutter Web。

我在颤振应用程序中保存网站时遇到了一些问题。我已经尝试对 inappwebview 使用缓存方法和 savewebarchive 方法。该方法的问题在于它没有保存网站的全部内容。它只保存 HTML 和 CSS 文件。

我想用 HTML、CSS、js、字体文件、图像等所有内容保存整个网站，并将其存储在 Flutter 应用程序中。我已经浏览了一些插件，但它们都没有帮助。

我正在寻找与 httrack 相同的功能。

任何正确的方向都会被应用。

android flutter flutter-ios flutter-android httrack

2021-10-26T10:51:54.267

0 投票

0 回答

67 浏览

web-scraping - 网络抓取 Obsidian 已发布的保险库

我正在尝试像这样下载黑曜石公共保险库：https ://publish.obsidian.md/bryan-jenks/Z/INDEX

我想在每个文件夹中获取其所有 .md (markdown) 注释。

我尝试使用 Httrack 和 wget 都没有成功，只下载了一些文件。

我该怎么做？

web-scraping wget httrack

2021-11-17T00:01:28.847

问题标签 [httrack]

Reference