问题标签 [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
40 浏览

javascript - 如何使滑块在克隆的 HTML 页面上工作?

我已经通过 HTTrack 工具克隆了包含滑块的 html 页面。但它看起来静止不动。实际上,这是滑块当前状态的快照,尽管所有图像链接都可用,但无法更改其状态。我怎样才能让它工作?

0 投票
0 回答
197 浏览

javascript - 如何解决使用 Httrack 下载站点的问题

我最近尝试使用 HTTRACK 捕获一个站点。不幸的是,捕获没有考虑到整个站点,特别是按钮(图标)和滑块级别的图标。对于滑块,我收到此错误:

!!加载 Slider Revolution 5.0 扩展时出错。检测到本地文件系统!把它放在你的标题中:

显然,我试图将这些标签放在我的标题中,它什么也没做。我也试过把它放在结束体标签之前,它没有用。谁能帮我?

0 投票
1 回答
33 浏览

wget - 如何导出使用 Dotcms 制作的网站?

我正在尝试将我的一个网站(及其所有文件)保存到我的电脑,以便我可以将其上传到另一台服务器。我尝试过使用 Httrack 和 wget,但我只得到了一小部分图像,其中大部分分散在一个名为 contentAsset 的新文件夹中。有人可以帮帮我吗?

0 投票
0 回答
54 浏览

node.js - 如何完成网页资源抓取?

我想完全抓取一个包含所有资源(.css、.html、.favicon、.js 等)的网页

目前,我正在使用这个命令来做到这一点。

wget -E -H -k -K -e robots=off -p https://example.com -P ./myDir

但是,在某些页面上,下载的文件夹缺少文件。

例如,这是一个网站模板,没有 .html 文件。

wget -E -H -k -K -e robots=off -p https://nicepage.com/html-templates/preview/zero-waste-166766?device=desktop -P ./myDir

你知道抓取网页的更好方法吗?我正在使用 node.js,所以你也可以告诉我一些 node.js 包。

0 投票
1 回答
330 浏览

wget - 在 cloudflare 上下载/镜像网站以进行存档

尝试备份(下载/镜像)网站以进行存档。该站点显然位于 Cloudflare 上。我通常的工具是wget,但它对我来说失败了(即使使用 cookie cfduid 标头)。不工作的wget命令示例:

wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" --mirror - -convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld

所以我想我会回到我可信赖的朋友那里httrack,但它也失败了(即使使用导出的 cookie)。不工作的httrack命令示例:

httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain.tld/ " "https://www.domain.tld/"

我不想破坏网站,所以限制连接和等待是完全可以的。我宁愿让它运行得更长/更慢,并在此过程中成为一个好网民

目前我遇到了301(永久移动)403(禁止)错误,我假设这是由于 Cloudflare 造成的。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站?

0 投票
0 回答
128 浏览

web - 有没有办法将 HTTrack 或 wget 与“会话存储”一起使用?

我需要在本地下载一个网站的副本。问题是,要访问该站点的各个部分,我需要执行检查,单击按钮后,将在浏览器的会话存储中记录一个变量为 true(没有 cookie,也没有本地存储)。

有没有办法让这个工作与 HTTrack 或 wget 一起工作?

如果没有,还有其他方法吗?

0 投票
1 回答
345 浏览

html - 如何镜像 MOSS 抄袭检测的​​结果?

MOSS是用于检查软件抄袭的知名服务器。它允许教师发送作业提交,计算不同提交之间的相似度,并为非常相似的代码块着色。 下面是一个比较结果的例子。如您所见,它非常简单:它包含一个带有可疑文件索引的 HTML 文件,并包含指向特定 HTML 文件的链接以进行比较。

结果会在 MOSS 网站上保存两周。我想将所有结果下载到我的计算机中,以便以后查看。我在 Linux 上使用这个命令

我得到的是以下内容:

在此处输入图像描述

如您所见,仅index.html下载文件。不会下载从 链接到的其他文件,index.html例如 match0.html和 match1.html。

我试图用不同的工具镜像同一个网站Web HTTrack- 但得到完全相同的结果 - 只有索引文件被镜像,而不是match文件。

HTML 看起来很简单,所以我无法弄清楚为什么镜像不起作用。我该怎么做才能正确反映结果?

PS 如果相关,robots.txt 文件包含以下内容:

0 投票
0 回答
53 浏览

pdf - 使用HTTrack只在某个子域下下载pdf(外网)

我尝试下载一个网页上的 pdf,例如www.mypdfs.com,然后当我单击它们时,它们会重定向到其他网页,例如www.download.com,问题是当我复制时另一个网页的链接(www.download.com),然后尝试下载,他们拒绝我,就像他们生成一个一次性链接,一旦时间或其他事情发生,他们不允许下载 pdf。所以,因为我有数千个链接,所以可以告诉 HTTRACK 只是去外部网页(www.download.com)并只下载 pdf,没有别的,只是 pdf,不要去其他外部网页。因为我的英语不太好,所以我举个例子。你有这个链接:www.mypdfs.com/turito/thelive有一个链接可以重定向到 www.download/12548785.pdf。当我只是复制链接并尝试再次下载时,他们会阻止我。我希望它足够清楚。

谢谢。

0 投票
4 回答
741 浏览

android - 如何在flutter mobile中保存网站以供离线使用

重要提示 - 我希望此功能仅适用于移动应用程序,而不适用于 Flutter Web。

我在颤振应用程序中保存网站时遇到了一些问题。我已经尝试对 inappwebview 使用缓存方法和 savewebarchive 方法。该方法的问题在于它没有保存网站的全部内容。它只保存 HTML 和 CSS 文件。

我想用 HTML、CSS、js、字体文件、图像等所有内容保存整个网站,并将其存储在 Flutter 应用程序中。我已经浏览了一些插件,但它们都没有帮助。

我正在寻找与 httrack 相同的功能。

任何正确的方向都会被应用。

0 投票
0 回答
67 浏览

web-scraping - 网络抓取 Obsidian 已发布的保险库

我正在尝试像这样下载黑曜石公共保险库:https ://publish.obsidian.md/bryan-jenks/Z/INDEX

我想在每个文件夹中获取其所有 .md (markdown) 注释。

我尝试使用 Httrack 和 wget 都没有成功,只下载了一些文件。

我该怎么做?