问题标签 [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 如何使滑块在克隆的 HTML 页面上工作?
我已经通过 HTTrack 工具克隆了包含滑块的 html 页面。但它看起来静止不动。实际上,这是滑块当前状态的快照,尽管所有图像链接都可用,但无法更改其状态。我怎样才能让它工作?
javascript - 如何解决使用 Httrack 下载站点的问题
我最近尝试使用 HTTRACK 捕获一个站点。不幸的是,捕获没有考虑到整个站点,特别是按钮(图标)和滑块级别的图标。对于滑块,我收到此错误:
!!加载 Slider Revolution 5.0 扩展时出错。检测到本地文件系统!把它放在你的标题中:
显然,我试图将这些标签放在我的标题中,它什么也没做。我也试过把它放在结束体标签之前,它没有用。谁能帮我?
wget - 如何导出使用 Dotcms 制作的网站?
我正在尝试将我的一个网站(及其所有文件)保存到我的电脑,以便我可以将其上传到另一台服务器。我尝试过使用 Httrack 和 wget,但我只得到了一小部分图像,其中大部分分散在一个名为 contentAsset 的新文件夹中。有人可以帮帮我吗?
node.js - 如何完成网页资源抓取?
我想完全抓取一个包含所有资源(.css、.html、.favicon、.js 等)的网页
目前,我正在使用这个命令来做到这一点。
wget -E -H -k -K -e robots=off -p https://example.com -P ./myDir
但是,在某些页面上,下载的文件夹缺少文件。
例如,这是一个网站模板,没有 .html 文件。
wget -E -H -k -K -e robots=off -p https://nicepage.com/html-templates/preview/zero-waste-166766?device=desktop -P ./myDir
你知道抓取网页的更好方法吗?我正在使用 node.js,所以你也可以告诉我一些 node.js 包。
wget - 在 cloudflare 上下载/镜像网站以进行存档
尝试备份(下载/镜像)网站以进行存档。该站点显然位于 Cloudflare 上。我通常的工具是wget
,但它对我来说失败了(即使使用 cookie cfduid 标头)。不工作的wget
命令示例:
wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" --mirror - -convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld
所以我想我会回到我可信赖的朋友那里httrack
,但它也失败了(即使使用导出的 cookie)。不工作的httrack
命令示例:
httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain.tld/ " "https://www.domain.tld/"
我不想破坏网站,所以限制连接和等待是完全可以的。我宁愿让它运行得更长/更慢,并在此过程中成为一个好网民。
目前我遇到了301(永久移动)或403(禁止)错误,我假设这是由于 Cloudflare 造成的。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站?
web - 有没有办法将 HTTrack 或 wget 与“会话存储”一起使用?
我需要在本地下载一个网站的副本。问题是,要访问该站点的各个部分,我需要执行检查,单击按钮后,将在浏览器的会话存储中记录一个变量为 true(没有 cookie,也没有本地存储)。
有没有办法让这个工作与 HTTrack 或 wget 一起工作?
如果没有,还有其他方法吗?
html - 如何镜像 MOSS 抄袭检测的结果?
MOSS是用于检查软件抄袭的知名服务器。它允许教师发送作业提交,计算不同提交之间的相似度,并为非常相似的代码块着色。 下面是一个比较结果的例子。如您所见,它非常简单:它包含一个带有可疑文件索引的 HTML 文件,并包含指向特定 HTML 文件的链接以进行比较。
结果会在 MOSS 网站上保存两周。我想将所有结果下载到我的计算机中,以便以后查看。我在 Linux 上使用这个命令:
我得到的是以下内容:
如您所见,仅index.html
下载文件。不会下载从 链接到的其他文件,index.html
例如 match0.html和 match1.html。
我试图用不同的工具镜像同一个网站Web HTTrack
- 但得到完全相同的结果 - 只有索引文件被镜像,而不是match
文件。
HTML 看起来很简单,所以我无法弄清楚为什么镜像不起作用。我该怎么做才能正确反映结果?
PS 如果相关,robots.txt 文件包含以下内容:
pdf - 使用HTTrack只在某个子域下下载pdf(外网)
我尝试下载一个网页上的 pdf,例如www.mypdfs.com,然后当我单击它们时,它们会重定向到其他网页,例如www.download.com,问题是当我复制时另一个网页的链接(www.download.com),然后尝试下载,他们拒绝我,就像他们生成一个一次性链接,一旦时间或其他事情发生,他们不允许下载 pdf。所以,因为我有数千个链接,所以可以告诉 HTTRACK 只是去外部网页(www.download.com)并只下载 pdf,没有别的,只是 pdf,不要去其他外部网页。因为我的英语不太好,所以我举个例子。你有这个链接:www.mypdfs.com/turito/thelive有一个链接可以重定向到 www.download/12548785.pdf。当我只是复制链接并尝试再次下载时,他们会阻止我。我希望它足够清楚。
谢谢。
android - 如何在flutter mobile中保存网站以供离线使用
重要提示 - 我希望此功能仅适用于移动应用程序,而不适用于 Flutter Web。
我在颤振应用程序中保存网站时遇到了一些问题。我已经尝试对 inappwebview 使用缓存方法和 savewebarchive 方法。该方法的问题在于它没有保存网站的全部内容。它只保存 HTML 和 CSS 文件。
我想用 HTML、CSS、js、字体文件、图像等所有内容保存整个网站,并将其存储在 Flutter 应用程序中。我已经浏览了一些插件,但它们都没有帮助。
我正在寻找与 httrack 相同的功能。
任何正确的方向都会被应用。
web-scraping - 网络抓取 Obsidian 已发布的保险库
我正在尝试像这样下载黑曜石公共保险库:https ://publish.obsidian.md/bryan-jenks/Z/INDEX
我想在每个文件夹中获取其所有 .md (markdown) 注释。
我尝试使用 Httrack 和 wget 都没有成功,只下载了一些文件。
我该怎么做?