问题标签 [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - httrack 只下载 index.html 文件
通常当我使用 Httrack 下载网站时,我会得到所有文件;图片、CSS、JS 等。今天,该程序仅用 2 秒就完成了下载,并且只抓取了 index.html 文件,其中的 CSS、IMG 代码等仍然链接到外部。我已经将我的设置重置为默认值,但没有帮助。有人知道如何将其改回正常运行吗?
javascript - 尝试镜像使用strapdown.js 的站点
有一个使用strapdown.js 的站点,我正在尝试使用httrack 或wget 进行镜像,但我做不到,因为该站点包含markdown 而不是HTML。只有捷联将链接转换为 html 链接。因此客户端需要先解释 Javascript,然后在生成的 dom 中搜索链接。
市场上是否有能够做到这一点的工具?
我努力了
和
非常感谢任何帮助。
download - 使用 HTTrack 下载完整的网站以供离线使用时出现问题
我用 HTTrack 下载了 sonst.cc,但是离线查看时没有内容。每个选项卡都是空的。这是为什么?
是否有任何其他应用程序可以让我下载整个内容?
我在这里失去理智了。
谢谢。
编辑:
当我打开使用 HTTrack 下载的索引文件时,在 Safari 中,首页加载得很好,背景图像、菜单……一切都很完美!除非我单击任何菜单,否则选项卡会打开为空!完全没有内容!!!也就是说,它下载了整个站点……html、css、js、图像……当我查看代码时,一切似乎都很好。这一切都在那里!
索引.html
macos - 在 MAC OS X 上编译 Httrack
我正在尝试在我的 MAC 上编译 httrack。./config 成功。但是在编译软件包时,我遇到了以下错误,并且无法解决。
也尝试了这个解决方案,但没有运气 https://serverfault.com/questions/283271/how-to-get-httrack-to-work-with-ssl-on-mac-os-x-libssl-so-not-成立
Openssl 位于 /usr/include/openssl
python - 在 Windows 中使用子进程从 python 运行 HTTrack
我正在编写一个网络抓取 python 脚本,我希望它能够做的一件事是让它拍摄某些页面的快照(所有 html、样式表和必要的图像以正确离线查看该特定页面)。似乎 HTTrack 是一个很好的方法,我想我可以从 python 脚本中调用它
但尝试这样做会导致“FileNotFoundError:[WinError 2] 系统找不到指定的文件”。我也试过给它完整的文件路径,
但我收到错误“SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXXXX escape”
我认为这是我理解不subprocess
正确的问题,因为我可以通过 Windows 命令提示符让 HTTrack 工作。谁能帮我理解使用子流程的正确方法?
python - 使用 HTTrack 镜像单个页面
我一直在尝试使用 HTTrack 来镜像单个页面(下载 html + 先决条件:样式表、图像等),类似于问题 [使用 httrack 镜像单个页面] [1]。但是,那里接受的答案对我不起作用,因为我使用的是 Windows(wget
“存在”但实际上是一个包装器,Invoke-WebRequest
并且功能完全不同)。
HTTrack 真的想要(a)下载我指向的整个网站,或者(b)只下载我指向的页面,让所有图像仍然存在于网络上。有没有办法让 HTTrack 下载仅足以离线查看单个页面 - 相当于wget -p
?
python - 如何将 httrack 捆绑到 python 3 可执行文件中
有一个很棒的网站复印机,我想将它捆绑在我的可执行文件中,它是用 python 3 和 py2exe 创建的。
在常见问题部分的HTTrack官方网站上,他们说有可用的 DLL/库版本。
但是我不知道从哪里开始,甚至不知道一旦将 DLL 捆绑到可执行文件中后如何使用它。
那么如何将 httrack 捆绑到 python 3 可执行文件中,并使用它的功能开始复制网站呢?
编辑:
我发现httrack-py 0.6.1但它只支持 python 2 并使用旧版本的 httrack,所以我不能将它用于我的可执行文件。
httrack - HTTrack:如何仅从某个子文件夹级别下载文件夹?
HTTrack 提供过滤选项,但我无法弄清楚如何下载某个子文件夹级别并忽略所有其他子文件夹。
例子:
我只想下载子文件夹elephant
,tiger
并giraffe
作为 HTML 包括从那里链接的图像。
HTTrack 有那么强大吗?(我使用的是 Windows GUI 版本“WinHTTrack”。)
PS:将其作为程序选项会很好,例如“最小镜像深度”。
download - 从 YTS 下载 .torrent
是否可以从 yts 网站下载所有 torrent 文件?在 HHTRACK 中,我收到一个镜像错误,可能是由于您在访问该站点之前需要输入验证码引起的。有没有办法绕过这个或使用其他方法?
http - HTTrack 等待页面搜索完成
我正在尝试使用 HTTrack 在此处的 URL 下载搜索请求的结果
不幸的是,下载立即开始并且没有得到搜索结果(因为页面仍然显示一个轮子)。
问题:是否可以在第一个页面请求之后强制暂停,或者在开始之前定义检查(例如页面上的关键字搜索)?
最坏的情况:有没有其他网站复印机可以做到这一点?
非常感谢,汤姆