问题标签 [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
794 浏览

wget - 下载具有特定元素的网站链接

我需要递归地镜像一些具有特定标记的站点壁纸图像,例如:

但不是其他人,例如:

请注意,URL 是相同的,除了分辨率,但原件的分辨率可能会有所不同,所以只有周围的标记会有所不同,比如在链接前面加上Original Resolution:.

有没有使用 wget 或 httrack 或其他工具的解决方案?

谢谢你。

0 投票
0 回答
114 浏览

httrack - 如何不创建空文件夹?

我尝试仅从某个网站下载图像,并保存原始文件夹嵌套结构,其中图像位于网站的服务器上。

在过滤器设置中,我设置要下载的文件类型,例如:

一切运行正常,但 HTTrack 会在 HTML 文件所在的位置创建空文件夹。结果我有网站的完整文件夹结构,其中一些文件夹是空的,有些包含图像。

问题是:我怎样才能避免创建空文件夹?我只想要包含图像的文件夹。

0 投票
1 回答
273 浏览

url - HTTrack 在带有德语特殊字符的 unicode url 上给出 404

我已经意识到如果 url 中包含特殊字符(如德语),HTTrack 无法下载文件ß- 它返回 404 响应。

错误看起来像屏幕截图:

图片

HTTrack 中是否有任何设置使其能够处理此类字符?

ps:我找到了一个类似的帖子,但没有答案:

遇到日语编码的 URL 时 Httrack 出错

0 投票
2 回答
542 浏览

bash - 来自 httrack 的错误 srcset 属性

我已经用httracks 搜索了一个网站,并生成了许多不同级别的文件。但是该网站使用带有httrack无法处理 的属性的picture/source标签,所有这些图片在离线时都无法正常工作。srcset

如果使用选项Attempt to detect all links (even in unknown tags/javascript code)(在 winhttrack 中)并将所有图像复制到本地存储,httrack可以看到链接。但它并没有改变相对的路径。

现在我需要一个脚本(powershell/gnu bash),它可以编辑所有 html 文件以使srcsets 中的路径适应正确的相对路径。

我的想法是对每个文件夹进行递归,并附加一个../作为参数来插入/替换为sed.

该怎么办:

示例文件:

每个都包含一些图片标签,例如:

在图像标签内,路径始终是正确的httrack:(images/img1_hi.jpg,,,../images/img1_hi.jpg../../images/img1_hi.jpg

但源标签也必须包含匹配的路径:

在 index.html 中:

在 cat1/product1.html 中:

在 cat2/option3/product5.html 中:

我的尝试:

除了太多错误之外,$2sed 替换中的问题并没有解决,而是被替换掉了。

0 投票
0 回答
1112 浏览

javascript - 下载带有 HTTrack 执行 JavaScript 的网页

我想用 httrack 保存一个网页,包括执行的 JavaScript 输出。我在用着:

目前我只得到.js-source:

是否有任何选项可以添加到执行 javascript 的 httrack-command 中?

谢谢

0 投票
3 回答
4656 浏览

httrack - 如何阻止 httrack ex 程序?

全部

HTTRACK 用户代理请求:

Mozilla/2.0(兼容;MS FrontPage Express 2.0)

Mozilla/4.05 [fr] (Win98; I)

Lynx/2.8rel.3 libwww-FM/2.14

Java1.1.4

Mozilla/4.5(兼容;HTTrack 3.0x;Windows 98)

HyperBrowser (Cray; I; OrganicOS 9.7.42beta-27)

HTTrack/3.0x

HTTrack Website Copier/3.0x(离线浏览器;网络镜像实用程序)

如何使用 .htaccess 或 robots.txt 或任何类型阻止 httrack 网站复印机和示例程序?

感谢您的帮助。

0 投票
1 回答
803 浏览

python - 检索包含动态加载的链接/图像的完整网页

问题

下载动态加载链接/图像的网站的完整离线工作副本

研究

Stackoverflow 上有一些问题(例如[1][2][3])解决了这个问题,其中大多数问题都使用wgethttrack获得了最佳答案,这两个问题都失败了(如果我错了,请纠正我)在动态加载链接或使用srcset而不是srcforimg标记的页面上 - 或通过 JS 加载的任何内容。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过 Selenium,您很快就会开始看到这样的决定引起的问题(资源繁重,使用全头驱动程序非常复杂,事实上它不是为那),话虽这么说,有人声称多年来一直在生产中轻松使用它

预期解决方案

一个脚本(最好在 python 中),它解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“所以实现您自己的”,那么首先提出这个问题是没有意义的,我正在寻求现有的实现。

例子

  1. Shopify.com
  2. 使用 Wix 构建的网站
0 投票
2 回答
1098 浏览

python - 使用 pip3 安装软件包时出现“x86_64-linux-gnu-gcc”错误

当我尝试httrack在 Ubuntu 16.04 中安装时,我无法获得这些软件包:

0 投票
0 回答
751 浏览

httrack - 无法使用 HTTrack 登录网站

我正在尝试使用 HTTrack 软件下载网站的内容。

该网站需要登录详细信息。

在此处输入图像描述

选择要保存的目录后,我添加了 URL。“http://*****/login 我选择了捕获 URL 并临时将临时代理设置添加到我的 LAN 设置中:

代理地址:fe80::55dd:bbbd:2fd2:c7b9 代理端口:8080

地址无效。我把它放在 [] 之间,它起作用了。

我尝试使用代理登录,但没有迹象表明链接已被捕获到 HTTrack 中,并且出现以下错误:“我们无法让您登录。发生错误。请检查您的 Internet 连接,然后重试。”

在 HTTrack 上继续处理会出现错误:

在此处输入图像描述

如果您能帮助我,我将不胜感激。好心,奥尔法

0 投票
1 回答
453 浏览

angular - angular.io 上的 HTTrack

我试图使用具有默认设置的 HTTrack 来下载角度 io 文档 - 没有任何成功。

我应该使用哪些选项和偏好来执行此任务?