问题标签 [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
wget - 下载具有特定元素的网站链接
我需要递归地镜像一些具有特定标记的站点壁纸图像,例如:
但不是其他人,例如:
请注意,URL 是相同的,除了分辨率,但原件的分辨率可能会有所不同,所以只有周围的标记会有所不同,比如在链接前面加上Original Resolution:
.
有没有使用 wget 或 httrack 或其他工具的解决方案?
谢谢你。
httrack - 如何不创建空文件夹?
我尝试仅从某个网站下载图像,并保存原始文件夹嵌套结构,其中图像位于网站的服务器上。
在过滤器设置中,我设置要下载的文件类型,例如:
一切运行正常,但 HTTrack 会在 HTML 文件所在的位置创建空文件夹。结果我有网站的完整文件夹结构,其中一些文件夹是空的,有些包含图像。
问题是:我怎样才能避免创建空文件夹?我只想要包含图像的文件夹。
url - HTTrack 在带有德语特殊字符的 unicode url 上给出 404
我已经意识到如果 url 中包含特殊字符(如德语),HTTrack 无法下载文件ß
- 它返回 404 响应。
错误看起来像屏幕截图:
HTTrack 中是否有任何设置使其能够处理此类字符?
ps:我找到了一个类似的帖子,但没有答案:
bash - 来自 httrack 的错误 srcset 属性
我已经用httracks 搜索了一个网站,并生成了许多不同级别的文件。但是该网站使用带有httrack无法处理 的属性的picture
/source
标签,所有这些图片在离线时都无法正常工作。srcset
如果使用选项Attempt to detect all links (even in unknown tags/javascript code)
(在 winhttrack 中)并将所有图像复制到本地存储,httrack可以看到链接。但它并没有改变相对的路径。
现在我需要一个脚本(powershell/gnu bash),它可以编辑所有 html 文件以使srcset
s 中的路径适应正确的相对路径。
我的想法是对每个文件夹进行递归,并附加一个../
作为参数来插入/替换为sed
.
该怎么办:
示例文件:
每个都包含一些图片标签,例如:
在图像标签内,路径始终是正确的httrack
:(images/img1_hi.jpg
,,,../images/img1_hi.jpg
)../../images/img1_hi.jpg
但源标签也必须包含匹配的路径:
在 index.html 中:
在 cat1/product1.html 中:
在 cat2/option3/product5.html 中:
我的尝试:
除了太多错误之外,$2
sed 替换中的问题并没有解决,而是被替换掉了。
javascript - 下载带有 HTTrack 执行 JavaScript 的网页
我想用 httrack 保存一个网页,包括执行的 JavaScript 输出。我在用着:
目前我只得到.js-source:
是否有任何选项可以添加到执行 javascript 的 httrack-command 中?
谢谢
httrack - 如何阻止 httrack ex 程序?
全部
HTTRACK 用户代理请求:
Mozilla/2.0(兼容;MS FrontPage Express 2.0)
Mozilla/4.05 [fr] (Win98; I)
Lynx/2.8rel.3 libwww-FM/2.14
Java1.1.4
Mozilla/4.5(兼容;HTTrack 3.0x;Windows 98)
HyperBrowser (Cray; I; OrganicOS 9.7.42beta-27)
HTTrack/3.0x
HTTrack Website Copier/3.0x(离线浏览器;网络镜像实用程序)
如何使用 .htaccess 或 robots.txt 或任何类型阻止 httrack 网站复印机和示例程序?
感谢您的帮助。
python - 检索包含动态加载的链接/图像的完整网页
问题
下载动态加载链接/图像的网站的完整离线工作副本
研究
Stackoverflow 上有一些问题(例如[1]、[2]、[3])解决了这个问题,其中大多数问题都使用wget或httrack获得了最佳答案,这两个问题都失败了(如果我错了,请纠正我)在动态加载链接或使用srcset
而不是src
forimg
标记的页面上 - 或通过 JS 加载的任何内容。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过 Selenium,您很快就会开始看到这样的决定引起的问题(资源繁重,使用全头驱动程序非常复杂,事实上它不是为那),话虽这么说,有人声称多年来一直在生产中轻松使用它
预期解决方案
一个脚本(最好在 python 中),它解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“所以实现您自己的”,那么首先提出这个问题是没有意义的,我正在寻求现有的实现。
例子
- Shopify.com
- 使用 Wix 构建的网站
python - 使用 pip3 安装软件包时出现“x86_64-linux-gnu-gcc”错误
当我尝试httrack
在 Ubuntu 16.04 中安装时,我无法获得这些软件包:
httrack - 无法使用 HTTrack 登录网站
我正在尝试使用 HTTrack 软件下载网站的内容。
该网站需要登录详细信息。
选择要保存的目录后,我添加了 URL。“http://*****/login 我选择了捕获 URL 并临时将临时代理设置添加到我的 LAN 设置中:
代理地址:fe80::55dd:bbbd:2fd2:c7b9 代理端口:8080
地址无效。我把它放在 [] 之间,它起作用了。
我尝试使用代理登录,但没有迹象表明链接已被捕获到 HTTrack 中,并且出现以下错误:“我们无法让您登录。发生错误。请检查您的 Internet 连接,然后重试。”
在 HTTrack 上继续处理会出现错误:
如果您能帮助我,我将不胜感激。好心,奥尔法
angular - angular.io 上的 HTTrack
我试图使用具有默认设置的 HTTrack 来下载角度 io 文档 - 没有任何成功。
我应该使用哪些选项和偏好来执行此任务?