问题标签 [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
330 浏览

javascript - Node.js 获取 HTTP_USER_AGENT 并阻止 HTTrack

我想阻止我网站上的所有机器人(如 HTTrack)。通常,我会使用 .htaccess 文件通过 .htaccess 文件来阻止机器人RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]

但是,我的服务器正在运行 Node.js Express。如何获取 HTTP_USER_AGENT 并在 Node.js 上执行块或重写?

0 投票
3 回答
4179 浏览

wget - 我应该如何使用 wget 或 httrack 从文件夹(并且只有它的子文件夹)下载特定的文件类型?

我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想为文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了 5 个级别)

如何做到这一点的好方法?

0 投票
0 回答
1286 浏览

wget - 镜像网站 - 403 Forbidden with user agent strings

我正在开发一个镜像美国大学学术目录的应用程序。为此,我有一个 Celery 工作者集群,它们使用wgethttrack来镜像内容、样式和脚本,然后上传到我们的 S3 存储桶。

对于少数大学网站,我在使用 wget/httrack 和 Windows Chrome 用户代理字符串时遇到了 403 - Forbidden 错误。但是,我可以在浏览器中加载网页。

我最初认为 user agent 和 referer 是这里的问题,所以我将它们分别设置为 Chrome 50 user agent 和 google.com。但是,我仍然遇到这个问题。但是,如果我对所有这些 URL 使用 python请求库,我会收到 HTTP 200 响应。

我已经确保使用了 cookie,所以我很茫然。有什么理由requests可以工作但wget/httrack不可以吗?

0 投票
0 回答
741 浏览

wget - 什么会阻止 Httrack 或 Wget 抓取我的网站?

我正在尝试克隆我的网站以显示它以进行离线演示。但是,我尝试使用 Httrack 或者使用 Wget,并且两者都停止到源树的第二级。可能是什么原因 ?

这是 Wget cmd :wget -r -linf -k -p -E robots=off http://ouistipix.com/

这是针对 Httrack 的:(httrack http://ouistipix.com/ 默认)

知道我做错了什么吗?或者什么可以阻止进一步的爬行?

如果这可以帮助这是 Httrack 的日志:

0 投票
1 回答
1239 浏览

html - 通过 HTTrack 从下载的 wbsite 中删除域 URL

我已经通过 HTTrack 下载了完整的网站。但是在下载该站点后,所有 URL 都包含该站点的域名 url,例如:www.example.com/index.html 而不是 index.html 有没有办法删除这个 url?

0 投票
1 回答
897 浏览

wget - 如何下载一个网站,包括所有带有以特定路径开头的链接的文件

我想基于 Wordpress 模板Inovado的样式构建一个静态网站。我使用 HTTrack(在 Linux 中)使用以下命令下载了该网站:

httrack http://inovado.hellominti.com

结果index.html包含几个样式表,如下所示:

这些链接是指向 的“绝对”链接http://inovado.hellominti.com。但是,我想将这些文件下载到本地目录,并index.html相应地调整文件。

我已经看到httrack有一些选项,例如--get_files它们似乎可以启用此功能,但我无法从文档中弄清楚如何。有任何想法吗?wget(如果可能的话,我也有兴趣实现这一点)。

0 投票
0 回答
278 浏览

url - 遇到日语编码的 URL 时 Httrack 出错

我通常对 Httrack 没有任何问题,但是这一次,我发现它无法抓取具有非 ascii 字符的页面,例如这个日语 URL:

domain.com/リーク情报の真伪のほ/

(浏览器这样读取:domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/)

Httrack 可以抓取 50% 的文件夹,但里面的 html 文件都是 0kb。其他 50% 的字符串完全是乱码,而且也是空的。

然后我尝试了 DOS/ISO 爬取选项,但它改变了太多结构(并使所有文件/文件夹大写)。

有什么方法可以让 httrack 在这些 url 上正常工作?

0 投票
1 回答
485 浏览

html - HTTrack 返回文件未找到

我使用以下命令下载了一个带有 HTTrack 的网站:

然后我在网站文件夹中找到了 index.html 文件并运行它。Chrome 返回消息:找不到文件。这很有趣,因为通常我用 httrack 解析的网站在我的文件系统上工作得很好。这种行为的原因是什么?

0 投票
4 回答
6681 浏览

httrack - 使用 httrack 只下载一个站点,而不是外部站点

我尝试使用httrack下载我的 phpbb 论坛,但无论我使用什么设置,我都无法停止下载整个 wikipedia 站点以及许多其他链接在论坛中任何位置的网站......

我设法让它只下载索引页面但这也不好。

我以为设置

在 Options->Scan Rules 中可以解决问题,但它继续再次下载整个维基百科:(

0 投票
2 回答
966 浏览

html - 如何让 httrack 以原始名称而不是 index****.html 保存文件?

我在这里关注 HTTrack 文档示例:http: //httrack.kauler.com/help/User-defined_structure

我需要抓取的网站具有以下结构的 URL:

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等等

使用 HTTrack,我想下载网站保存文件的格式

HelpTopics.html MoreHelp.html等等

我在从上面链接的文档修改的命令行上使用它:

httrack "https://www.example.com" %n%[index.php?:-:::].%t

但我仍然将所有文件保存为index2b26.htmlindex2de7.html

HTTrack 选项我做错了什么?这是因为原始站点上没有文件扩展名而导致中断example.com吗?