问题标签 [httrack]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

64 问题

0 投票

1 回答

330 浏览

javascript - Node.js 获取 HTTP_USER_AGENT 并阻止 HTTrack

我想阻止我网站上的所有机器人（如 HTTrack）。通常，我会使用 .htaccess 文件通过 .htaccess 文件来阻止机器人RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]。

但是，我的服务器正在运行 Node.js Express。如何获取 HTTP_USER_AGENT 并在 Node.js 上执行块或重写？

2016-04-25T16:30:53.263

0 投票

3 回答

4179 浏览

wget - 我应该如何使用 wget 或 httrack 从文件夹（并且只有它的子文件夹）下载特定的文件类型？

我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想为文件夹及其子文件夹执行此操作。例如：www.examplewebsite.com/doc（这又下降了 5 个级别）

如何做到这一点的好方法？

wget httrack

2016-05-23T07:12:54.263

0 投票

0 回答

1286 浏览

wget - 镜像网站 - 403 Forbidden with user agent strings

我正在开发一个镜像美国大学学术目录的应用程序。为此，我有一个 Celery 工作者集群，它们使用wget或httrack来镜像内容、样式和脚本，然后上传到我们的 S3 存储桶。

对于少数大学网站，我在使用 wget/httrack 和 Windows Chrome 用户代理字符串时遇到了 403 - Forbidden 错误。但是，我可以在浏览器中加载网页。

我最初认为 user agent 和 referer 是这里的问题，所以我将它们分别设置为 Chrome 50 user agent 和 google.com。但是，我仍然遇到这个问题。但是，如果我对所有这些 URL 使用 python请求库，我会收到 HTTP 200 响应。

我已经确保使用了 cookie，所以我很茫然。有什么理由requests可以工作但wget/httrack不可以吗？

wget mirroring httrack

2016-05-27T16:51:25.383

0 投票

0 回答

741 浏览

wget - 什么会阻止 Httrack 或 Wget 抓取我的网站？

我正在尝试克隆我的网站以显示它以进行离线演示。但是，我尝试使用 Httrack 或者使用 Wget，并且两者都停止到源树的第二级。可能是什么原因？

这是 Wget cmd ：wget -r -linf -k -p -E robots=off http://ouistipix.com/

这是针对 Httrack 的：（httrack http://ouistipix.com/ 默认）

知道我做错了什么吗？或者什么可以阻止进一步的爬行？

如果这可以帮助这是 Httrack 的日志：

wget httrack

2016-05-30T21:22:36.713

0 投票

1 回答

1239 浏览

html - 通过 HTTrack 从下载的 wbsite 中删除域 URL

我已经通过 HTTrack 下载了完整的网站。但是在下载该站点后，所有 URL 都包含该站点的域名 url，例如：www.example.com/index.html 而不是 index.html 有没有办法删除这个 url？

html css url directory httrack

2016-09-10T18:30:02.747

0 投票

1 回答

897 浏览

wget - 如何下载一个网站，包括所有带有以特定路径开头的链接的文件

我想基于 Wordpress 模板Inovado的样式构建一个静态网站。我使用 HTTrack（在 Linux 中）使用以下命令下载了该网站：

httrack http://inovado.hellominti.com

结果index.html包含几个样式表，如下所示：

这些链接是指向的“绝对”链接http://inovado.hellominti.com。但是，我想将这些文件下载到本地目录，并index.html相应地调整文件。

我已经看到httrack有一些选项，例如--get_files它们似乎可以启用此功能，但我无法从文档中弄清楚如何。有任何想法吗？wget（如果可能的话，我也有兴趣实现这一点）。

wget httrack

2016-09-23T08:28:39.023

0 投票

0 回答

278 浏览

url - 遇到日语编码的 URL 时 Httrack 出错

我通常对 Httrack 没有任何问题，但是这一次，我发现它无法抓取具有非 ascii 字符的页面，例如这个日语 URL：

domain.com/リーク情报の真伪のほ/

（浏览器这样读取：domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/)

Httrack 可以抓取 50% 的文件夹，但里面的 html 文件都是 0kb。其他 50% 的字符串完全是乱码，而且也是空的。

然后我尝试了 DOS/ISO 爬取选项，但它改变了太多结构（并使所有文件/文件夹大写）。

有什么方法可以让 httrack 在这些 url 上正常工作？

url character-encoding httrack

2016-09-29T01:47:49.323

0 投票

1 回答

485 浏览

html - HTTrack 返回文件未找到

我使用以下命令下载了一个带有 HTTrack 的网站：

然后我在网站文件夹中找到了 index.html 文件并运行它。Chrome 返回消息：找不到文件。这很有趣，因为通常我用 httrack 解析的网站在我的文件系统上工作得很好。这种行为的原因是什么？

html html-parsing httrack

2016-10-09T11:49:48.163

0 投票

4 回答

6681 浏览

httrack - 使用 httrack 只下载一个站点，而不是外部站点

我尝试使用httrack下载我的 phpbb 论坛，但无论我使用什么设置，我都无法停止下载整个 wikipedia 站点以及许多其他链接在论坛中任何位置的网站......

我设法让它只下载索引页面，但这也不好。

我以为设置

在 Options->Scan Rules 中可以解决问题，但它继续再次下载整个维基百科:(

httrack

2016-12-13T18:12:43.593

0 投票

2 回答

966 浏览

html - 如何让 httrack 以原始名称而不是 index****.html 保存文件？

我在这里关注 HTTrack 文档示例：http: //httrack.kauler.com/help/User-defined_structure

我需要抓取的网站具有以下结构的 URL：

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等等

使用 HTTrack，我想下载网站保存文件的格式

HelpTopics.html MoreHelp.html等等

我在从上面链接的文档修改的命令行上使用它：

httrack "https://www.example.com" %n%[index.php?:-:::].%t

但我仍然将所有文件保存为index2b26.html等index2de7.html。

HTTrack 选项我做错了什么？这是因为原始站点上没有文件扩展名而导致中断example.com吗？

html web-scraping wget httrack

2017-07-11T19:28:33.903

1 2 3 4 5 6 7 8 9 10

问题标签 [httrack]

Reference