问题标签 [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - Node.js 获取 HTTP_USER_AGENT 并阻止 HTTrack
我想阻止我网站上的所有机器人(如 HTTrack)。通常,我会使用 .htaccess 文件通过 .htaccess 文件来阻止机器人RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
。
但是,我的服务器正在运行 Node.js Express。如何获取 HTTP_USER_AGENT 并在 Node.js 上执行块或重写?
wget - 我应该如何使用 wget 或 httrack 从文件夹(并且只有它的子文件夹)下载特定的文件类型?
我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想为文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了 5 个级别)
如何做到这一点的好方法?
wget - 镜像网站 - 403 Forbidden with user agent strings
我正在开发一个镜像美国大学学术目录的应用程序。为此,我有一个 Celery 工作者集群,它们使用wget
或httrack来镜像内容、样式和脚本,然后上传到我们的 S3 存储桶。
对于少数大学网站,我在使用 wget/httrack 和 Windows Chrome 用户代理字符串时遇到了 403 - Forbidden 错误。但是,我可以在浏览器中加载网页。
我最初认为 user agent 和 referer 是这里的问题,所以我将它们分别设置为 Chrome 50 user agent 和 google.com。但是,我仍然遇到这个问题。但是,如果我对所有这些 URL 使用 python请求库,我会收到 HTTP 200 响应。
我已经确保使用了 cookie,所以我很茫然。有什么理由requests
可以工作但wget
/httrack
不可以吗?
wget - 什么会阻止 Httrack 或 Wget 抓取我的网站?
我正在尝试克隆我的网站以显示它以进行离线演示。但是,我尝试使用 Httrack 或者使用 Wget,并且两者都停止到源树的第二级。可能是什么原因 ?
这是 Wget cmd :wget -r -linf -k -p -E robots=off http://ouistipix.com/
这是针对 Httrack 的:(httrack http://ouistipix.com/
默认)
知道我做错了什么吗?或者什么可以阻止进一步的爬行?
如果这可以帮助这是 Httrack 的日志:
html - 通过 HTTrack 从下载的 wbsite 中删除域 URL
我已经通过 HTTrack 下载了完整的网站。但是在下载该站点后,所有 URL 都包含该站点的域名 url,例如:www.example.com/index.html 而不是 index.html 有没有办法删除这个 url?
wget - 如何下载一个网站,包括所有带有以特定路径开头的链接的文件
我想基于 Wordpress 模板Inovado的样式构建一个静态网站。我使用 HTTrack(在 Linux 中)使用以下命令下载了该网站:
httrack http://inovado.hellominti.com
结果index.html
包含几个样式表,如下所示:
这些链接是指向 的“绝对”链接http://inovado.hellominti.com
。但是,我想将这些文件下载到本地目录,并index.html
相应地调整文件。
我已经看到httrack
有一些选项,例如--get_files
它们似乎可以启用此功能,但我无法从文档中弄清楚如何。有任何想法吗?wget
(如果可能的话,我也有兴趣实现这一点)。
url - 遇到日语编码的 URL 时 Httrack 出错
我通常对 Httrack 没有任何问题,但是这一次,我发现它无法抓取具有非 ascii 字符的页面,例如这个日语 URL:
domain.com/リーク情报の真伪のほ/
(浏览器这样读取:domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/)
Httrack 可以抓取 50% 的文件夹,但里面的 html 文件都是 0kb。其他 50% 的字符串完全是乱码,而且也是空的。
然后我尝试了 DOS/ISO 爬取选项,但它改变了太多结构(并使所有文件/文件夹大写)。
有什么方法可以让 httrack 在这些 url 上正常工作?
html - HTTrack 返回文件未找到
我使用以下命令下载了一个带有 HTTrack 的网站:
然后我在网站文件夹中找到了 index.html 文件并运行它。Chrome 返回消息:找不到文件。这很有趣,因为通常我用 httrack 解析的网站在我的文件系统上工作得很好。这种行为的原因是什么?
httrack - 使用 httrack 只下载一个站点,而不是外部站点
我尝试使用httrack下载我的 phpbb 论坛,但无论我使用什么设置,我都无法停止下载整个 wikipedia 站点以及许多其他链接在论坛中任何位置的网站......
我设法让它只下载索引页面,但这也不好。
我以为设置
在 Options->Scan Rules 中可以解决问题,但它继续再次下载整个维基百科:(
html - 如何让 httrack 以原始名称而不是 index****.html 保存文件?
我在这里关注 HTTrack 文档示例:http: //httrack.kauler.com/help/User-defined_structure
我需要抓取的网站具有以下结构的 URL:
https://www.example.com/index.php?HelpTopics
https://www.example.com/index.php?MoreHelp
等等
使用 HTTrack,我想下载网站保存文件的格式
HelpTopics.html
MoreHelp.html
等等
我在从上面链接的文档修改的命令行上使用它:
httrack "https://www.example.com" %n%[index.php?:-:::].%t
但我仍然将所有文件保存为index2b26.html
等index2de7.html
。
HTTrack 选项我做错了什么?这是因为原始站点上没有文件扩展名而导致中断example.com
吗?