问题标签 [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
23866 浏览

http - 使用 httrack 镜像单页

我正在尝试使用 httrack ( http://www.httrack.com/ ) 来下载单个页面,而不是整个站点。因此,例如,当使用 httrack 下载 www.google.com 时,它应该只下载 www.google.com 下的 html 以及所有样式表、图像和 javascript,而不是跟随任何指向 images.google.com 的链接, labs.google.com 或 www.google.com/subdir/ 等。

我尝试了该-w选项,但没有任何区别。

什么是正确的命令?

编辑

我尝试使用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1,但它不会复制任何图像。

我基本上想要的只是下载该域的索引文件以及所有资产,而不是任何外部或内部链接的内容。

0 投票
2 回答
4000 浏览

unix - httrack 跟随重定向

我尝试从用户提供的 URL 开始递归地镜像网页(当然有深度限制)。Wget 没有从 css/js 捕获链接,所以我决定使用httrack

我尝试镜像一些这样的网站:

该网站使用重定向(301)到http://www.onet.pl:80,httrack 只是下载 index.html 页面:

仅此而已!当我运行时:

它做我想要的。

有没有办法让 httrack 跟随重定向?目前我只是将“www.”+url添加到 httrack 的 URL 中,但这不是一个真正的解决方案(不涵盖所有用户案例)。有没有更好的 linux 网站镜像工具?

0 投票
2 回答
7779 浏览

curl - httrack wget curl 抓取和获取

互联网上有许多用于下载网站静态副本的工具,例如 HTTrack。还有许多工具,有些是商业工具,用于从网站“抓取”内容,例如 Mozenda。然后有一些工具显然是内置在 PHP 和 *nix 等程序中的,您可以在其中“file_get_contents”或“wget”或“cURL”或只是“file()”。

我对这一切感到非常困惑,我认为主要原因是我遇到的所有描述都没有使用相同的词汇。至少从表面上看,他们似乎都在做同样的事情,但也许不是。

那是我的问题。这些工具到底在做什么?他们在做同样的事情吗?他们是否通过不同的技术做同样的事情?如果他们不做同样的事情,他们有什么不同?

0 投票
0 回答
3959 浏览

javascript - 在执行 javascript 时使用 httrack 镜像网站

我想保存 www.youtube.com/tv 的镜像。我显然不想保存视频。我希望在本地副本中运行网站的代码,其他一切都可以保持远程。我想要的代码主要包含在2个文件中:live.js和app-prod.js。

我尝试使用 httrack。我在解析 javascript 以加载第一个文件之后的任何内容时遇到问题:live.js。%P 参数没有帮助。

它不会比 live.js 更进一步,因为需要执行一些 javascript 才能加载下一个文件。

我知道我可以使用任何浏览器手动执行此操作。我想自动化这个过程。

httrack 能够自己做到这一点吗?如果是,如何?

0 投票
2 回答
6862 浏览

php - HTTrack 可以使用 cookie

我想从 URL 下载页面,很简单。但是在第一页我必须登录,就像我通常从普通浏览器一样。但是 HTTrack 正在从第一页下载,因为它无法使用我的 cookie 或登录。

我有什么办法解决这个问题吗?

0 投票
3 回答
5097 浏览

http - 如何使 HTTrack 仅下载当前域上的文件?

无论我多么努力,我似乎​​都无法让 httrack 保持指向其他域的链接完好无损。我试过使用这个--stay-on-same-domain论点,但这似乎没有做到。我也尝试过添加过滤器并没有这样做。

必须有一些我在这里缺少的选项。

0 投票
1 回答
283 浏览

mysql - 如何将这个复杂的命令行 grep 语句的结果推送到 mysql 数据库?

此代码搜索网站 html 文件并提取域名列表...

结果看起来像这样。

  • domain1.com
  • domain2.com
  • domain3.com

我计划在非常大的网站上使用此代码,因此这将生成非常大的域名列表。另外,上面的代码会产生很多重复的域名。因此,我设置了一个具有唯一字段的 mysql 数据库,因此不会插入重复项。

使用我有限的编程知识,我将下面的这一行代码拼凑在一起,但这不起作用。当我执行命令时,我没有收到任何错误,只有一个新的命令提示符 > 和一个闪烁的光标。我假设我没有使用正确的语法或方法,和/或我想做的事情可能无法通过命令行。任何帮助深表感谢。

是的,我的数据库名称是域,我的表名称是域,我的字段名称是域。

0 投票
1 回答
106 浏览

mysql - 如何将 bash 命令的变量值输入 MySQL?

以下代码从网站中提取所有域名并将它们设置为$domain来自httrack数据流的值。

$domain 的值看起来像这样......

googlesyndication.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com peadig.com facebook.net ilovefreestuff.com w3.org ilovefreestuff.com yoast.com ilovefreestuff.com

我有我的数据库设置,这个命令运行良好。

我试图将变量中的每个单独的域从一个组合命令行中$domain的数据流动态插入到我的 MySQL 数据库中。httrack所以在我疯狂的脑海里,它应该看起来类似于下面......不幸的是,这不起作用。我没有得到任何输出,只是另一个 bash 提示符。

我不确定如何将$domain变量分割成单独的域,以便我可以为每个 MySQL 数据单元输入一个域,并且我不确定如何将结果通过管道传输到 MySQL,因为该命令是一个数据流。也许我需要一个 for 循环和一个 cut 命令?

0 投票
2 回答
8785 浏览

proxy - HTTrack 中的捕获 URL/捕获 URL 错误

从 HTTrack 单击捕获 URL 时出现问题。那就是它生成一个不正确的代理地址。

这是结果:

请暂时将浏览器的代理首选项设置为:

代理地址:fe80::141b:2ce3:3f57:fefb

代理端口:8080

我禁用了 IPV6。但它仍然如此。你能从http://clip2net.com/s/iyDXY7看到详细信息吗

0 投票
3 回答
2770 浏览

linux - linux - 如何下载整个站点的 .mp3 文件?

我想下载网站中的所有 mp3 文件(甚至在根文件夹和子链接中)。

例如,我想从“ http://example.org/musics/ ”和所有子链接下载所有 .mp3 链接。

我怎么能做到这一点?

谢谢你