“httrack”的相关标签问题_Stack Overflow中文网

0 投票

5 回答

23866 浏览

http - 使用 httrack 镜像单页

我正在尝试使用 httrack ( http://www.httrack.com/ ) 来下载单个页面，而不是整个站点。因此，例如，当使用 httrack 下载 www.google.com 时，它应该只下载 www.google.com 下的 html 以及所有样式表、图像和 javascript，而不是跟随任何指向 images.google.com 的链接， labs.google.com 或 www.google.com/subdir/ 等。

我尝试了该-w选项，但没有任何区别。

什么是正确的命令？

编辑

我尝试使用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1，但它不会复制任何图像。

我基本上想要的只是下载该域的索引文件以及所有资产，而不是任何外部或内部链接的内容。

2009-12-28T07:55:19.370

0 投票

2 回答

4000 浏览

unix - httrack 跟随重定向

我尝试从用户提供的 URL 开始递归地镜像网页（当然有深度限制）。Wget 没有从 css/js 捕获链接，所以我决定使用httrack。

我尝试镜像一些这样的网站：

该网站使用重定向（301）到http://www.onet.pl:80，httrack 只是下载 index.html 页面：

仅此而已！当我运行时：

它做我想要的。

有没有办法让 httrack 跟随重定向？目前我只是将“www.”+url添加到 httrack 的 URL 中，但这不是一个真正的解决方案（不涵盖所有用户案例）。有没有更好的 linux 网站镜像工具？

unix download automation httrack

2012-08-11T21:26:06.910

0 投票

2 回答

7779 浏览

curl - httrack wget curl 抓取和获取

互联网上有许多用于下载网站静态副本的工具，例如 HTTrack。还有许多工具，有些是商业工具，用于从网站“抓取”内容，例如 Mozenda。然后有一些工具显然是内置在 PHP 和 *nix 等程序中的，您可以在其中“file_get_contents”或“wget”或“cURL”或只是“file()”。

我对这一切感到非常困惑，我认为主要原因是我遇到的所有描述都没有使用相同的词汇。至少从表面上看，他们似乎都在做同样的事情，但也许不是。

那是我的问题。这些工具到底在做什么？他们在做同样的事情吗？他们是否通过不同的技术做同样的事情？如果他们不做同样的事情，他们有什么不同？

curl download web-scraping wget httrack

2013-09-30T15:39:54.873

0 投票

0 回答

3959 浏览

javascript - 在执行 javascript 时使用 httrack 镜像网站

我想保存 www.youtube.com/tv 的镜像。我显然不想保存视频。我希望在本地副本中运行网站的代码，其他一切都可以保持远程。我想要的代码主要包含在2个文件中：live.js和app-prod.js。

我尝试使用 httrack。我在解析 javascript 以加载第一个文件之后的任何内容时遇到问题：live.js。%P 参数没有帮助。

它不会比 live.js 更进一步，因为需要执行一些 javascript 才能加载下一个文件。

我知道我可以使用任何浏览器手动执行此操作。我想自动化这个过程。

httrack 能够自己做到这一点吗？如果是，如何？

javascript http download youtube httrack

2013-11-13T15:51:41.840

0 投票

2 回答

6862 浏览

php - HTTrack 可以使用 cookie

我想从 URL 下载页面，很简单。但是在第一页我必须登录，就像我通常从普通浏览器一样。但是 HTTrack 正在从第一页下载，因为它无法使用我的 cookie 或登录。

我有什么办法解决这个问题吗？

php httrack

2013-12-03T22:14:42.167

0 投票

3 回答

5097 浏览

http - 如何使 HTTrack 仅下载当前域上的文件？

无论我多么努力，我似乎都无法让 httrack 保持指向其他域的链接完好无损。我试过使用这个--stay-on-same-domain论点，但这似乎没有做到。我也尝试过添加过滤器并没有这样做。

必须有一些我在这里缺少的选项。

http download httrack

2014-05-02T05:49:13.653

0 投票

1 回答

283 浏览

mysql - 如何将这个复杂的命令行 grep 语句的结果推送到 mysql 数据库？

此代码搜索网站 html 文件并提取域名列表...

结果看起来像这样。

domain1.com
domain2.com
domain3.com

我计划在非常大的网站上使用此代码，因此这将生成非常大的域名列表。另外，上面的代码会产生很多重复的域名。因此，我设置了一个具有唯一字段的 mysql 数据库，因此不会插入重复项。

使用我有限的编程知识，我将下面的这一行代码拼凑在一起，但这不起作用。当我执行命令时，我没有收到任何错误，只有一个新的命令提示符 > 和一个闪烁的光标。我假设我没有使用正确的语法或方法，和/或我想做的事情可能无法通过命令行。任何帮助深表感谢。

是的，我的数据库名称是域，我的表名称是域，我的字段名称是域。

mysql bash grep httrack

2014-05-24T22:31:11.507

0 投票

1 回答

106 浏览

mysql - 如何将 bash 命令的变量值输入 MySQL？

以下代码从网站中提取所有域名并将它们设置为$domain来自httrack数据流的值。

$domain 的值看起来像这样......

googlesyndication.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com peadig.com facebook.net ilovefreestuff.com w3.org ilovefreestuff.com yoast.com ilovefreestuff.com

我有我的数据库设置，这个命令运行良好。

我试图将变量中的每个单独的域从一个组合命令行中$domain的数据流动态插入到我的 MySQL 数据库中。httrack所以在我疯狂的脑海里，它应该看起来类似于下面......不幸的是，这不起作用。我没有得到任何输出，只是另一个 bash 提示符。

我不确定如何将$domain变量分割成单独的域，以便我可以为每个 MySQL 数据单元输入一个域，并且我不确定如何将结果通过管道传输到 MySQL，因为该命令是一个数据流。也许我需要一个 for 循环和一个 cut 命令？

mysql bash httrack

2014-05-25T17:00:06.453

0 投票

2 回答

8785 浏览

proxy - HTTrack 中的捕获 URL/捕获 URL 错误

从 HTTrack 单击捕获 URL 时出现问题。那就是它生成一个不正确的代理地址。

这是结果：

请暂时将浏览器的代理首选项设置为：

代理地址：fe80::141b:2ce3:3f57:fefb

代理端口：8080

我禁用了 IPV6。但它仍然如此。你能从http://clip2net.com/s/iyDXY7看到详细信息吗

proxy httrack

2014-07-20T07:46:06.457

0 投票

3 回答

2770 浏览

linux - linux - 如何下载整个站点的 .mp3 文件？

我想下载网站中的所有 mp3 文件（甚至在根文件夹和子链接中）。

例如，我想从“ http://example.org/musics/ ”和所有子链接下载所有 .mp3 链接。

我怎么能做到这一点？

谢谢你

linux ubuntu wget httrack

2014-11-13T20:53:54.940

问题标签 [httrack]

Reference