问题标签 [webarchive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
338 浏览

ipad - 如何将存储在 filder 中的本地网站(我的 PC 上的目录)转换为 .webarchive 文件?

我的本地硬盘上有一个完整的网站 html、css、图像、javascript 和视频,所有这些都包含在一个文件夹中。

该网站在我的 PC 上运行良好,但我需要将其传输到 iPad,我认为这应该很容易......好吧,这不是因为我不能像在我的 PC 上一样复制网站并运行它。

所以我的下一步是尝试制作该网站的 .webarchive,但由于它有很多 jquery 和视频文件,我不能只使用 safari,因为它不会包含任何视频文件等等。

希望有人知道将文件夹转换为网络存档的工具或方法。

0 投票
3 回答
15737 浏览

html - 将 webarchive 转换为 html

我设法将一个复杂网站的行为收集到一个网络档案中。此后,我想将该 webarchive 变成一组 html 嵌套目录。然而,当我使用 Waf 和在 Apple 商店购买的商业软件进行操作时,我得到的只是嵌套目录,底部有 html 页面,没有图像,也没有 css 和工作链接。如果您有兴趣,网络存档文档位于:

http://www.miafoto.it/it/GiroMilano.webarchive

而提取的弱乘积在:

http://www.miafoto.it/it/Giromilano/Pagine/default.aspx

和上面的空目录。In addition to the different look, the webarchive displays the same behavior as the official web site - when a listbox vales is selected and then the button pushed - while the extracted version produces a page with no contents by loading itself rather than the official page. 如您所见,网络存档超过 1MB,而提取文件仅略高于 1 KB。

它有什么问题,我如何才能以可用的结果执行如此看似微不足道的业务?

谢谢,

0 投票
1 回答
187 浏览

open-source - 无需访问网站即可存档网页内容

我想在不访问实际网站的情况下获取网络数据。

http://archive.org/web/web.php是一个保存网站快照的例子。问题在于数据相当陈旧(5-6 个月)。

我们是否有任何其他存档存储可以找到最近的 html 内容?

谢谢

0 投票
2 回答
1267 浏览

caching - 使用来自 Internet 的缓存 Web 数据(Google Cache、Wayback Machine 等)

我想使用谷歌缓存访问其他网站的网页,即使不去访问它们。

如果我发出这样的查询 http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>,我们可以获得数据。

我发现/假设以下事情(问题 0。如果其中任何一个错误,请更正):

  1. 根据网站的政策,Google 可能有也可能没有缓存信息。
  2. 如果必须运行任何 javascript,Google 无论如何都会访问该网站。
  3. Google 只存储文本的前 101 KB。

问题 1. 我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能有多旧吗?

问题 2. 如果我打算去谷歌缓存我对该网站的所有点击(假设该网站被缓存并且我对小旧页面没问题)有什么问题吗?

问题 3. Wayback Machine 提供数据,但在抓取和显示数据之间存在巨大延迟。是否有任何目录可以让我们获取最近存档的数据(如 Wayback 机器和 Google 缓存)?

0 投票
1 回答
906 浏览

safari - 在没有 Safari 的 Windows 中创建 .webarchive?

有没有办法使用 Windows 而不使用 Safari 将网站转换为 Safari 的 .webarchive?

我知道这是一个奇怪的请求,但我需要创建 .webarchive 文件并将它们加载到 UIWebView 中,并且(由于我无法控制的各种原因)使用 Safari 或 Mac 不是一种选择。

我在想 Webkit 可能有一些可用的方法,但运气不佳。

0 投票
1 回答
3383 浏览

android - 如何在 android 中将 webview 存档文件获取到 InputStream?

我之前问过一个关于将存档文件加载到 WebView 的类似问题。

根据教程,我必须将存档文件加载到 InputStream,以便我可以使用 WebArchiveReader.java 中的 loadToWebView 方法。

但是,在教程中,作者使用以下语句获取存档文件:

不幸的是,我想从“资产”文件夹以外的其他地方获取存档文件。

假设我想加载上面代码中保存的文件“yahoo.html”。

我怎样才能把它放到 InputStream 的实例中?

0 投票
1 回答
166 浏览

wordpress - wordpress.com上的博客创建时间可以确定吗?

是否有可能今天在 wordpress.com 上写博客,并给它一个过去另一个时间的日期?

另一个问题是如何找到http://wordpress.com/中的博客的创建时间?我所说的博客是指用户的博客,其 URL 类似于 user.wordpress.com。

0 投票
1 回答
145 浏览

java - 动态处理 HTML 上的链接文件

我有一个备用网站。类似于Wayback 机器。当我返回 HTML 的内容时,很明显,链接的文档(如图像、javascript 文件、css 文件等)是从原始 Web 服务器(而不是我的服务器)加载的。现在我想替换这些链接,以便从我的服务器加载它们。我有两种方法可以采取:

  1. 使用 Java 或 PHP 在服务器端进行。我可以同时使用 Java 和 PHP 来做到这一点。例如在 Java 中,我可以使用 jSoup 来解析 HTML 并替换链接。
  2. 使用 jQuery 在客户端执行此操作。

使用第二种方法意味着我不必在我的服务器上增加负载来解析 HTML,但我认为,一旦页面被加载,文件就会开始从原始服务器下载,并且用户的带宽将被浪费。

另一方面,如果我能以某种方式确定图像是否已成功下载,我可以跳过从我的服务器下载并让用户使用从原始服务器下载的文件。

您对此有何建议?

更新

关于相对和绝对链接,我应该做一些澄清。我的服务上的链接存储为绝对路径。但是,HTML 文档可能同时具有这两种类型的链接。我需要做的是:

  • 转换http://stackoverflow.com/images/image.pnghttp://mysite.com/view/content?url=http://stackoverflow.com/images/image.png
  • /images/image.png(在 上http://stackoverflow.com)转换为http://mysite.com/view/content?url=http://stackoverflow.com/images/image.png

简而言之,HTML上的相对链接应该转换为绝对链接,然后作为URL参数发送到我的网站。

0 投票
1 回答
267 浏览

cocoa - 从 Mail.app 和 Notes.app 显示 WebArchive

Cocoa 的 WebView 可以显示 .webarchive 文件。我尝试显示的内容来自粘贴板,例如在 Safari 或 Mail.app 中复制网页的部分内容时。

我遇到的问题是来自 Mail 和 Notes 的 webarchives 不会显示在 WebView 中,而来自 Safari 的 webarchives 会显示。

我查看了这些档案的数据(BBEdit 可以解密它们的二进制 plist 格式并将其很好地显示为 XML),发现问题是由 Mail(和 Notes)放在那里的不寻常的 URL 引用引起的:

如果我删除该条目或使用 http:// 将其更改为某些内容,WebView 突然可以显示此类存档。

现在,我如何在我的代码中解决这个问题?

我不想解码 webarchive,找到 WebResourceURL 条目并将其删除,然后再将存档传递给 WebFrame 进行加载。

我想知道我是否必须使用 WebView 或其主框架设置其他东西才能完成这项工作。

我注意到 Xcode 可以很好地显示这些 webarchives,这表明 Xcode 以更“正确”的方式使用 WebKit 来解决问题。但是,也许这只是因为它让 NSWebFrame 从磁盘加载存档,而我的代码从 CFData 对象加载它 - 从文件加载时,WebKit 可能使用该文件 URL 作为基本 URL,而它只会阻塞它当它根本没有获得可用的 URL 时。


我在这里为 Xcode 创建了一个小演示项目:http: //files.tempel.org/Various/Mail-WebArchive-Display-Issue.zip

它包括来自 Mail 的原始存档(“mail-bad.webarchive”)和固定存档(“mail-good.webarchive”),两者都显示在演示应用程序的两个 webView 中。


我还使用 Apple DTS 打开了技术支持 Indident (TSI),并回复说我应该提交错误。可以在此处查看错误报告:http: //openradar.appspot.com/radar?id= 2843403

0 投票
1 回答
247 浏览

iphone - 读取本地 webarchive 文件 - 偶尔 - 返回 null WebResourceData

阿罗哈,

我在 iOS 6.1.3 读取 webarchive 文件时遇到了一个问题,其中 -偶尔- WebResourceData 返回空值。

这些是存储在包中的已知良好文件(在 TextEdit 中创建),通常可以正常读取。只是每隔一段时间,他们就不会。

在下面显示的简单测试中,我一遍又一遍地读取 3 个不同的文件,直到发现错误。对于 iOS 6.1.3,每次运行测试时,我都会遇到 1 到 200 次迭代之间的错误。我已经在各种设备和模拟器上运行了它,结果相同。

错误显示在这两行中:

但这并不一致。我通过创建一个新的 xcode 项目来隔离代码,这是唯一的活动,而不是显示迭代计数和重新测试按钮。文件总是加载,并且总是有一个带有 WebResourceData 键的 WebMainResource。

一个可能的线索是,如果我将代码插入到 ViewDidLoad 中,它会运行更多次迭代,但仍会找到空值。从按钮操作中调用 [self testMe] 会更快地出现错误……不知道为什么。

我有点不知所措,希望这不是 iOS 错误,而是我缺少的一些基本的东西。任何帮助,将不胜感激。